英伟达新核弹GPU：800亿晶体管 20张即可承载全球-头条123

他来了他来了，老黄带着英伟达的新一代GPU来了。

之前年夜家猜的5nm错了，一手年夜欣喜，老黄间接上了台积电4nm工艺。

新卡取名H100，采取全新Hopper架构，间接集成了800亿个晶体管，比上一代A100足足多了260亿个。

内核数目则飙到了史无前例的16896个，到达上一代A100卡的2.5倍。

浮点计较和张量焦点运算才能也随之翻了少3倍，好比FP32就到达了到达60万亿次/秒。

出格注重的是，H100面向AI计较，针对Transformer搭载了优化引擎，让年夜模子练习速率间接 x 6。

(可算晓得5300亿参数的威震天-图灵背后的法门了。)

做为一款机能的全新GPU，不出不测，H100将与先辈V100、A100一样成为AI从业者心心念念的年夜宝物。

不外不能不提，它的功耗也了，到达了史无前例的700W，重回核弹级别。

关于自研的Grace CPU，此次年夜会也发布了更多细节。

没想到，老黄从库克那边学来一手1+1=2，两块CPU“粘”正在一路构成了CPU超等芯片——Grace CPU Superchip。

Grace CPU采取新 Arm v9架构，两块统共具有144个焦点，具有1TB/s的内存带宽，比苹果新 M1 Ultra的800GB/s还超出跨越一截。

基于全新CPU、GPU根本硬件，此次公布会也带来了下一代企业级AI根本举措措施DXG H100、环球快AI超算Eos。

固然，英伟达做为真实的元宇宙前驱，也少不了Omniverse上的新停顿。

上面详细来看看。

首款Hopper架构GPU，机能暴增

做为上一代GPU架构A100(安培架构)的担当者，搭载了全新Hopper架构的H100有多日新月异?

话未几说，先上参数：

老黄可谓下血本，先是间接采取了台积电4nm工艺，晶体管一口吻集成了800亿个。

要晓得，上一代A100还只是7nm架构，此次公布会出来前，外界很多声音猜想老黄会用5nm造程，成果一公布就给年夜家来了个年夜欣喜。

可骇的是CUDA焦点间接飙升到了16896个，间接到达了A100的近2.5倍。(要晓得从V100到A100的时辰，焦点也不外增添那末一丝丝)

此次可不克不及感伤老黄刀法精准了。

再看浮点运算和INT8/FP16/TF32/FP64的张量运算，机能根基全数晋升3倍不行，比拟来看，前两代的架构进级也显得小打小闹。

那也使得H100的热功耗(TDP)间接到达了史无前例的700w，英伟达“核弹工场”名不虚传(手动狗头)。

话又说返来，此次H100也是首款撑持PCle 5.0和HBM3的GPU，数据处置速率进一步飞升——内存带宽到达了3TB/s。

那是甚么观点?

老黄正在公布会上奥秘一笑：只需求20个H100正在手，环球互联网流量我有。

团体参数细节事实若何，与前代A100和V100对照一下就晓得了：

△图源@anandtech

值得一提的是，Hopper架构的新GPU和英伟达CPU Grace名字组正在一路，就成了闻名女性计较机科学家Grace Hopper的名字，那也被英伟达用于定名他们的超等芯片。

Grace Hopper发现了天下上一个编译器和COBOL说话，有“计较机软件工程一夫人”之称。

练习3950亿参数年夜模子仅1天

固然，Hopper的新特征远不行表现正在参数上。

此次，老黄特地正在公布会上侧重提到了Hopper初次装备的Transformer引擎。

嗯，专为Transformer打造，让那类模子正在练习时连结精度稳定、机能晋升6倍，意味着练习时候从几周收缩至几天。

怎样表示?

此刻，不管是练习1750亿参数的GPT-3 (19小时)，仍是3950亿参数的Transformer年夜模子(21小时)，H100都能将练习时候从一周收缩到1天以内，速率晋升高达9倍。

推理机能也是年夜幅晋升，像英伟达推出的5300亿 Megatron模子，正在H100上推理时的吞吐量比A100间接超出跨越30倍，呼应提早下降到1秒，能够说是完善hold住了。

不能不说，英伟达那波确切闯入了Transformer阵营。

正在此之前，英伟达一系列GPU优化设想根基都是针对卷积架构停止的，靠近要把“I love 卷积”那几个字印正在脑门上。

要怪只怪Transformer比来其实太受接待。(手动狗头)

固然，H100的亮点不行如斯，陪伴着它和英伟达一系列芯片，随后城市引进NVIDIA NVLink 四代互连手艺。

也就是说，芯片堆堆乐的效力更高了，I/O带宽更是扩大至900GB/s。

此次，老黄还侧重提到了GPU的平安性，包罗实例之间具有断绝庇护、新GPU具有秘密计较功用等。

固然，数学计较才能也晋升了。

此次H100上新的DPX指令能够加快静态计划，正在运算途径优化和基因组学正在内的一系列静态计划算法时速率晋升了7倍。

据老黄先容，H100会正在本年三季度起头供货，网友讥讽“估量也廉价不了”。

今朝，H100有两个版本可选：

一个就是功率高达700W的SXM，用于高机能办事器;另外一个是合用于更支流的办事器PCIe，功耗也比上一代A100的300W多了50W。

4608块H100，打造环球快AI超算

H100都公布了，老黄天然不会放过任何一个搭建超等计较机的机遇。

基于H100推出的新 DGX H100计较体系，与上一代“烤箱”一样，一样也是装备8块GPU。

分歧的是，DGX H100体系正在FP8精度下到达了32 Petaflop的AI机能，比上一代DGX A100体系整整高了6倍。

各GPU之间的毗连速率也变得更快，900GB/s的速率靠近上一代的1.5倍。

关头的是，此次英伟达还正在DGX H100根本上，搭建了一台Eos超等计较机，一举成为AI超算界的机能TOP 1——

光就18.4 Exaflops的AI计较机能，就比日本的“富岳”(Fugaku)超等计较机快了4倍。

那台超算装备了576个DGX H100体系，间接用了4608块H100。

即便是传统科学计较，算力也能到达275 Petaflops (富岳是442 Petaflops)，跻身前5的超算是没甚么题目。

“拼拆”CPU，跑分红了TOP1

本次GTC年夜会，老黄依然“提了几嘴”超等办事器芯片Grace。

它正在客岁4月份的GTC年夜会就已有所表态，和那时一样，老黄暗示：无望2023年能够起头供货，归正本年是不成能碰上了。

不外，Grace的机能却是值得一提，有了“惊人停顿”。

它被用正在两个超等芯片中：

一个是Grace Hopper超等芯片，单MCM，由一个Grace CPU和一个Hopper架构的GPU构成。

一个是Grace CPU超等芯片，由两个Grace CPU构成，经由过程NVIDIA NVLink-C2C手艺互连，包罗144个Arm焦点，并有着高达1TB/s的内存带宽——带宽晋升2倍的同时，能耗“只要”500w。

很难不让人遐想到苹果刚发的M1 Ultra，看来片间互连手艺的停顿，让“拼拆”成了芯片行业一年夜趋向。

Grace超等芯片正在SPECrate?2017_int_base基准测试中的摹拟机能到达了740分，是当前DGX A100 搭载的CPU的1.5倍(460分)。

Grace超等芯片能够运转正在一切的NVIDIA计较平台，既可做为自力的纯CPU体系，也可做为 GPU加快办事器，操纵NVLink-C2C手艺搭载一块至八块基于Hopper架构的GPU。

(嗯，刚说完，老黄的芯片堆堆乐就堆上了。)

值得一提的是，英伟达对三方定造芯片开放了NVLink-C2C。

它是一种超快速的芯片到芯片、裸片到裸片的互连手艺，将撑持定造裸片与NVIDIA GPU、CPU、DPU、NIC 和SOC之间实现分歧的互连。

也许，任天国新掌机能够等候一波?

连产业也要正在元宇宙里弄

固然，除上述内容以外，此次英伟达也流露了很多与产业利用相干的案例。

而不管是主动驾驶、仍是包罗假造工场的数字孪生等场景，都与计较机衬着和仿实手艺有着密不成分的干系。

英伟达以为，产业上一样能经由过程正在假造情况中摹拟的体例，来增添AI练习的数据量，换而言之就是“正在元宇宙里弄年夜练习”。

比方，让AI智能驾驶正在元宇宙里“练车”，操纵仿实出来的数据弄出半实在情况，增添一些能够突发毛病的情况摹拟：

又比方，弄出等比例、与实际情况中质料等参数完整一样的“数字工场”，正在制作前先提早完工试运转，和时排查能够呈现题目的情况。

除数字孪生，数字资产的出产也是元宇宙初期扶植阶段需求侧重斟酌的部门。

正在那方面，英伟达推出了随时随地能正在云端合作的Omniverse Cloud。

成心思的是，此次公布会上还演示了一套AI驱动假造脚色体系。

实际中3天，假造脚色正在元宇宙里靠强化进修苦练10年工夫。

等练成一身本事，出来不管到游戏仍是动画里都是个好“行动演员”。

用它天生动画无需再绑定骨骼、k帧，用天然说话下指令便可，就像导演和实人演员一样相同，年夜年夜收缩开辟流程。

要论元宇宙基建还得看老黄啊。

Venturebeat对此评价称，“那些案例给元宇宙付与了真实的意义”。

那末，你看好英伟达的omniverse远景吗?

更多详情，能够戳完全演讲地点(带中字哦)：https://www.nvidia.cn/gtc-global/keynote/?nvid=nv-int-bnr-223538&sfdcid=Internal_banners

参考链接：

[1]https://www.anandtech.com/show/17327/nvidia-hopper-gpu-architecture-and-h100-accelerator-announced

[2]https://venturebeat.com/2022/03/22/nvidia-gtc-how-to-build-the-industrial-metaverse/

本文地址：https://www.toutiao123.net/news/27793.html
版权声明：本文为原创文章，版权归头条123 所有，欢迎本文，转载请保留出处！