米兰·(milan)中国官方网站- Blackwell 架构GPU性能暴涨30倍,英伟达没给追赶者一点机会 |GTC 2024

2026-04-08 07:48:44

导语:加快计较已经达到临界点,通用计较已经掉去动力。

去年英伟达市值冲破1万亿以后,这家加快计较公司于全世界规模内就吸引了愈来愈多的存眷。

本年2月,英伟达的市值一度冲破2万亿,让这家加快计较公司的热度再次爬升,也让今天于加州圣何塞进行的GTC 2024挤满了来自全世界各地超11000名预会者。

“将来将是可天生的,这就是为何这是一个全新的行业。”NVIDIA 开创人兼首席履行官黄仁勋开场就说,“咱们需要一种全新的计较方式——由此咱们才可以继承扩大,继承降低计较成本,并于包管可连续性的同时继承举行愈来愈多的计较。”

黄仁勋说道,“加快计较已经达到临界点,通用计较已经掉去动力。与通用计较比拟,加快计较使每一个行业均可以年夜幅提速。”

Blackwell 架构GPU性能暴涨30倍,英伟达没给追赶者一点机会 |GTC 2024

全新的行业需要更年夜的模子,更年夜的多模态AI需要更年夜的GPU。

黄仁勋从口袋里取出一块全新的Blackwell芯片,将它与Hopper芯片并排举起,后者显患上小了一些。

Blackwell 架构GPU性能暴涨30倍,英伟达没给追赶者一点机会 |GTC 2024

基在NVIDIA GB200构建的DGX SuperPOD,比拟英伟达前代H100 GPU构建的体系,年夜语言模子机能飙升了30倍,可以或许处置惩罚万亿参数的模子。

架构迭代带来云云巨年夜的机能晋升,证实了英伟达依旧于加快计较的门路上飞速进步,英伟达进一步拉年夜了与追逐者们间隔。

英伟达还有有更弘远的方针,GTC2024上推出的NVIDIA NIM微办事,经由过程推理加快让天生式AI可以或许普和,这才是天生式AI贸易价值更高之处。

“下一波AI海潮将是AI对于物理世界的进修。”黄仁勋还有有更久远的结构。

Blackwell 架构怎样支撑10万亿参数模子需求?

最新的Blackwell 架构是两年前推出的Hopper架构的继续者,延续已往英伟达以科学家名字定名架构的方式,新架构因此一名加州年夜学伯克利分校的数学家 David Harold Blackwell 定名。这位数学家专门研究博弈论及统计学,是第一名入选美国国度科学院的黑人学者。

比拟Hopper架构GPU,Blackwell架构GPU单芯片练习机能(FP8)是Hopper架构的2.5 倍,推理机能(FP4)是Hopper架构的5倍。

Blackwell 架构GPU性能暴涨30倍,英伟达没给追赶者一点机会 |GTC 2024

Blackwell 架构GPU性能暴涨30倍,英伟达没给追赶者一点机会 |GTC 2024

要让Blackwell架构支撑高达10万亿参数的模子练习及及时 LLM 推理,需要一系列怪异的技能。

进步前辈的工艺及Chiplet技能就是要害之一,Blackwell架构GPU具备2080亿个晶体管,采用专门定制的双倍光刻极限尺寸 4NP TSMC 工艺制造,经由过程 10 TB/s 的片间互联,将 GPU 裸片毗连成一块同一的 GPU。

为了更好撑持Transformer模子,Balckwell架构集成为了第二代Transformer 引擎,撑持全新微张量缩放,集成在NVIDIA TensorRT-LLM 及NeMo Megatron框架中的NVIDIA动态规模治理算法,Blackwell将于新型FP4 AI推理能力下实现算力及模子巨细翻倍。

Blackwell 架构GPU性能暴涨30倍,英伟达没给追赶者一点机会 |GTC 2024

为了扩展Blackwell范围,NVIDIA构建了一款名为NVLink Switch的新芯片。每一个芯片可以以每一秒1.8 TB的速率(险些是上一代的10倍)毗连四个NVLink,经由过程削减收集内流量来消弭流量堵塞,帮忙构建GB200。

Blackwell 架构GPU性能暴涨30倍,英伟达没给追赶者一点机会 |GTC 2024

NVIDIA GB200 Grace Blackwell 超等芯片经由过程 900GB/s 超低功耗的NVLink芯片间互连,将两个 Blackwell NVIDIA B200 Tensor Core GPU 毗连到 NVIDIA Grace CPU。

GB200是NVIDIA GB200 NVL72 的要害组件。

NVIDIA GB200 NVL72是多节点、液冷、机架级体系,将36个Grace Blackwell超等芯片组合于一路,此中包罗经由过程第五代NVLink彼此毗连的72 个Blackwell GPU 及 36 个 Grace CPU,还有内置 NVIDIA BlueField-3 数据处置惩罚器,可于超年夜范围 AI 云中实现云收集加快、组合式存储、零信托安全及 GPU 计较弹性。

Blackwell 架构GPU性能暴涨30倍,英伟达没给追赶者一点机会 |GTC 2024

相较在一样数目的NVIDIA H100 Tensor Core GPU,GB200 NVL72 最高可提供 30 倍的机能晋升以和25 倍的成本及能耗降低。

NVIDIA GB200 NVL72于单个机架中可实现720 petaflops 的 AI 练习机能及 1.4 exaflops 的 AI 推理机能。该呆板包罗600,000个零件,重3,000磅(约1360.78千克)。

黄仁勋先容:“此时现在,地球上或许只有三台百亿亿次浮点运算(exaflop)呆板。而这是一个单一机架中的 1 个百亿亿次浮点运算AI 体系。”

要进一步实现对于10万亿参数年夜模子的撑持,需要更强盛的DGX SuperPOD。

Grace Blackwell 架构的 DGX SuperPOD 由 8 个或者以上的 DGX GB200(每一个包罗36 个 NVIDIA Grace CPU 及 72 个 NVIDIA Blackwell GPU)体系构建而成,采用新型高效液冷机架范围架构。

这个体系还有需要经由过程GTC 2024发布的第五代NVIDIA NVLink,NVIDIA BlueField-3 DPU,NVIDIA Quantum-X800 InfiniBand 收集(为每一块GPU提供每一秒800 GB 的带宽),新一代 DGX SuperPOD 架构的收集计较能力提高了4倍,可扩大到数万个 GB200 超等芯片。

用户可经由过程 NVLink 毗连 8 个 DGX GB200 体系中的 576 块 Blackwell GPU,可于 FP4 精度下提供 11.5 exaflops 的 AI 超等计较能力及 240 TB 的快速内存,并可经由过程分外的机架举行扩大。

2016 年,黄仁勋给OpenAI的DGX算力是 0.17Petaflops,此刻DGX GB200的算力以 exaflop 计较。

Blackwell 架构GPU性能暴涨30倍,英伟达没给追赶者一点机会 |GTC 2024

除了了GB200,NVIDIA还有发布了一款同一用在 AI 模子练习、微和谐推理的通用 AI 超等计较平台 NVIDIA DGX B200 体系。

DGX B200是DGX 系列的第六代产物,利用风冷机架设计,包罗 8 个 NVIDIA B200 Tensor Core GPU及2个第五代英特尔至强处置惩罚器。

DGX B200体系可提供144 petaflops(FP4精度)的AI机能、1.4TB的 GPU 显存及 64TB/s 的显存带宽,使患上该体系万亿参数模子及时推理速率比上一代产物晋升了 15 倍。

别的,DGX B200 体系也包罗带有8个NVIDIA ConnectX-7 网卡及2个BlueField-3 DPU 的高机能收集,每一个毗连的带宽高达400 Gb/s,可经由过程 NVIDIA Quantum-2 InfiniBand 及 NVIDIA Spectrum-X 以太网收集平台撑持更高的 AI 机能。

“将来,数据中央将成为 AI 工场”,黄仁勋说,“AI 工场的任务是创造收入,同时也创造智能。”

AI推理微办事挖掘「金矿」

“天生式 AI 转变了运用步伐的编写方式。”黄仁勋注释,将来的公司会将精神放于组装 AI 模子,付与它们使命,给出事情产物示例,审查规划及中间成果,而不是编写软件。

GTC 2024上,NVIDIA NIM微办事推出,这是按照 NVIDIA 的加快计较库及天生式 AI 模子构建,提供基在 NVIDIA 推理软件的预构建容器,包括Triton 推理办事器及TensorRT-LLM,使开发者可以或许将部署时间从几周缩短至几分钟。

Blackwell 架构GPU性能暴涨30倍,英伟达没给追赶者一点机会 |GTC 2024

“企业IT行业正坐于一座‘金矿’上,”黄仁勋说道, “他们拥有多年来创立的所有这些使人赞叹的东西(及数据)。假如他们能把这个‘金矿’酿成 AI 助手,就能给用户提供更多可能。”

NVIDIA 帮忙领先的科技公司,包括 Cohesity、NetApp、SAP、ServiceNow 及 Snowflake 构建 AI 助手及虚拟助理。其它范畴也正于采用。

于电信范畴,NVIDIA推出 6G研究云,这是由 AI 及 Omniverse 撑持的天生平台,它采用 NVIDIA 的 Sionna 神经无线电框架、NVIDIA Aerial CUDA 加快无线电接入收集及 NVIDIA Aerial Omniverse Digital Twin for 6G 构建。

于半导体设计及制造范畴,NVIDIA 正于与 TSMC 及 Synopsys 互助,将计较光刻平台 cuLitho 投入出产,这一平台将把半导体系体例造入彀算最密集的事情负载加快 40-60 倍。

黄仁勋还有公布推出NVIDIA 地球天气数字孪生Earth-2,可实现交互式高分辩率模仿,户于数秒内发布预警及最新预告,利用传统模子于CPU上运行需要耗时数分钟以致数小时。

黄仁勋暗示,AI 的最年夜影响将表现于医疗范畴,NVIDIA 已经经涉足成像体系、基因测序仪器,并与领先的手术呆板人公司互助。

NVIDIA 正于推出一种新型生物学软件。 GTC 2024发布了二十多个新的微办事,使全世界医疗企业可以或许于任何处所、任何云上使用天生式 AI 的最新进展。

下一波AI海潮将是 AI 对于物理世界的进修

黄仁勋说,“咱们需要一个模仿引擎,以数字方式为呆板人出现世界,如许呆板人就有了一个进修怎样成为呆板人的‘健身房’,咱们称这个虚拟世界为 Omniverse。”

NVIDIA公布将以API情势提供 NVIDIA Omniverse Cloud,将全世界领先的工业数字孪生运用及事情流创立平台的笼罩规模扩大到整个软件制造商生态体系。

为了展示其事情道理,黄仁勋分享了一个呆板人堆栈的演示——利用多摄像头感知及追踪,看顾工人并协调呆板人叉车,于整个呆板人仓库运行的环境下,这些叉车可以或许实现主动驾驶。

NVIDIA还有公布将把 Omniverse 引入 Apple Vision Pro 中,经由过程新的 Omniverse Cloud API,开发者可以将交互式工业数字孪生流式传输到 VR 头显中。

Blackwell 架构GPU性能暴涨30倍,英伟达没给追赶者一点机会 |GTC 2024

一些全世界年夜型工业软件制造商正于采用 Omniverse Cloud API,包括 Ansys、Cadence、达索体系旗下 3DEXCITE 品牌、Hexagon、微软、罗克韦尔主动化、西门子及 Trimble 等。

呆板人的巨年夜空间

“所有会动的工具均可能成为呆板人,汽车行业将是此中的一个主要部门。”黄仁勋暗示。

雷峰网(公家号:雷峰网)相识到,比亚迪已经选择 NVIDIA 的下一代计较平台用在其主动驾驶汽车,于 DRIVE Thor 上构建其下一代电动汽车车队。昊铂、小鹏、抱负汽车、极氪也已经经公布将于DRIVE Thor上构建其将来的汽车产物。

人形呆板人也是呆板人的主要标的目的。

为此NVIDIA公布了 Project GR00T(代表通用呆板人 00 技能),这是一个为人形呆板人设计的通用基础模子。

Blackwell 架构GPU性能暴涨30倍,英伟达没给追赶者一点机会 |GTC 2024

GR00T 脱胎在英伟达的 Isaac 呆板人平台东西,GR00T 驱动的人形呆板人可以或许接管文本、语音、视频甚至现场演示的输入,并对于其举行处置惩罚以采纳特定的操作,包括理解天然语言、模仿人类举动、于实际世界中导航及交互。

黄仁勋还有推出了一款用在人形呆板人的新型计较机 Jetson Thor,它基在 NVIDIA Thor 体系级芯片,并对于 NVIDIA Isaac 呆板人平台举行了庞大进级。

Jetson Thor采用Blackwell架构,可提供每一秒 800 万亿次8位浮点运算 AI 机能,可以或许履行繁杂的使命并利用 Transformer 引擎处置惩罚多个传感器,以运行 GR00T 等多模态天生式 AI 模子。

假如用一句话总结GTC的全新发布,可以借用黄仁勋的“咱们创造了为天生式 AI 时代而生的处置惩罚器。”

雷峰网原创文章,未经授权禁止转载。详情见转载须知。

-米兰·(milan)中国官方网站

相关内容

All rights reserved ©2026 Jinko Power.Powered by Webfoss.沪ICP备15009312号-1