米兰·(milan)中国官方网站- 英伟达B300:AI推理的「加速器」,供应链的「下马威」

2026-04-06 03:28:08

导语:英伟达改良GPU内存的暗地里,是为满意OpenAI O3对于推理机能的更高要求。

近日,黄仁勋让海外科技圈提前过上了圣诞节。

因为硅、封装以和芯片违板的问题,英伟达的Blackwell GPU曾经屡次传出延迟发布的信息,但这并无让英伟达的脚步放缓。

于GB200及B200发布6个月后,英伟达就公布将推出全新的GPU GB300及B300。外界看来好像是一个按部就班的历程,但事实上,这长短常高效的迭代。全新GPU为年夜模子的推理及练习机能带来巨年夜的晋升,对于年夜模子公司及存储供给商来讲,无疑是一份巨年夜的圣诞礼品。

B300是台积电4NP工艺(英伟达定制工艺,属在5nm制程节点的一部门)节点上的一个全新流片。定制化工艺做了一个调解设计,专用在计较芯片,使患上B300浮点运算比B200高50%,GB300及B300的热设计功耗别离到达1.4KW及1.2KW,比拟之下,GB200及B200的热设计功耗别离为1.2KW及1KW。

此外,B300的内存从8-Hi(8层重叠)进级到12-Hi HBM3E,每一个GPU的HBM容量增长到288GB,但引脚速率将连结稳定,以是每一个GPU的内存带宽仍旧是8TB/s。不外,三星并无收到黄仁勋带来的礼品,由于至少于将来的9个月内,他们都没有时机拿到GB200及GB300的定单。

GPU卷内存的暗地里,是年夜模子的下一场战事「推理」

英伟达改良GPU内存的暗地里,是为满意OpenAI O3对于推理机能的更高要求。

OpenAI O3采用KVCache技能对于模子的推理能力举行优化,即经由过程缓存留意力机制中的键(Key)及值(Value)来削减冗余计较,从而提高模子推理的速率。要害就是缓存以前的旧数据,仅对于新输入的Token举行计较,以是对于缓存的机能提出了更高的要求。

下图是于差别批处置惩罚巨细下,利用H100及H200两种GPU处置惩罚长序列时,Meta开源年夜模子Llama3.1405B于FP8(8位浮点数暗示法)精度下的处置惩罚速率。输入设置为1000个Token,输出19000个Token,由此模仿OpenAI o1及o3模子中的思维链。

英伟达B300:AI推理的「加速器」,供应链的「下马威」

H100进级到H200的两个改良是:内存更高,速率更快。

因为更多的内存带宽(H200 4.8TB/s vs H100 3.35TB/s),于所有可比力的批处置惩罚中,交互效率凡是提高43%。

H200运行比H100更高的批处置惩罚,但成本降低了3倍。

内存容量晋升,于多个维度城市孕育发生影响。

因为哀求及相应之间的等候时间很长,推理模子可能会带来糟糕糕的用户体验。假如可以或许缩短推理时间,这将增长用户的付费意愿。

3倍的成本差异是巨年夜的。于中代进级中,硬件产物可以或许实现3倍的变化,这于某种水平上,比摩尔定律、黄氏定律或者其他所有硬件改良速率都要快患上多。

于年夜模子竞赛中,最具能力及差异化的模子可以或许收取显著的溢价,头部模子的毛利率跨越70%,而掉队模子毛利率低在20%。

固然,英伟达其实不是独一一家可以提高内存容量的公司。ASIC一样可以做到,且事实上AMD于这方面可能处在更有益的职位地方,MI300X的192GB、MI325X的256GB以和MI350X的288GB,这些产物的内存容量比英伟达要高。

GB200 NVL72及GB300 NVL72于机能及成本方面都有很年夜的晋升,于推理中利用NVL72的要害是它使患上72个GPU可以或许处置惩罚统一个问题,并同享内存,且延迟极低。世界上没有其他加快器拥有全互联的互换毗连以和可以或许经由过程互换机举行全约简操作。GB200 NVL72及GB300 NVL72为实现很多要害功效带来了革命性的变化:

更高的交互性使患上思维链的延迟更低。

72个GPU分离KVCache,以实现更长的思维链(加强智能)。

与典型的8个GPU办事器比拟,更好的批量巨细扩大,使患上成本更低。

于处置惩罚统一问题时,可以搜刮更多的样本,以提高正确性,终极晋升模子机能。

是以,NVL72的推理性价比比以前提高了10倍以上,尤其是于长推理链上。KVCache占用内存对于经济效益是致命的,但NVL72可以或许将推理长度扩大到10万以上token并于高批量中举行。

英伟达的「回身」,供给链的「震惊」

英伟达于GB300的设计上有很年夜的改动,对于在GB200, 英伟达提供整个Bianca板(包括Blackwell GPU,Grace CPU, 512GB的LPDDR5X、VRM全数集成于一块印刷电路板上)以和互换托盘及铜违板。

英伟达B300:AI推理的「加速器」,供应链的「下马威」

对于在GB300,英伟达再也不提供整个Bianca板,只提供“SXM Puck”模块上的B300以和BGA封装上的Grace CPU。HMC(混淆内存立方体)将由美国草创公司Axiado提供,替代失了以前的供给商Aspeed。此外,互换托盘及铜违板将仍由英伟达提供。

客户此刻需要自立采购计较板上其余的组件,外部存储器将采用LPCAMM模块,而不是焊接的LPDDR5X,美光或者将成为这些模块的重要供给商。

英伟达B300:AI推理的「加速器」,供应链的「下马威」

向SXM Puck的改变,为更多的OEM及ODM提供了介入供给计较托盘的时机,之前只有纬创资通及工业富联可以出产Bianca板。于此次供给商调解中,纬创资通成为最年夜输家,由于他们掉去了Bianca板的份额。相对于而言,工业富联虽然掉去了Bianca板的份额,但他们是SXM Puck模块的独家制造商,这部门带来的收益彻底可以抵消失Bianca板带来的丧失。英伟达虽然想找更多其他的SXM Puck模块供给商,但今朝还有没有现实下单。

另外一个庞大变化是VRM(电压调治模块),虽然SXM Puck上有一些VRM,但年夜部门的VRM将由超年夜范围厂商或者者OEM直接从VRM供给商处采购。

此外,英伟达还有于GB300平台上提供了800G ConnectX-8 NIC(收集接口卡),这使患上于InfiniBand及以太网上的横向扩大带宽翻倍。因为上市时间的影响,英伟达以前取缔了GB200的ConnectX-8,而且抛却了于Bianca板上启用PCIe Gen 6(PCI Express接口的最新一代尺度)。

市场信息注解,GB200及GB300的延迟发布,给硅谷的年夜厂们带来了很年夜的影响。而这暗地里通报出的旌旗灯号是从第三季度,年夜量定单转向了GB300。截至上周,所有年夜厂都决议利用GB300。一部门缘故原由是更高的机能及更年夜的内存,另外一方面,英伟达已经经节制了年夜厂模子练习的运气。

受制在产物上市时间、机架、冷却及电源功率密度的庞大变化,年夜厂于办事器层级没法对于GB200举行太多更改。这致使Meta抛却了但愿从博通及英伟达两个渠道采购收集接口卡(NICs)的但愿,转而彻底依靠英伟达。google也抛却了自家的收集接口卡,选择与英伟达互助。

硅谷年夜厂们习气了成本优化,从CPU到收集,再到螺丝及金属板。

亚马逊是一个破例,定制化让他们“被迫”选择了次优配置。因为亚马逊利用了PCIe互换机及效率较低的200G弹性织物适配器NIC,没法像Meta、google、微软、甲骨文、X及Coreweave那样部署NVL72,是以不能不利用NVL36,这也致使每一个GPU的成本更高,由于违板及互换机内容更多。

GB300的呈现为亚马逊带来起色,年夜厂可以或许定制主板、冷却体系等功效。这使患上亚马逊可以或许构建本身的定制主板,跟着更多组件采用水冷,以和K2V6 400G NIC于2025年第三季度撑持HVM(硬件虚拟化治理),亚马逊一样可使用NVL72架构,并年夜幅改善其整体拥有成本(TCO)。

本文由雷峰网(公家号:雷峰网)编译自:https://semianalysis.com/2024/12/25/nvidias-christmas-present-gb300-b300-reasoning-inference-amazon-memory-supply-chain/#b300-gb300-not-just-an-incremental-upgrade

雷峰网原创文章,未经授权禁止转载。详情见转载须知。

-米兰·(milan)中国官方网站

相关内容

All rights reserved ©2026 Jinko Power.Powered by Webfoss.沪ICP备15009312号-1