2026-01-29
milan米兰官方网站科技近50MW工商业分布式项目集中完工,赋能多元产业场景
了解详情
2026-04-01 07:14:59
导语:GTC2022上,英伟达还有带来了最强盛的CPU。 英伟达(Nvidia)一年一度的GTC年夜会准期所致,两年一更新的GPU架构Hopper也正式表态。 本年,NVIDIA开创人兼CEO黄仁勋于英伟达新总部年夜楼发布了一系列新品,从新架构GPU H100,到Grace CPU 超等芯片,再到汽车、边沿计较的硬件新品,以和周全的软件更新。 英伟达的全新发布再次向外界宣告,英伟达不止是一家芯片公司,而是全栈计较公司。他们正于增强其于AI、汽车等范畴的带领力,同时也于努力占领下一波AI海潮以和元宇宙的先机。 固然,作为一家发现GPU的公司,英伟达的全新GPU架构依旧是GTC 2022最值患上存眷的新品。 Nvidia Hopper新架构以美国计较机范畴的前驱科学家 Grace Hopper 的名字定名,将代替两年前推出的 NVIDIA Ampere 架构。比拟上一代产物,基在Hopper架构的H100 GPU实现了数目级的机能奔腾。 黄仁勋暗示,20个 H100 GPU 即可承托相称在全世界互联网的流量,使其可以或许帮忙客户推出进步前辈的保举体系以和及时运行数据推理的年夜型语言模子。 基在H100 GPU构建的各类体系,以和与Grace CPU 超等芯片组合的各类体系,共同英伟达多年构建强盛的软件生态,将成了英伟达掀起新一代计较海潮的能量。 H100 GPU将于本年第三季度出货,来岁上半年最先供货Grace CPU超等芯片。 最新Hopper架构H100 GPU的6年夜冲破 黄仁勋2020年从自家厨房端出确当时全世界最年夜7nm芯片Ampere架构GPU A100,两年后有了继任者——Hopper架构H100。英伟达H100 GPU采用专为英伟达加快计较需求设计优化的TSMC 4N 工艺,集成800亿个晶体管,显著晋升了AI、HPC、显存带宽、互连及通讯的速率,并可以或许实现近 5TB/s 的外部互联带宽。 H100同时也集多个首个在一身,包括首款撑持 PCIe 5.0 的 GPU,首款采用 HBM3 的 GPU,可实现 3TB/s 的显存带宽,全世界首款具备秘要计较功效的GPU。 H100的第二项冲破就是其加快器的 Transformer 引擎能于不影响精度的环境下,将Transformer收集的速率晋升至上一代的六倍。Transformer 让自监视进修成为可能,如今已经成为天然语言处置惩罚的尺度模子方案,也是深度进修模子范畴最主要的模子之一。 雷峰网(公家号:雷峰网)相识到,H100 将撑持谈天呆板人利用功效超强盛的monolithic Transformer 语言模子 Megatron 530B,吞吐量比上一代产物超出跨越 30 倍,同时满意及时对于话式 AI 所需的次秒级延迟。 H100的第三项冲破是进一步进级的第二代多实例GPU。上一代产物中,英伟达的多实例GPU技能可将每一个A100 GPU支解为七个自力实例来履行推理使命。新一代的Hopper H100与上一代产物比拟,于云情况中经由过程为每一个 GPU 实例提供安全的多租户配置,将 MIG 的部门能力扩大了 7 倍。 MIG 技能撑持将单个 GPU 分为七个更小且彻底自力的实例,以处置惩罚差别类型的使命。 H100的第四项冲破就是其是全世界首款具备秘要计较功效的加快器,隐私计较此前只能于CPU上实现,H100是第一个实现隐私计较的GPU,可掩护 AI 模子及正于处置惩罚的客户数据。秘要计较的上风于在其不仅能确保数据的秘要性,同时还有不影响机能,可以运用在医疗康健及金融办事等隐私敏感型行业的联邦进修,也能够运用在同享云基础举措措施。 H100的第五项冲破是于互联机能的晋升,撑持第4代 NVIDIA NVLink。如今的AI模子愈来愈年夜,带宽成了限定超年夜范围AI模子迭代的拦阻。英伟达将NVLink 联合全新的外接 NVLink Switch,可将 NVLink 扩大为办事器间的互联收集,至多可以毗连多达 256 个 H100 GPU,相较在上一代采用 NVIDIA HDR Quantum InfiniBand收集,带宽超出跨越9倍。 这项冲破可以带来的直接晋升是,使用 H100 GPU,研究职员及开发者可以或许练习重大的模子,好比包罗3950亿个参数的混淆专家模子,练习速率加快高达9倍,练习时间从几周缩短到几天。 H100的第六个冲破是对于新的 DPX 指令可加快动态计划,合用在包括路径优化及基因组学于内的一系列算法,英伟达的测试数据显示,与 CPU 及上一代 GPU 比拟,其速率晋升别离可达 40 倍及 7 倍。 别的,Floyd-Warshall 算法与 Smith-Waterman 算法也于H100 DPX指令的加快之列,前者可以于动态堆栈情况中为自立呆板人车队寻觅最优路线,后者可用在DNA及卵白质分类与折叠的序列比对于。 硬件冲破以外,英伟达也发布了一系列响应的软件更新,包括用在语音、保举体系及超年夜范围推理等事情负载的 NVIDIA AI 软件套件,还有有60多个针对于CUDA-X的一系列库、东西及技能的更新,可以或许加快量子计较及 6G 研究、收集安全、基因组学及药物研发等范畴的研究进展。 显而易见,H100 GPU的六项冲破,带来的是更高的计较机能,但这些机能的晋升及优化,全都指向AI计较,这也是英伟达进一步扩展于AI计较范畴带领力的表现。 NVIDIA Eos,比全世界最快超等计较机AI机能快 4 倍 有了机能进级的GPU,英伟达的第四代DGX体系DGX H100也随之表态,包括DGX POD及DGX SupePOD两种架构,可以或许满意年夜型语言模子、保举体系、医疗康健研究及天气科学的年夜范围计较需求。 每一个 DGX H100 体系配备八块 NVIDIA H100 GPU,并由 NVIDIA NVLink毗连,可以或许于新的 FP8 精度下到达 32 Petaflop 的 AI 机能,比上一代体系机能高6倍。每一个DGX H100 体系还有包罗两个NVIDIA BlueField-3 DPU,用在卸载、加快及断绝高级收集、存储和安全办事。 新的 DGX SuperPOD 架构采用全新的 NVIDIA NVLink Switch 体系,经由过程这一体系至多可毗连32个节点,共计256块H100 GPU。第四代NVLink与NVSwitch相联合,可以或许于每一个DGX H100体系中的各个GPU之间实现 900 GB/s 的毗连速率,是上一代体系的 1.5 倍。 新一代DGX SuperPOD机能一样显著晋升,可以或许提供1 Exaflops的FP8 AI机能,比上一代产物机能高6倍,可以或许运行具备数万亿参数的重大LLM事情负载,有助在鞭策天气科学、数字生物学及 AI 将来的成长。 基在DGX H100,英伟达将于本年晚些时辰最先运行全世界运行速率最快的 AI 超等计较机 —— NVIDIA Eos,“Eos"超等计较机共配备 576 台 DGX H100 体系,总计 4608 块 DGX H100 GPU,估计将提供 18.4 Exaflops 的 AI 计较机能,比日本的Fugaku(富岳)超等计较机快 4 倍,后者是今朝运行速率最快的体系。 于传统的科学计较方面,Eos 超等计较机估计将提供 275 Petaflop 的机能。 黄仁勋说:“对于在 NVIDIA 和OEM 及云计较互助伙伴,Eos 将成为进步前辈 AI 基础举措措施的蓝图。” 576个DGX H100体系可以或许构建一台全世界运行速率最快的AI体系,极少量的DGX SuperPOD 单位组合,也能够为汽车、医疗康健、制造、通讯、零售等行业提供开发年夜型模子所需的 AI 机能。 黄仁勋提到,为撑持正于举行AI开发的DGX客户,NVIDIA DGX-Ready软件互助伙伴(包括Domino Data Lab、Run:ai及Weights & Biases等)提供的MLOps解决方案将插手"NVIDIA AI 加快"规划。 为了简化AI部署,英伟达还有推出了DGX-Ready 托管办事规划,可以或许为但愿与办事提供商开展互助来监视其基础举措措施的客户提供撑持。经由过程新的 DGX-Ready 生命周期治理规划,客户还有可以借助新的 NVIDIA DGX 平台进级其现有 DGX 体系。 Grace CPU 超等芯片,最强盛的CPU 去年的GTC 21,英伟达首款数据中央CPU Grace表态,英伟达的芯片线路也进级为GPU+DPU+CPU。 本年的GTC 22,英伟达由推出了首款面向 AI 基础举措措施及高机能计较的基在Arm Neoverse的数据中央专属CPU Grace CPU 超等芯片。 Grace CPU 超等芯片是专为AI、HPC、云计较及超年夜范围运用而设计,可以或许于单个插座(socket)中容纳 144 个 Arm 焦点,于 SPECrate 2017_int_base 基准测试中的模仿机能到达业界领先的 740 分。按照 NVIDIA 试验室利用同类编译器估算,这一成果较当前DGX A100搭载的双CPU(AMD EPYC 7742)比拟高 1.5 倍以上。 黄仁勋奖饰:“Garce的一切都使人赞叹,咱们估计Grace超等芯片届时将是最强盛的CPU,是还没有发布的第5代顶级CPU的2到3倍。” 据先容,依托带有纠错码的LPDDR5x 内存构成的立异的内存子体系,Grace CPU 超等芯片可实现速率及功耗的最好均衡。LPDDR5x 内存子体系提供两倍在传统DDR5设计的带宽,可到达1 TB/s ,同时功耗也年夜幅降低 ,CPU加内存总体功耗仅500瓦。 值患上留意的是,Grace CPU超等芯片由两个CPU芯片构成,经由过程NVLink-C2C互连于一路。NVLink-C2C 是一种新型的高速、低延迟、芯片到芯片的互连技能,将撑持定制裸片与NVIDIA GPU、CPU、DPU、NIC 及 SOC 之间实现一致的互连。 借助进步前辈的封装技能,NVIDIA NVLink-C2C 互连链路的能效至多可比NVIDIA芯片上的PCIe Gen 5超出跨越25倍,面积效率超出跨越90倍,可实现每一秒900GB以致更高的一致互联带宽。 患上益在Grace CPU 超等芯片可以运行所有的英伟达计较软件栈,包括NVIDIA RTX、NVIDIA HPC、NVIDIA AI 及 Omniverse。Grace CPU超等芯片联合NVIDIA ConnectX-7 网卡,可以或许矫捷地配置到办事器中,可以作为自力的纯CPU体系,或者作为GPU加快办事器,搭载一块、两块、四块或者八块基在Hopper的GPU,客户经由过程维护一套软件栈就能针对于自身特定的事情负载做好机能优化。 今日发布的NVIDIA Grace超等芯片系列以和去年发布的Grace Hopper超等芯片均采用了NVIDIA NVLink-C2C 技能来毗连处置惩罚器芯片。 英伟达暗示,除了NVLink-C2C外,NVIDIA还有将撑持本月早些时辰发布的 UCIe(Universal Chiplet Interconnect Express,通用小芯片互连传输通道)尺度。与NVIDIA芯片的定制芯片集成既可使用 UCIe 尺度,也能够利用 NVLink-C2C。 雷峰网原创文章,未经授权禁止转载。详情见转载须知。







