2026-01-29
milan米兰官方网站科技近50MW工商业分布式项目集中完工,赋能多元产业场景
了解详情
2026-04-08 00:52:33
导语:本年最先,万卡以上的智算中央才有价值。 OpenAI的单点集群年夜概5万张卡,google2.6万张卡,Meta2.45万张卡。 顶级的AI公司已经经为这场“暴力美学”的竞赛,设定了单点集群万卡的门坎。 华为昇腾AI集群范围于去年7月已经经扩大至16000卡。去年10月科年夜讯飞启动万卡集群算力平台“飞星一号”。 本年3月,天翼云上海临港国产万卡算力池启用。4月,中国挪动公布本年将商用3个自立可控万卡集群。 摩尔线程开创人兼CEO张建中于2024世界人工智能年夜会(WAIC)前夜的摩尔线程AI DAY 暨万卡智算集群解决方案发布会上暗示,“AI主疆场,万卡是最低标配。” 可实现万卡集群至少面对6个层面的挑战,海内公司怎样实现国产算力的万卡智算集群? AI主疆场,万卡是标配 近来两年火爆的天生式AI,被很多人称为“暴力美学”。 也就是于数据量充足年夜、模子参数数目年夜到必然水平,模子的精度、正确度会呈现智能涌现会,冲破传统年夜模子的正确度。 好比,于天然语言理解场景,当算力参数目及数据量综合算力到达10的23次方时,正确度有极年夜的奔腾。 这个纪律被称作Scaling Law。与Scaling Law相伴的是对于算力的指数级增加。 好比练习GPT4,年夜概需要1千张H100的算力,而假如利用A100则需要3万张。 “GPT5需要的算力是10万卡。”张建中认为。 这是基在假定Scaling Law根据线性比例发展,估算参数、数据量及算力之间的瓜葛。 从GTP3到GPT4,模子的参数从百亿到万亿,100倍的参数增加,数据量也从几TB到几十TB,是10倍的晋升,二者一乘,整个算力的需求就是1000倍的晋升。 满意Scaling Law的独一措施就是成立一个单点超年夜范围算力集群。 “只有如许,才可以把这个年夜模子于一个处所,一个收集,单节点以内把它练习完成。”张建中指出。 假定练习一个5000亿参数的模子,15TB的数据,假如利用1000P的集群,三年都练习不完。假如要于一个月内,甚至1-2周内练习完5000亿参数的模子,至少要1万P的算力集群。 “从本年最先,所有智算中央万卡是最低标配,万卡以上的智算中央才有价值。”张建中认为。 Scaling Law连续见效的同时,还有不克不及轻忽算法及架构的演进。 今朝,Transformer架构虽然是主流,但新兴架构如Mamba、RWKV及RetNet等不停刷新计较效率,加速立异速率。 “有公司专门为Transformer架构做加快计较,这个创意很好,但若很轻易实现必然会被交融到GPU傍边,成为GPU傍边的Transformer引擎。咱们信赖将来还有会呈现各类架构的变种,要撑持不断呈现的新框架,只有一个措施,就是通用且能连续成长的计较平台。”张建中暗示。 那就应该设置装备摆设一个万卡范围加之通用可扩大的智算中央,这面对浩繁挑战。 万卡智算中央的6浩劫题 有统计数据,2024年海内有上百个于建的智算中央。这是一项超高额的投入,设置装备摆设几万P的智算中央成本高达几十亿,更年夜算力范围则需投资上百亿。 “连市场客户都没有就盲目设置装备摆设智算中央必定不合错误,不是所有人都应该去建算力中央,应该由专业的人干专业的事。”张建中进一步暗示,“智算中央是否好用,可否通用,能不克不及不变运行,有无能力运营都是设置装备摆设智算中央需要思量的工作。” 许多客户喜欢乐欢DIY,但张建中建议不要太多DIY,而是采用总体解决方案,如许集群买归去以后立刻就能够用起来,可以或许防止危害。 尤其是从千卡到万卡集群,不是简朴的重叠,繁杂度指数级增长,国产千卡/万卡超等体系工程面对着6浩劫题:包括超年夜范围组网互联、集群有用计较效率、练习高不变性与可用性、妨碍快速定位与可诊断东西、生态Day0级快速迁徙、将来场景通用计较。 “可以把万卡想象成一个万人团队,需要有很是强的沟通机制,才能协同的把一件工作完成。”摩尔线程CTO张钰勃说,“对于在万卡集群,仅靠单卡算力还有不敷,提供匹配单卡算力的通信也至关主要。” 卡间互联及互换机是要害。雷峰网相识到,摩尔线程千/万卡集群的卡间互联是自研的MTLink,及NVLink作用不异,今朝已经经演进到MTLink2.0版本。 “咱们还有没有互换机芯片,是用行业里的互换机芯片去搭建咱们的集群。”张建中吐露,“后期咱们会自立研发,或者者是及行业互助伙伴一路研发下一代年夜范围的互换机。” 互联以外的另外一个难题是不变性。 “集群范围越年夜越不不变。”张建中对于雷峰网(公家号:雷峰网)暗示,“千卡集群妨碍率可能做到0.1%就能够,万卡集群要晋升到0.01%甚至是0.001%,这对于硬件设计及出产制造都是很年夜的挑战。摩尔线程投入了许多,确保架构自己的不变性,以和让芯片的平均无端障时间更长。” 散热也是晋升万卡集群不变性的要害,千卡集群还有可以考风冷解决,万卡就需要液冷包管集群的不变运行。 “还有需要差别的容错机制,于出问题的时辰硬件主动恢复,而不是靠软件。”张建中暗示。 为此,摩尔线程推出了智算中央全栈解决方案夸娥(KUAE),以全功效GPU为底座,构建了夸娥计较集群为焦点的基础举措措施、夸娥集群治理平台(KUAE Platform)以和夸娥年夜模子办事平台(KUAE ModelStudio)的一体化交付的解决方案。 夸娥智算集群也能够实现从千卡至万卡集群的无缝扩大。 夸娥国产万卡万P智算集群的差异化上风 全新一代夸娥智算集群实现单集群范围超万卡,浮点运算能力到达10Exa-Flops,年夜幅晋升单集群计较机能,可以或许为万亿参数级别年夜模子练习提供坚实算力基础。 同时,夸娥万卡集群到达PB级的超年夜显存总容量、每一秒PB级的超高速卡间互联总带宽及每一秒PB级超高速节点互联总带宽,实现算力、显存及带宽的体系性协同优化。 算力使用率(MFU)方面,千卡夸娥集群MFU有50%多,万卡夸娥集群的MFU方针是60%。 不变性层面,摩尔线程夸娥万卡集群平均无端障运行时间跨越15天,最长可实现年夜模子不变练习30天以上,周均练习有用率于99%以上。 月级长稳练习远超行业平均程度,患上益在摩尔线程自立研发的一系列可猜测、可诊断的多级靠得住机制,包括软硬件妨碍的主动定位与诊断猜测实现分钟级的妨碍定位,Checkpoint多级存储机制实现内存秒级存储及练习使命分钟级恢复以和高容错高效能的万卡集群治理平台实现秒级纳管分配与功课调理。 夸娥智算集群还有有一个对于所有效户来讲很是友爱的特征——CUDA兼容。 “咱们的产物跟海内外主流生态于兼容性方面做的很好,开发者移植到夸娥集群险些不需要修改代码,迁徙成本靠近0,可以于数小时以内就完成迁徙事情。”张钰勃暗示,“固然用户可能需要花数天的时间去调优机能,但总体的迁徙成本很低,其实不需要几周这么长的时间。” 于诸多的智算中央中,张建中认为摩尔线程夸娥的差异化上风于在,是海内独一一家用全功效GPU实现通用加快计较的公司。 “摩尔线程有1000多人,咱们花了4年时间,把GPU的图形能力、编解码能力、科学计较能力、人工智能练习推理能力都做了晋升,咱们但愿可以或许搭建首个中国本土通用型的万卡集群。”张建中指出。 摩尔线程的GPU也险些适配了所有国产CPU,这也是夸娥智算集群的差异化地点。 “咱们与海内所有的CPU、操作体系一路打造了一个生态体系,叫PES同盟,形成一个本土化完备生态。”张建中说。 不少人都知道摩尔线程的GPU能做图形衬着,却轻忽了基在摩尔线程全功效的GPU可以或许实现的AI功效。摩尔线程的夸娥千卡集群,已经经有包括无问芯穹、清程极智、360、京东云、智平方等互助伙伴。 于摩尔线程夸娥千卡集群上,360别离部署70亿、700亿参数年夜语言模子,全程软硬件即插即用,事情有用练习时间占比100%;全程不变无软硬件妨碍,集群有用练习时间占比100%。 京东基在摩尔线程夸娥集群完成Chatglm2-6B、Qwen-14B、baichuan2-13B的年夜模子推理测试,Chatglm2-6B推理测试,S4000的单卡推理机能是RTX 4090D机能的1.26倍,其他两个模子,S4000机能均能到达RTX 4090D机能的90%摆布。 夸娥万卡集群,摩尔线程与中国挪动通讯集团青海有限公司、中国联通青海公司、北京德道信科集团、中国能源设置装备摆设株式会社总承包公司、桂林华崛年夜数据科技有限公司,别离就青海零碳财产园万卡集群项目、青海高原夸娥万卡集群项目、广西东盟万卡集群项目举行了战略签约。 接下来,夸娥万卡智算集群就将磨练摩尔线程可以或许作为一家体系级公司,解决海内AI算力紧缺的难题。 张建中要领导摩尔线程做难而准确的事。 雷峰网原创文章,未经授权禁止转载。详情见转载须知。






