米兰·(milan)中国官方网站- 国产算力公司「各自为战」,曙光如何打通协作壁垒?

2026-03-14 06:00:01

导语:零星的国产算力厂商若不克不及形成协力,终将难与国际主流生态抗衡。

是甚么契机,让海内耳熟能详的算力相干公司都座无虚席?

于2025世界智能财产展览会的AI计较开放架构暨新品发布会上,国产算力友商们拥有了某种向心力。而串联起他们的焦点纽带,恰是中科曙光发布的海内首个AI计较开放架构。

这次发布中,中科曙光协同AI芯片、AI整机、年夜模子等20多家财产链上下流企业,配合推出AI超集群体系。于开放多项技能能力的同时,也公布依托国度进步前辈计较财产立异中央,启动 “AI计较开放架构结合试验室” 的设置装备摆设。

算力厂商们的团体表态,暗地里也藏着各人对于当前海内算力市场困局的配合焦急:行业已往“强竞争、弱互助”,致使海内基础举措措施市场虽然火热,但差别厂商的办事器、存储装备、算力调理平台年夜多采用专有接口与和谈,缺少同一技能尺度,从而难以形成协力,冲破瓶颈。

那末,对于当下的海内算力生态而言,曙光的这步测验考试毕竟价值安在?为了鞭策这场冲破,他们又做了哪些预备?

算力财产链环节细分,内部倒是“一盘散沙”

于外部生态护城河难以霸占之时,内部算力厂商却仍各自为战、缺少协同,这是海内算力市场的一年夜瓶颈。

而这类场合排场的呈现,一年夜缘故原由是GPU范畴内年夜量差别的品牌、厂商,相互之间差别的算力密度、互联方式以和生态系统不同,筑起的异构壁垒。

2023年先后,异构问题的解决被愈来愈多厂商提上日程。然而,今朝的测验考试其实不尽如人意——

于技能上,差别芯片算子库差别,运行时的技能适配差异会增年夜整合难度;同时,异构的协调需要对于GPU机能举行猜测和拆分,甚至触及硬件协调。

于生态上,中科曙光总裁助理、智能计较产物事业部总司理杜夏威向雷峰网先容,行业已经习气于国际主流生态的框架下运行,现有惯性难以打破;且财产迭代速率极快、技能更新频仍之下,AI各个财产板块成长都很活跃,这致使“齿轮”之间并无严丝合缝协同。

这些问题没有解决,今朝的异构混训就依然会对于效率造成莫年夜捐躯——有业内子士指出,跟着AI加快卡数目的增长及差别芯片类型插手,混训的鲁棒性及不变性城市变差。杜夏威不雅察到“人们对于打破壁垒的未知惧怕遍及存于”,但市场对于厂商迈出这一步的需求,已经刻不容缓。

杜夏威指出,云计较时代,客户的起步往往较云计较提供商晚,市场教诲周期可能较长;而于AI年夜模子时代,客户接管度极高,快速增加的海量需求反推数据中央的运营改造,市场正倒逼厂商啃下异构集群同一尺度的“硬骨头”。

虽然有不雅点认为,异构需求只是国产芯片晋升机能历程中的过渡性阶段,智算中央终极还有是会回归到同构的基础架构;然而,于将来算力市场成长的短时间内,异构需求只会有增无减:

一方面,数据中央的国产化比例要求逐渐严酷,之前国产卡比例于数据中央内可能只占两成,但本年窗口引导等相干政策颁发后,将来可能有所升高。

另外一方面,部门利用进步前辈算力加国产化算力的组合集群的年夜模子客户,也明确拥有对于混训能力的要求。

有见和此,2025智博会上,中科曙光协同AI芯片、AI整机、年夜模子等20多家财产链上下流企业,配合发布了海内首个AI计较开放架构,并基在该架构推出AI超集群体系。

这套超集群单机柜撑持96张加快卡,可提供跨越100P的AI算力,最高可以或许实现百万卡年夜范围扩大。它还有能撑持深度开发用户迭代自有步伐,同时帮忙传统行业用户快速复用AI模子、整合营业。

与专有关闭体系比拟,这套体系可适配撑持多品牌GPU加快卡,兼容CUDA等主流软件生态,为用户提供更多选择;同时也年夜幅降低硬件成本及软件开发适配成本,使患上前期投资压力较小。

而且,曙光也联袂浩繁财产链企业开放七项焦点技能,包括CPU与AI加快器高机能接口和谈、加快器互连和谈,液冷基础举措措施层面的规范,以和软件栈的整合经验等。

“这个AI超集群最年夜的特色,就是多元化及包涵化”,杜夏威说道。于他看来,异构并不是局限地舆解为把多个品牌揉于一个体系下,而是寻觅各人于整个体系化工程中擅长的部门,测验考试经由过程深度互助来形成对于财产的优良支撑。

而曙光能成为开放架构招呼人的脚色,正源自其多年来的试验堆集。

中科曙光高级副总裁李斌说道,已往十年,中科曙光设置装备摆设了20多个年夜范围算力集群,累计部署超50万张异构加快卡。从年夜型机到集群,从小范围算力到超年夜范围算力体系,曙光于财产链各层级的沉淀,令其足以起串联上下流。

这类串联,一方面能让各个环节的算力公司再也不“反复造轮子”,削减为多种差别架构反复研发的无效历程;另外一方面,也能于当前海内算力供需匹配不足的环境下,有用整合起分离的算力资源。

不外,让算力资源有用运转的前提之一,是要保障集群能恒久不变地基础运营。为此,曙光做的预备远不止这些。

做好模子练习中的“脏活累活”

智博会上,中科曙光展台正中间立着AI超集群产物,其存储、液冷、生态等板块的细分展区别布附近,将其蜂拥此中。

据先容,这套AI超集群千卡集群年夜模子训推机能到达业界主流程度的2.3倍,其完美的东西链及软件栈能把开发效率晋升4倍,人力及时间投入降低70%。

GPU时代对于软硬件的协同优化提出更高要求,杜夏威说道,曙光的这套架构,也涵盖了资源运管调理、基层并行化等计谋,以和专家并行、PD分散等技能,确保底层算力高效阐扬。同时,也对于底层通讯库、算子库举行优化,能做到以软件栈的形态交付办事。

而于存算方面,曙光也提出了“以存提算”、存算一体,经由过程Burstbuffer数据缓存的利用,联合超等地道降低交互,保障数据IO以和传输有本身高效的专属通道,让GPU算力效能增长了55%。

此外,那些于年夜模子时代成长初期被成心逃避的“脏活累活”——提高不变性、削减妨碍率、缩短妨碍恢复时间——反而成为了曙光新品的亮眼手刺:

于曙光的这套新集群中,其平均无端障时间(MTBF)提高了2.1倍,平均妨碍修复时间(MTTR)降低到本来的47%等。“把不影响原有营业运转的妨碍替代技能,慢慢开释到整个AI超集群中”,是曙光下一步成长的方针。

高温,也是年夜集群不变运行的一年夜克星。一般来讲,芯片事情温度每一升高10度,掉效率就会翻倍。曙光数创CTO张鹏算了如许一笔账:今朝,曙光经由过程液冷能做到PUE 1.04,相称在每一带走100个单元的热量,只需分外破费4个单元的能量;而以往风冷的能量比效率只是1:1,比拟起来,液冷的能耗节省很是较着。

不外,于冷板、浸没、喷淋三年夜液冷线路中,冷板虽先行落地成为主流,但面临今朝已经达1000w级GPU运行时的“热浪”,已经有些捉襟见肘。

要让芯片算力患上以充实开释,下一扇需要开启的门是“浸没”。而曙光已经经率先握住了这把钥匙。

中科曙光于展会现场展出的相变浸没液冷装备,令雷峰网(公家号:雷峰网)印象深刻——

透过玻璃视窗,可以看到8块GPU及2块CPU浸泡于无色液体中。细密的气泡从芯片上笼罩而过,旋即升腾、折向右边,形成不变而切确的“蒸汽轨道”。

据现场事情职员先容,这些非凡液体的沸腾温度仅于50度摆布,远低在芯片运行时80-90度的事情温度。在是,于连续的沸腾中,热量便被汽化的小气泡裹挟带走、随后消失。

国产算力公司「各自为战」,曙光如何打通协作壁垒?曙光展出的相变浸没液冷装备,摄:雷峰网李想

做年夜型机及集群发迹的曙光,从2011年就最先结构静默式冷板液冷,于2015年量产TC40冷板式高密度办事器。只管云云,张鹏还有是感触,数据中央需求迅猛增加的这几年,已经经对于液冷成长提出近乎苛刻的高要求:

此刻的智算中央比起传统通用数据中央,负载变化率很快——于练习及推理中,一个回车按下的毫秒里,所有需求就要到达满载。与此同时,单机柜功率密度于短短几年内从60千瓦,飙升至200千瓦甚至300千瓦。

曙光的这场发布,是一次连合海内算力生态的初测验考试,详细效果有待时间查验,但至少,于“苹果生态”为王的算力市场里,他们已经经打响构建“安卓生态”的第一枪。

雷峰网原创文章,未经授权禁止转载。详情见转载须知。

-米兰·(milan)中国官方网站

相关内容

All rights reserved ©2026 Jinko Power.Powered by Webfoss.沪ICP备15009312号-1