米兰·(milan)中国官方网站- 国产算力公司「各自为战」，曙光如何打通协作壁垒？

返回新闻列表

首页新闻动态 milan米兰官方网站科技与通辽市...

米兰·(milan)中国官方网站- 国产算力公司「各自为战」，曙光如何打通协作壁垒？

2026-03-14 06:00:01

导语：零星的国产算力厂商若不克不及形成协力，终将难与国际主流生态抗衡。

是甚么契机，让海内耳熟能详的算力相干公司都座无虚席？

于2025世界智能财产展览会的AI计较开放架构暨新品发布会上，国产算力友商们拥有了某种向心力。而串联起他们的焦点纽带，恰是中科曙光发布的海内首个AI计较开放架构。

这次发布中，中科曙光协同AI芯片、AI整机、年夜模子等20多家财产链上下流企业，配合推出AI超集群体系。于开放多项技能能力的同时，也公布依托国度进步前辈计较财产立异中央，启动 “AI计较开放架构结合试验室” 的设置装备摆设。

算力厂商们的团体表态，暗地里也藏着各人对于当前海内算力市场困局的配合焦急：行业已往“强竞争、弱互助”，致使海内基础举措措施市场虽然火热，但差别厂商的办事器、存储装备、算力调理平台年夜多采用专有接口与和谈，缺少同一技能尺度，从而难以形成协力，冲破瓶颈。

那末，对于当下的海内算力生态而言，曙光的这步测验考试毕竟价值安在？为了鞭策这场冲破，他们又做了哪些预备？

算力财产链环节细分，内部倒是“一盘散沙”

于外部生态护城河难以霸占之时，内部算力厂商却仍各自为战、缺少协同，这是海内算力市场的一年夜瓶颈。

而这类场合排场的呈现，一年夜缘故原由是GPU范畴内年夜量差别的品牌、厂商，相互之间差别的算力密度、互联方式以和生态系统不同，筑起的异构壁垒。

2023年先后，异构问题的解决被愈来愈多厂商提上日程。然而，今朝的测验考试其实不尽如人意——

于技能上，差别芯片算子库差别，运行时的技能适配差异会增年夜整合难度；同时，异构的协调需要对于GPU机能举行猜测和拆分，甚至触及硬件协调。

于生态上，中科曙光总裁助理、智能计较产物事业部总司理杜夏威向雷峰网先容，行业已经习气于国际主流生态的框架下运行，现有惯性难以打破；且财产迭代速率极快、技能更新频仍之下，AI各个财产板块成长都很活跃，这致使“齿轮”之间并无严丝合缝协同。

这些问题没有解决，今朝的异构混训就依然会对于效率造成莫年夜捐躯——有业内子士指出，跟着AI加快卡数目的增长及差别芯片类型插手，混训的鲁棒性及不变性城市变差。杜夏威不雅察到“人们对于打破壁垒的未知惧怕遍及存于”，但市场对于厂商迈出这一步的需求，已经刻不容缓。

杜夏威指出，云计较时代，客户的起步往往较云计较提供商晚，市场教诲周期可能较长；而于AI年夜模子时代，客户接管度极高，快速增加的海量需求反推数据中央的运营改造，市场正倒逼厂商啃下异构集群同一尺度的“硬骨头”。

虽然有不雅点认为，异构需求只是国产芯片晋升机能历程中的过渡性阶段，智算中央终极还有是会回归到同构的基础架构；然而，于将来算力市场成长的短时间内，异构需求只会有增无减：

一方面，数据中央的国产化比例要求逐渐严酷，之前国产卡比例于数据中央内可能只占两成，但本年窗口引导等相干政策颁发后，将来可能有所升高。

另外一方面，部门利用进步前辈算力加国产化算力的组合集群的年夜模子客户，也明确拥有对于混训能力的要求。

有见和此，2025智博会上，中科曙光协同AI芯片、AI整机、年夜模子等20多家财产链上下流企业，配合发布了海内首个AI计较开放架构，并基在该架构推出AI超集群体系。

这套超集群单机柜撑持96张加快卡，可提供跨越100P的AI算力，最高可以或许实现百万卡年夜范围扩大。它还有能撑持深度开发用户迭代自有步伐，同时帮忙传统行业用户快速复用AI模子、整合营业。

与专有关闭体系比拟，这套体系可适配撑持多品牌GPU加快卡，兼容CUDA等主流软件生态，为用户提供更多选择；同时也年夜幅降低硬件成本及软件开发适配成本，使患上前期投资压力较小。

而且，曙光也联袂浩繁财产链企业开放七项焦点技能，包括CPU与AI加快器高机能接口和谈、加快器互连和谈，液冷基础举措措施层面的规范，以和软件栈的整合经验等。

“这个AI超集群最年夜的特色，就是多元化及包涵化”，杜夏威说道。于他看来，异构并不是局限地舆解为把多个品牌揉于一个体系下，而是寻觅各人于整个体系化工程中擅长的部门，测验考试经由过程深度互助来形成对于财产的优良支撑。

而曙光能成为开放架构招呼人的脚色，正源自其多年来的试验堆集。

中科曙光高级副总裁李斌说道，已往十年，中科曙光设置装备摆设了20多个年夜范围算力集群，累计部署超50万张异构加快卡。从年夜型机到集群，从小范围算力到超年夜范围算力体系，曙光于财产链各层级的沉淀，令其足以起串联上下流。

这类串联，一方面能让各个环节的算力公司再也不“反复造轮子”，削减为多种差别架构反复研发的无效历程；另外一方面，也能于当前海内算力供需匹配不足的环境下，有用整合起分离的算力资源。

不外，让算力资源有用运转的前提之一，是要保障集群能恒久不变地基础运营。为此，曙光做的预备远不止这些。

做好模子练习中的“脏活累活”

智博会上，中科曙光展台正中间立着AI超集群产物，其存储、液冷、生态等板块的细分展区别布附近，将其蜂拥此中。

据先容，这套AI超集群千卡集群年夜模子训推机能到达业界主流程度的2.3倍，其完美的东西链及软件栈能把开发效率晋升4倍，人力及时间投入降低70%。

GPU时代对于软硬件的协同优化提出更高要求，杜夏威说道，曙光的这套架构，也涵盖了资源运管调理、基层并行化等计谋，以和专家并行、PD分散等技能，确保底层算力高效阐扬。同时，也对于底层通讯库、算子库举行优化，能做到以软件栈的形态交付办事。

而于存算方面，曙光也提出了“以存提算”、存算一体，经由过程Burstbuffer数据缓存的利用，联合超等地道降低交互，保障数据IO以和传输有本身高效的专属通道，让GPU算力效能增长了55%。

此外，那些于年夜模子时代成长初期被成心逃避的“脏活累活”——提高不变性、削减妨碍率、缩短妨碍恢复时间——反而成为了曙光新品的亮眼手刺：

于曙光的这套新集群中，其平均无端障时间（MTBF）提高了2.1倍，平均妨碍修复时间（MTTR）降低到本来的47%等。“把不影响原有营业运转的妨碍替代技能，慢慢开释到整个AI超集群中”，是曙光下一步成长的方针。

高温，也是年夜集群不变运行的一年夜克星。一般来讲，芯片事情温度每一升高10度，掉效率就会翻倍。曙光数创CTO张鹏算了如许一笔账：今朝，曙光经由过程液冷能做到PUE 1.04，相称在每一带走100个单元的热量，只需分外破费4个单元的能量；而以往风冷的能量比效率只是1:1，比拟起来，液冷的能耗节省很是较着。

不外，于冷板、浸没、喷淋三年夜液冷线路中，冷板虽先行落地成为主流，但面临今朝已经达1000w级GPU运行时的“热浪”，已经有些捉襟见肘。

要让芯片算力患上以充实开释，下一扇需要开启的门是“浸没”。而曙光已经经率先握住了这把钥匙。

中科曙光于展会现场展出的相变浸没液冷装备，令雷峰网(公家号：雷峰网)印象深刻——

透过玻璃视窗，可以看到8块GPU及2块CPU浸泡于无色液体中。细密的气泡从芯片上笼罩而过，旋即升腾、折向右边，形成不变而切确的“蒸汽轨道”。

据现场事情职员先容，这些非凡液体的沸腾温度仅于50度摆布，远低在芯片运行时80-90度的事情温度。在是，于连续的沸腾中，热量便被汽化的小气泡裹挟带走、随后消失。

国产算力公司「各自为战」，曙光如何打通协作壁垒？曙光展出的相变浸没液冷装备，摄：雷峰网李想