米兰·(milan)中国官方网站- 部分国产芯片适配满血版 DeepSeek，仍「遥遥无期」

返回新闻列表

首页新闻动态 milan米兰官方网站科技与通辽市...

米兰·(milan)中国官方网站- 部分国产芯片适配满血版 DeepSeek，仍「遥遥无期」

2026-04-05 14:14:51

导语：海内最强AI芯片公司，适配满血版DeepSeek的方针是25Tokens/s。

部分国产芯片适配满血版 DeepSeek，仍「遥遥无期」

作者丨包永刚

编纂丨王亚峰

差别在春节假期刚竣事时近20家AI芯片公司忙着公布完成适配DeepSeek蒸馏模子的热闹情形，半个月后公布完成适配满血版DeepSeek模子的寥寥数家，这也真实反应出了国产AI芯片的真实力。

“只要厂家以前已经经撑持年夜模子的练习推理，那末适配DeepSeek就没有任何难度。”AI芯片软件工程师梓豪说，“咱们公司的运用工程师（AE）就能够完成DeepSeek蒸馏模子的适配。”

这足以注释为何有芯片公司可以用数小不时间就完成DeepSeek蒸馏模子的适配，但对于在一直致力在做年夜芯片的AI芯片公司来讲，适配满血版DeepSeek更能表现其价值。

今朝，华为、寒武纪、摩尔线程以和昆仑芯都有公然信息暗示其完成满血版DeepSeek模子的适配。更多国产AI芯片公司适配满血版年夜模子进展接待添加作者微信BENSONEIT相识。

“即即是此刻已经经公布适配满血版DeepSeek的芯片公司，其机能都不太好。”AI芯片资深工程师杰克说，“从技能上判定，此前已经经将年夜模子跑起来的公司，好比燧原、壁仞、天数智芯适配满血版DeepSeek也只是时间问题，以前没有部署过年夜模子的公司适配满血版DeepSeek可能‘遥遥无期’。”

那末到底适配DeepSeek蒸馏模子及满血版DeepSeek模子会成为AI芯片公司的分水岭？为何有人说海内AI芯片公司的人不懂AI？DeepSeek的爆火至少能撑起一家国产AI芯片公司的上市？

适配蒸馏版DeepSeek模子只是开胃小菜

半个月前芯片公司遮天蔽日的适配DeepSeek的新闻里，有公司明确表达了适配的是蒸馏模子，也有公司只说适配了DeepSeek，但适配蒸馏模子及满血版模子之间存于着巨年夜的不同。

满血版模子指的是与DeepSeek官网机能一致的V3及R1的全量参数模子，其参数高达671B，一般需要多台高机能GPU办事器并行才能流利运行推理办事。

蒸馏版DeepSeek模子是使用DeepSeek-R1天生的数据对于其他模子举行微调，参数从几B到几十B都有，好比DeepSeek-R1-Distill-Qwen-1.5B/7B/14B/32B、DeepSeek R1-Distill-Llama-8B/70B，这些蒸馏模子的效果差在满血版，但更容易在部署。

“我一度认为适配蒸馏版DeepSeek模子没有太年夜价值，很多工程师也都更偏向在满血版DeepSeek，但我此刻的设法发生了改变。”有二十多年芯片行业经验的柏林说，“蒸馏版模子能满意平凡用户的谈天需求，对于在普和AI的意义很是年夜。”

杰克也暗示，虽然蒸馏模子的正确度不如满血版模子，但蒸馏版模子能让端侧AI的能力上一个台阶，端侧资源受限，有了DeepSeek的蒸馏模子以后，好比本来只能部署7B模子的场景，此刻能到达14B模子的效果。

国产AI芯片适配蒸馏版DeepSeek模子也难度不年夜。

不管是利用GPGPU架构还有是专用ASIC架构对于AI芯片公司，都迅速完成为了对于DeepSeek的适配。“GPT火了以后所有公司都想措施撑持年夜模子，DeepSeek及以前的年夜模子没有素质的差别，有此前适配年夜模子的事情，适配蒸馏版DeepSeek不是难题。”梓豪暗示。

“CUDA兼容的GPGPU适配起来确凿会更易，但只要给ASIC更多时间做到极致，机能可以跨越GPU。”杰克认为。

从持久看，不管甚么架构的芯片，假如只是撑持几个有限的模子，总能于这个架构上找到最优的解决方案。DeepSeek的火爆，主流模子就是DeepSeek及Llama等少数几个，从这个角度看，对于AI芯片公司来讲算是功德。

对于在采用国产AI芯片的智算中央来讲，DeepSeek的火爆一样是庞大利好。

“DeepSeek火爆以后咱们想用一家国产AI芯片公司的卡适配。”国产智算中央从业者博远说，“但实际的问题是，假如适配DeepSeek A100的机能是100分，这家国产卡跑起来只有几分的机能，用力优化也只有A100十几分的能。”DeepSeek的火爆到底怎样影响智算中央成长，添加作者微信BENSONEIT互通有没有。

既然从普和AI及适配的角度，蒸馏版DeepSeek就有巨年夜的价值，那为何还有要适配满血版DeepSeek？

“只有部署了满血版DeepSeek模子，才能获得蒸馏版模子，我认为这是部署满血版DeepSeek模子的主要缘故原由。”杰克暗示。

海内领先AI芯片最快月尾能适配「好」满血版模子

可是想要部署参数高达671B满血版DeepSeek-R1模子，即即是Int8精度模子的巨细也高达671G，以单卡96G HBM计较，单机8卡统共768GB也只是委曲够部署满血版DeepSeek，只要模子精度比Int8更高，单台办事器就没法部署满血版DeepSeek模子。

此时就需要多机互联，这恰是国产AI芯片公司仍未很好解决地问题。

“Nvidia有NV Link，国产芯片没有多机互联的解决方案会选择InfiniBand（IB）或者者高速以太网RoCE实现互联，这些方案的通讯的延迟很年夜，这就极年夜水平会影响终极部署的效果。”杰克说，“多卡及多机互联是国产芯片适配满血版DeepSeek的第一个难点，假如以前没有解决通讯问题，想做起来很难，间隔乐成适配满血版DeepSeek可能遥遥无期。”

梓豪认为于多机互联方面，摩尔线程及沐曦有必然的上风。

另外一个难点是DeepSeek的MoE混淆专家体系，MoE是多一个router（路由模块）的计较，它会将token路由至适合的专家权重去做计较，这个路由是动态的，这及此前的Transformer年夜模子的部署纷歧样，这也是一个全新的挑战。

对于在所有国产AI年夜芯片而言，还有有一个硬伤就是不原生撑持FP8数据类型，DeepSeek模子采用了 FP8 混淆精度练习，全世界领先的AI芯片公司英伟达从H100最先，AMD MI325X都原生撑持FP8。

“不原生撑持FP8不料味着就不克不及部署满血版DeepSeek，只是会带来效率问题，好比用FP16来部署，就需要2倍的存储。”杰克暗示，这就象征着需要更多卡，问题又到了多卡多机互联。

要留意，即即是2024年推出的新一代国产AI卡，也没有撑持FP8。

柏林认为，最新的国产AI芯片不撑持FP八、FP4这种非IEEE界说的数据类型，申明企业内部没有前沿的研究引导这些公司的设计。而且英伟达2022年推出的H100就已经经撑持了FP8，已经经有人做生产品，就算照着“抄”也不难了，这表现了海内很多做AI芯片的人其实不懂AI。

即便解决了技能难题可以部署满血版DeepSeek，从可用到好用还有有一段很长的间隔。杰克就深有感慨，此前适配年夜模子的时辰，杰克地点的公司跨机通讯也解决了，可是要实现机能的晋升难度很年夜。

这也是今朝国产芯片公司适配满血版头疼的问题。

雷峰网相识到，今朝海内领先的AI芯片公司以4台办事器（32卡，FP16数据类型），或者者2台办事器（16卡，Int8数据类型）适配满血版DeepSeek的效果也只到达了10tokens/s，其方针是于本月尾前可以或许到达25tokens/s，机能年夜概是英伟达H100的25%。

尚有动静称，海内上市AI芯片公司于智算中央已经经到达了适配满血版DeepSeek 25tokens/s的机能。

从用户的角度，利用满血版DeepSeek要有比力好的利用体验有两个很是直不雅的指标，一个是首字延迟，另外一个就是每一秒吞吐量。年夜致而言，首字延迟于1-1.4秒是年夜部门用户可以或许接管的延迟，而每一秒天生20token能满意正常浏览的需求。

如许说来，即即是海内领先的公司，最快也要到本月尾到达让用户相对于满足的利用体验。

至在其他AI芯片公司，雷峰网(公家号：雷峰网)相识到，于上市教导流程里的AI芯片公司有两家适配满血版DeepSeek的速率于10 tokens/s和如下。

AI年夜芯片公司的张伟判定，将来一个月适配欠好满血版DeepSeek的AI公司可能有一半。柏林认为，将来一个季度国产AI芯片城市陆续适配满血版DeepSeek。

“其他已经经有乐成部署年夜模子经验的芯片公司适配满血版DeepSeek只是时间问题。”杰克说，“这些公司里好几家都处在上市教导阶段，我认为谁能更快、更好撑持好满血版DeepSeek，会年夜幅增长他们上市的几率，由于许多机谈判公司都于踊跃部署满血版DeepSeek，有益在AI芯片公司做出真正的事迹，支撑其上市。”

不外两位芯片投资人都对于雷峰网暗示，A股的乐成上市的因素比力繁杂，可以或许撑持好满血版DeepSeek确凿是实力的表现，但对于在终极乐成上市很难说有直接利好。

无庸置疑的是，DeepSeek对于在海内芯片、智算中央、AI运用都是巨年夜利好，咱们已经经处于AI厘革前夕。关在AI算力的更多挑战，接待添加作者微信BENSONEIT会商。

注，文中梓豪、杰克、柏林、博远、张伟均为假名。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

-米兰·(milan)中国官方网站

milan米兰官方网站科技近50MW工...