2026-01-29
milan米兰官方网站科技近50MW工商业分布式项目集中完工,赋能多元产业场景
了解详情
2026-04-05 14:14:51
导语:海内最强AI芯片公司,适配满血版DeepSeek的方针是25Tokens/s。 作者丨包永刚 编纂丨王亚峰 差别在春节假期刚竣事时近20家AI芯片公司忙着公布完成适配DeepSeek蒸馏模子的热闹情形,半个月后公布完成适配满血版DeepSeek模子的寥寥数家,这也真实反应出了国产AI芯片的真实力。 “只要厂家以前已经经撑持年夜模子的练习推理,那末适配DeepSeek就没有任何难度。”AI芯片软件工程师梓豪说,“咱们公司的运用工程师(AE)就能够完成DeepSeek蒸馏模子的适配。” 这足以注释为何有芯片公司可以用数小不时间就完成DeepSeek蒸馏模子的适配,但对于在一直致力在做年夜芯片的AI芯片公司来讲,适配满血版DeepSeek更能表现其价值。 今朝,华为、寒武纪、摩尔线程以和昆仑芯都有公然信息暗示其完成满血版DeepSeek模子的适配。更多国产AI芯片公司适配满血版年夜模子进展接待添加作者微信BENSONEIT相识。 “即即是此刻已经经公布适配满血版DeepSeek的芯片公司,其机能都不太好。”AI芯片资深工程师杰克说,“从技能上判定,此前已经经将年夜模子跑起来的公司,好比燧原、壁仞、天数智芯适配满血版DeepSeek也只是时间问题,以前没有部署过年夜模子的公司适配满血版DeepSeek可能‘遥遥无期’。” 那末到底适配DeepSeek蒸馏模子及满血版DeepSeek模子会成为AI芯片公司的分水岭?为何有人说海内AI芯片公司的人不懂AI?DeepSeek的爆火至少能撑起一家国产AI芯片公司的上市? 适配蒸馏版DeepSeek模子只是开胃小菜 半个月前芯片公司遮天蔽日的适配DeepSeek的新闻里,有公司明确表达了适配的是蒸馏模子,也有公司只说适配了DeepSeek,但适配蒸馏模子及满血版模子之间存于着巨年夜的不同。 满血版模子指的是与DeepSeek官网机能一致的V3及R1的全量参数模子,其参数高达671B,一般需要多台高机能GPU办事器并行才能流利运行推理办事。 蒸馏版DeepSeek模子是使用DeepSeek-R1天生的数据对于其他模子举行微调,参数从几B到几十B都有,好比DeepSeek-R1-Distill-Qwen-1.5B/7B/14B/32B、DeepSeek R1-Distill-Llama-8B/70B,这些蒸馏模子的效果差在满血版,但更容易在部署。 “我一度认为适配蒸馏版DeepSeek模子没有太年夜价值,很多工程师也都更偏向在满血版DeepSeek,但我此刻的设法发生了改变。”有二十多年芯片行业经验的柏林说,“蒸馏版模子能满意平凡用户的谈天需求,对于在普和AI的意义很是年夜。” 杰克也暗示,虽然蒸馏模子的正确度不如满血版模子,但蒸馏版模子能让端侧AI的能力上一个台阶,端侧资源受限,有了DeepSeek的蒸馏模子以后,好比本来只能部署7B模子的场景,此刻能到达14B模子的效果。 国产AI芯片适配蒸馏版DeepSeek模子也难度不年夜。 不管是利用GPGPU架构还有是专用ASIC架构对于AI芯片公司,都迅速完成为了对于DeepSeek的适配。“GPT火了以后所有公司都想措施撑持年夜模子,DeepSeek及以前的年夜模子没有素质的差别,有此前适配年夜模子的事情,适配蒸馏版DeepSeek不是难题。”梓豪暗示。 “CUDA兼容的GPGPU适配起来确凿会更易,但只要给ASIC更多时间做到极致,机能可以跨越GPU。”杰克认为。 从持久看,不管甚么架构的芯片,假如只是撑持几个有限的模子,总能于这个架构上找到最优的解决方案。DeepSeek的火爆,主流模子就是DeepSeek及Llama等少数几个,从这个角度看,对于AI芯片公司来讲算是功德。 对于在采用国产AI芯片的智算中央来讲,DeepSeek的火爆一样是庞大利好。 “DeepSeek火爆以后咱们想用一家国产AI芯片公司的卡适配。”国产智算中央从业者博远说,“但实际的问题是,假如适配DeepSeek A100的机能是100分,这家国产卡跑起来只有几分的机能,用力优化也只有A100十几分的能。”DeepSeek的火爆到底怎样影响智算中央成长,添加作者微信BENSONEIT互通有没有。 既然从普和AI及适配的角度,蒸馏版DeepSeek就有巨年夜的价值,那为何还有要适配满血版DeepSeek? “只有部署了满血版DeepSeek模子,才能获得蒸馏版模子,我认为这是部署满血版DeepSeek模子的主要缘故原由。”杰克暗示。 海内领先AI芯片最快月尾能适配「好」满血版模子 可是想要部署参数高达671B满血版DeepSeek-R1模子,即即是Int8精度模子的巨细也高达671G,以单卡96G HBM计较,单机8卡统共768GB也只是委曲够部署满血版DeepSeek,只要模子精度比Int8更高,单台办事器就没法部署满血版DeepSeek模子。 此时就需要多机互联,这恰是国产AI芯片公司仍未很好解决地问题。 “Nvidia有NV Link,国产芯片没有多机互联的解决方案会选择InfiniBand(IB)或者者高速以太网RoCE实现互联,这些方案的通讯的延迟很年夜,这就极年夜水平会影响终极部署的效果。”杰克说,“多卡及多机互联是国产芯片适配满血版DeepSeek的第一个难点,假如以前没有解决通讯问题,想做起来很难,间隔乐成适配满血版DeepSeek可能遥遥无期。” 梓豪认为于多机互联方面,摩尔线程及沐曦有必然的上风。 另外一个难点是DeepSeek的MoE混淆专家体系,MoE是多一个router(路由模块)的计较,它会将token路由至适合的专家权重去做计较,这个路由是动态的,这及此前的Transformer年夜模子的部署纷歧样,这也是一个全新的挑战。 对于在所有国产AI年夜芯片而言,还有有一个硬伤就是不原生撑持FP8数据类型,DeepSeek模子采用了 FP8 混淆精度练习,全世界领先的AI芯片公司英伟达从H100最先,AMD MI325X都原生撑持FP8。 “不原生撑持FP8不料味着就不克不及部署满血版DeepSeek,只是会带来效率问题,好比用FP16来部署,就需要2倍的存储。”杰克暗示,这就象征着需要更多卡,问题又到了多卡多机互联。 要留意,即即是2024年推出的新一代国产AI卡,也没有撑持FP8。 柏林认为,最新的国产AI芯片不撑持FP八、FP4这种非IEEE界说的数据类型,申明企业内部没有前沿的研究引导这些公司的设计。而且英伟达2022年推出的H100就已经经撑持了FP8,已经经有人做生产品,就算照着“抄”也不难了,这表现了海内很多做AI芯片的人其实不懂AI。 即便解决了技能难题可以部署满血版DeepSeek,从可用到好用还有有一段很长的间隔。杰克就深有感慨,此前适配年夜模子的时辰,杰克地点的公司跨机通讯也解决了,可是要实现机能的晋升难度很年夜。 这也是今朝国产芯片公司适配满血版头疼的问题。 雷峰网相识到,今朝海内领先的AI芯片公司以4台办事器(32卡,FP16数据类型),或者者2台办事器(16卡,Int8数据类型)适配满血版DeepSeek的效果也只到达了10tokens/s,其方针是于本月尾前可以或许到达25tokens/s,机能年夜概是英伟达H100的25%。 尚有动静称,海内上市AI芯片公司于智算中央已经经到达了适配满血版DeepSeek 25tokens/s的机能。 从用户的角度,利用满血版DeepSeek要有比力好的利用体验有两个很是直不雅的指标,一个是首字延迟,另外一个就是每一秒吞吐量。年夜致而言,首字延迟于1-1.4秒是年夜部门用户可以或许接管的延迟,而每一秒天生20token能满意正常浏览的需求。 如许说来,即即是海内领先的公司,最快也要到本月尾到达让用户相对于满足的利用体验。 至在其他AI芯片公司,雷峰网(公家号:雷峰网)相识到,于上市教导流程里的AI芯片公司有两家适配满血版DeepSeek的速率于10 tokens/s和如下。 AI年夜芯片公司的张伟判定,将来一个月适配欠好满血版DeepSeek的AI公司可能有一半。柏林认为,将来一个季度国产AI芯片城市陆续适配满血版DeepSeek。 “其他已经经有乐成部署年夜模子经验的芯片公司适配满血版DeepSeek只是时间问题。”杰克说,“这些公司里好几家都处在上市教导阶段,我认为谁能更快、更好撑持好满血版DeepSeek,会年夜幅增长他们上市的几率,由于许多机谈判公司都于踊跃部署满血版DeepSeek,有益在AI芯片公司做出真正的事迹,支撑其上市。” 不外两位芯片投资人都对于雷峰网暗示,A股的乐成上市的因素比力繁杂,可以或许撑持好满血版DeepSeek确凿是实力的表现,但对于在终极乐成上市很难说有直接利好。 无庸置疑的是,DeepSeek对于在海内芯片、智算中央、AI运用都是巨年夜利好,咱们已经经处于AI厘革前夕。关在AI算力的更多挑战,接待添加作者微信BENSONEIT会商。 注,文中梓豪、杰克 、柏林、博远、张伟均为假名。 雷峰网原创文章,未经授权禁止转载。详情见转载须知。