2026-01-29
milan米兰官方网站科技近50MW工商业分布式项目集中完工,赋能多元产业场景
了解详情
2026-03-12 22:40:22
导语:云端以外,端侧AI也是国产芯片下一个主疆场。 2025年12月12-13日,第八届GAIR全世界人工智能与呆板人年夜会于深圳·博林天瑞喜来登旅店正式启幕。 作为AI产学研投界的标杆嘉会,GAIR自2016年开办以来,始终苦守“传承+立异”内核,始终致力在毗连技能前沿与财产实践。 于人工智能慢慢成为国度竞争焦点变量确当下,算力正之前所未有的速率重塑技能路径与财产布局。13日举办的“AI算力新十年”专场聚焦智能系统的底层焦点——算力,从架构演进、生态构建到财产化落地睁开体系会商,试图为将来十年的中国AI财产,厘清要害变量与成长标的目的。 IO本钱开创合股人赵占祥,专注在硬科技与半导体范畴的初期和发展期投资,于年夜会上,他发表了题为《年夜模子时代,国产AI芯片破局的几种新技能线路》 的演讲。 持久存眷半导体与硬科技的他,近几年紧密亲密不雅察着国产AI芯片于实际约束下的演进路径。“本年国产GPU的市场据有率已经靠近一半,于进步前辈制程受限的配景下,纯真沿着GPU的既有线路继承追逐英伟达,必需依赖新的技能路径”,他开门见山。 从这一判定出发,赵占祥体系梳理了已往一年海内涌现出的多条摸索线路,笼罩云端、边沿、端侧、IoT结尾以和进步前辈封装等多个层面。 云规矩向,赵占祥重点提到TPU、Hybrid Bonding(混淆键合)、年夜容量SRAM推理芯片以和年夜范围漫衍式互联等方案。这些线路的配合点,是绕开对于HBM及进步前辈工艺的高度依靠,经由过程体系设计得到总体机能晋升。“英伟达本身流片的成本只占四分之一,一半的成本于HBM上”,他说,“假如带宽能上去,素质上就是用存力去抵消算力不足。” 于他看来,很多值患上存眷的变化,也正发生于端侧及结尾。除了了于演讲中梳理多条新兴端侧芯片线路外,赵占祥于演讲竣事后也与雷峰网(公家号:雷峰网)睁开对于谈,进一步注释了他为什么于非分特别注重端侧市场,以和这些标的目的怎样于实际约束下跑互市业闭环。(作者持久存眷半导体、算力上下流等标的目的,接待添加微信 Ericazhao23 交流。) 雷峰网:您于演讲中分享了许多端侧AI的案例,为何本年着重看端侧芯片市场? 赵占祥:接下来AI技能要真正落地,就要靠端侧。这个市场将来范围必定也是海量,全世界PC与平板的出货量约莫四亿台、手机十几亿台,这些都是端侧芯片巨年夜需求的基础。 更主要的是,AI硬件将来的时机是中国的。 软件生态的客户群体集中于海内,这给中国芯片厂商创造了自然上风。就像蓝牙耳机范畴——中国盘踞全世界90%的市场份额,焦点芯片也险些都是中国厂商供给。这类生态逻辑及Arm很相似,可以说,假如没有中国厂商,就没有今天Arm的财产影响力。 雷峰网:但有一种说法认为,部门端侧芯片的出货量有限、成本利润又比力低,难以笼罩出产成本。那末,端侧芯片想实现贸易闭环,重点会于甚么处所? 赵占祥:可以看看瑞芯微的例子,他们此刻利润体现很好,焦点就是已往十年里,把办事做到了极致。好比,他们能做到无原厂接入的环境下直接替代,以是各人于深圳想做AI硬件,会优先想到瑞芯微。他们各类解决方案都有,这类重办事的模式就是中国工程师盈余的表现。 美国厂商就做不到这一点,他们更擅长把开发平台打磨到极致,但办事能力衰;中国厂商也许于机能上稍减色,但能经由过程深度适配满意差别产物需求,这类落地能力于AI贸易化阶段,反而成为了焦点上风,可以经由过程“堆人”做好办事。 雷峰网:今朝来讲,端侧芯片的成长重要面对甚么瓶颈? 赵占祥:起首是功耗,当前的AI手机芯片是跑不了年夜模子的,算力不敷、存储容量不敷,年夜模子对于内存的耗损还有是太年夜了,这也是为何此刻有公司于推PIM+3D DRAM的方案,就是经由过程存内计较,让内存直接负担计较使命、再用3D重叠封装晋升存储容量,也能降低总体功耗。 不外,除了了技能还有有生态的能力。对于新入局的NPU创业公司来讲,手机生态的壁垒过高了:华为有本身的芯片生态,小米、OPPO高端机重要用高通芯片,vivo X系列高端机用联发科,这些新NPU公司怎么及主芯片厂商成立互助,是很主要的。 雷峰网:估计来岁于端侧这边,会有哪些运用能率先范围化落地吗? 赵占祥:此刻结尾AI的形态,重要是指环、眼镜等可穿着装备,还有有各种传感器及智能家居、AI硬件。不外,接下来发作力最强的多模态AI硬件应该就是AI眼镜了,来岁年夜几率会迎来销量暴涨,守旧预计能卖几万万部,焦点驱动力就是成本降落。 今朝已经有中国厂商于日本卖的一款智能眼镜,售价才几十块钱,虽然只是加之个耳机功效,但销量很是年夜。将来AI眼镜的成长路径,应该是“先降成本、再升体验”,将来AI眼镜彻底有可能降到平凡眼镜的价格,就像此刻买个太阳镜只要一百块钱那样。 雷峰网:那于结尾AI这边,要实现贸易闭环会有哪些比力可行的路径? 赵占祥:结尾末了应该也会跑出极致低功耗的AI芯片公司,或者者Arm如许的IP供给商。好比有公司就是卖IP授权的,做SoC、电源治理、传感器、MCU等芯片的厂商可以买他们的IP集成进去,这类IP的伸缩性尤其好,能支撑起完备的生态供给链。 并且,IP模式之以是能形成闭环,要害于在“量年夜”。低功耗AI IP成本很低,芯片公司假如本身研发,不仅要费钱招人,效果还有未必好,直接采购反而更划算。就像蓝牙耳机芯片一年出货三十亿颗,哪怕每一颗收一毛钱授权费,也能有三个亿的收入了。 如下是赵占祥演讲的出色内容,雷峰网作了不转变原意的收拾与编纂: 前面几位佳宾重要分享了国产GPU的成长路径。正如适才罗总提到的,本年国产GPU的市场据有率已经靠近一半。于进步前辈制程受限的配景下,纯真沿着GPU的既有线路继承追逐英伟达,很难于机能上逾越英伟达,以是必需依赖新的技能路径。 自去年起,海内又涌现了一二十家立异的芯片公司,测验考试经由过程新的架构设计及工艺线路,摸索年夜模子时代AI芯片的成长标的目的。今天,我将缭绕这些技能线路睁开分享。 起首咱们回首下美国对于华出口管束的演进。 2022至2024年间,相干限定“变本加厉”,焦点集中于进步前辈计较与进步前辈制程范畴,包括光刻机、HBM、进步前辈封装,还有有混淆键合及职员流动限定等要害环节。于如许的情况下,中国要依靠EUV工艺向2nm等进步前辈制程演进,难度还有是很年夜的。 我也列一下海内于差别标的目的上的立异技能线路,包括云真个AI芯片、边沿的AI芯片、端侧的AI芯片、IoT结尾的AI芯片及进步前辈封装。中国真正强的是,咱们可以把运用做好,有工程师盈余,咱们于各个范畴都有差别的定制化方案及立异的解决线路。 起首,是数据中央的AI芯片。 第一条线路,是TPU线路。Google最新发布的Gemini3模子,就是基在TPU举行练习。今朝,包括OpenAI、Anthropic、xAI于内的多家AI巨头,已经向Google下单采购TPU。此刻Google正式对于外发卖TPU芯片了,已经经是全世界出货量仅次在英伟达的AI芯片产物。 TPU的焦点特性于在以“超节点机能”为方针,而非单卡机能。其上风包括更年夜范围的超节点架构、更高性价比,以和相对于友爱的软件生态。于不依靠CUDA的条件下,经由过程体系级设计得到总体机能晋升,同时削减对于进步前辈制程、HBM以和NV/IBSwitch的依靠,从而显著降低成本——甚至到达远超英伟达十倍以上的超高性价比。 以后,是3D-TokenPU,这条线路的焦点于在Hybrid Bonding(混淆键合)技能。进入年夜模子时代后,对于数据存储的要求是更高的。实在英伟达本身流片的成本只占1/4,1/2的成本则花于HBM上。假如咱们用Hybrid Bonding的方式,比拟HBM的带宽是更高的,此刻HBM的带宽就是几个TB/s,等在是用存力抵消了算力不足的问题。 第三,是年夜容量SRAM推理芯片。这个方案以SRAM为焦点,比拟在GPGPU,具有三项显著上风: 低时延,可实现毫秒级相应;低成本,单元机能成真相比传统GPGPU提高了10倍;低功耗,无需HBM,也不依靠进步前辈制程,从而显著降低制造难度及能耗。 接下来,是百万卡漫衍式互联方案。于超年夜范围集群中,收集成为要害瓶颈,传统无损收集于万卡范围下可用性降落较着。有公司就采用基在以太网、答应丢包的互联方案,使体系具有更强的可扩大性,有望撑持百万卡级另外漫衍式集群。 再来看看边沿芯片的成长。 起首,英伟达近期发布Spark AI Station,搭载GB10芯片。将来家庭场景中,NAS有可能从纯真的存储中央演进为计较中央,就都要配一个边沿AI芯片。摄像甲等装备也会从被动监控酿成自动认知,天然就需要年夜模子的计较能力,这一变化为国产方案提供了落地上风。 有公司提出的LPU架构,采用四层3D DRAM重叠,内存带宽可达24TB/s。GB10处置惩罚的Token于每一秒个位数,但这个比拟传统方案,其Token处置惩罚能力可以到达每一秒上百个。 于呆板人等范畴,当前芯片仍是被英伟达Orin垄断的,国产芯片今朝最年夜的问题就是算力没有那末高,用患上至多的瑞芯微只有几个TOPS,智能体的GPU算力可以做患上更高。 而端侧AI芯片,重要是手机以和各类智能终端。 起首,一种是苹果NPU线路。苹果的NPU从2017年最先做,做到此刻8年的时间了,迭代了许多代,已经经是很乐成的NPU了。 它的上风于在强通用性,能撑持所有AI收集;其次是高能效比,苹果的NPU已经经不需要比参数了,它的能耗比比拟在传统的CPU及GPU,有10倍以上的上风,比拟其他的AI芯片,面积只有1/2至1/4。 此外,还有有高效编译器以和优良的可扩大性。以是苹果重要是易用性做患上很是好,而不是一味地寻求算力的机能及参数。 以后,是3D DRAM+PIM的端侧方案。3D DRAM是重叠封装的技能,而 PIM 于此基础上引入计较逻辑,使端侧装备于更小面积、更低成本及功耗前提下实现更高算力。 微纳核芯则采用了全世界首创的三维存算一体3D-CIM架构,统筹了高机能、低功耗与低成本这个“不成能三角”。于存储芯片中引入计较逻辑,相称在将NPU焦点直接集成至DRAM中。如许做的上风于在,手机体系无需分外增长AI芯片,内存芯片自己便可负担计较功效,与CPU协同事情,总体芯片数目不增长,功耗较低,Token天生能力可达每一秒百级。 接下来,是结尾AI芯片。结尾AI芯片的焦点诉求是超低功耗处置惩罚能力。 此外,3D DRAM的成长高度依靠进步前辈封装。近来我看到一家深圳的公司,他们就是做进步前辈封装装备焦点零部件的,此刻整个产能都拉满了。芯片公司让进步前辈封装厂扩产,进步前辈封装厂让装备公司扩产,装备公司让上游模块厂商、组件厂商扩产,整个财产链畴前几年的无人问津、到此刻产能拉爆,来岁的产能还有会越发紧张。甚至,有些装备厂商的定单都已经经排到了来岁下半年,整个行情都被AI算力带起来了。 于进步前辈封装需求鞭策下,又有一些新的时机涌现。 好比,电容、电感等器件,传统电容电感重要部署于PCB板上,占用面积较年夜;而于进步前辈封装中,这些器件需要内嵌至芯片内部,只能采用硅电容方案,运用在高机能SoC、AI算力芯片和高速光模块内里,以是硅电容将来的需求是很巨年夜的。 以苹果电脑为例,单个主芯片需要的硅电容数目可达8–11颗,用量很是年夜。相干焦点技能,包括半导体MOS工艺、3D纳米布局、深沟式技能和高容积率PICS技能。之前放于PCB板上,器件坏了以后把它拿下来换一下就能够了,但此刻不成能把芯片拆了拿出来换,靠得住性要求更高,门坎比拟以前高了许多。 齐力半导体是一家从事前进封装产线的公司,产物涵盖2.5D与3D封装,此中3D封装就是于2.5D的基础上引入了TSV技能。 于混淆键合技能下,可以实现数十至数百TB级另外带宽能力,这也对于检测装备提出了更高要求。已往检测装备重要办事在进步前辈制程,但当前进步前辈封装需求快速增加,对于微凸块3D检测及全流程缺陷检测提出了更高要求——这么多颗芯片里,一旦焊接或者键合存于缺陷,可能致使多颗芯片同时报废,成本极高。跟着重叠层数增长,良率降落问题越发凸起,就只能依靠高精度检测装备包管质量,以此节制成本。 而于3D封装中,层间焊接之间假如有空地,就难以经由过程电子束、光学或者X射线检测发明,往往需要依靠超声波检测技能。这项技能于晶圆键合范畴的运用规模正于扩展,海内的思波微也已经经推出用在进步前辈封装的超声检测装备。 再先容一下光电合封,它被认为是下一代AI算力的基石。与传统光模块方案比拟,其于功耗、集成度、靠得住性及部署效率方面具有较着上风。详细来看,功耗可以降低约3.5倍,集成度晋升约63倍,靠得住性晋升约10倍,部署时间缩短约1.3倍。海内已经经有企业于该标的目的开展产物结构。 末了简朴先容IO本钱。IO本钱是一家持久专注在硬科技范畴的财政参谋机构。这一页展示的是最近几年来已经完成上市的项目,后续也有多家企业正于推进上市进程。今朝,咱们所办事及陪伴的硬科技独角兽企业数目已经跨越30家。 雷峰网原创文章,未经授权禁止转载。详情见转载须知。

