米兰·(milan)中国官方网站- 安谋科技的第六代NPU IP,为什么是通用NPU IP?

2026-04-03 05:24:36

导语:周易X3 NPU聚焦基础举措措施、智能汽车、挪动终端、智能物联网四年夜焦点范畴,界说了8-80 FP8 TFLOPS的AI算力

近日,安谋科技(Arm China)发布了全新的中高算力NPU“周易”X3,作为安谋科技自研的第六代NPU IP,“周易”X3一个很显著的特色是采用了专为年夜模子而生的最新DSP+DSA架构,即通用NPU(GPNPU)架构,旨于统筹AI加快器对于机能与通用性的需求。

安谋科技的第六代NPU IP,为什么是通用NPU IP?

从初代“周易”Z1 NPU到第五代“周易”X3 NPU,产物迭代年夜幅晋升了机能、计较效率,也举行了架构的演进。“周易”NPU X3针对于Transformer和当下主流年夜模子举行了架构进级,成为一款单Cluster撑持8-80 FP8 TFLOPS算力且可矫捷配置、单Core带宽高达256GB/s的新一代边端侧AI NPU IP产物。

安谋科技的第六代NPU IP,为什么是通用NPU IP?

“周易”X3 NPU的推出,一方面表现AI技能日月牙异,揭示安谋科技始终站于边沿及端侧AI的最前沿不停更新迭代。另外一方面,也代表着AI加快器的竞争正处在“杂乱”阶段,CPU、GPU、NPU都于年夜幅晋升其AI机能。

安谋科技Arm China NPU产物线卖力人兼首席架构师舒浩博士对于雷峰网(公家号:雷峰网)暗示,“AI计较架构此刻处在‘杂乱成长期,各人于从差别维度摸索,终极必然会收敛到一个相对于最优的解决方案,这是任何技能成长都必经的历程。当下是一个‘百花齐放、百家争鸣’的时代。安谋科技会站于技能演进的潮头不停立异、连续演进,当好中国智能计较的生态领航者。”

为何界说8-80 FP8 TFLOPS的NPU算力?

于芯片界说的初期,最要害也是最难的问题是到底要界说一款多年夜算力的芯片。“面临这一问题,咱们起首要思索两点:第一,咱们要对准哪些范畴及运用场景?第二,这些场景下产物对于在NPU的体系约束是甚么?”舒浩说,“针对于边端侧的主流场景及产物形态,咱们举行了体系的阐发及调研,界说了8-80 FP8 TFLOPS的产物算力规格。进而,针对于差别范畴及场景的需求,咱们计划了矫捷可配的产物特征,可以矫捷、快速地适配差别场景对于在NPU算力的差异化需求。此外,针对于当下主流年夜模子对于在FP8数据格局的需求,咱们也和时举行了算力规格的撑持。”

安谋科技的第六代NPU IP,为什么是通用NPU IP?

可以看到,“周易”X3 NPU聚焦基础举措措施、智能汽车、挪动终端、智能物联网四年夜焦点范畴,界说了8-80 FP8 TFLOPS的AI算力,可运用在加快卡、智能座舱、ADAS、具身智能、AI PC、AI手机、智能网关、智能IPC等AI装备。

安谋科技的第六代NPU IP,为什么是通用NPU IP?

全新的“周易”X3 NPU,相较在前代“周易”X2,CNN模子机能晋升30%~50%,多核算力线性度到达70%~80%。于同算力规格下,AIGC年夜模子能力晋升10倍,这患上益在16倍的FP16 TFLOPS、4倍的计较焦点带宽,以和超10倍的Softmax及LayerNorm机能晋升配合驱动。

安谋科技产物战略总监张冰暗示,“‘周易’X3的8-80 FP8 TFLOPS的算力于边端侧是面向中年夜AI算力场景,及Arm的Ethos的小算力形成为了互补,Arm+Arm China的产物组合可以笼罩整个边端侧的AI算力需求。”

为何是DSP+DSA的通用NPU架构?

明确了芯单方面向的场景以和所需的算力以后,下一步咱们需要确定这些范畴所需的AI算法及收集。经由过程体系地阐发AI算法及收集的成熟度、成长状况以和于差别范畴中的运用状况,如许咱们就能够进一步确定适合的技能线路。“周易”X3 NPU选择的是DSP+DSA的架构,这使患上“周易”X3可以同时满意传统CNN模子,以和最新的Transformer模子的需求,于计较效率、互连带宽、精度适配、使命调理四年夜维度实现进级。

安谋科技的第六代NPU IP,为什么是通用NPU IP?

不外于数据类型的撑持上,这款通用NPU出现出一种看似“抵牾”的特征:一方面踊跃采用低比特量化以节省资源,另外一方面又不惜资源地撑持高精度的浮点数据格局。

“周易”X3 NPU新增端侧年夜模子运行必备的W4A8/W4A16计较加快模式,新的计较加快模式对于模子权重举行低比特量化,年夜幅降低带宽耗损,撑持云端年夜模子向端侧的高效迁徙。

而与此同时,“周易”X3 NPU撑持周全的矩阵计较数据格局:int4/int8/int16/ fp4/fp8/fp16/bf16以和混淆精度计较,加强了浮点运算FLOPS,可以实现从定点到浮点计较的转换及兼容,同时满意了传统模子及年夜模子的计较需求。

对于在端边侧的NPU来讲,资源有限的环境下,业界于努力摸索经由过程量化的方式于端侧实现更好的AI体验,“周易”X3 NPU为何夸大浮点数据格局的撑持?

舒浩注释道:“对于在传统模子来讲,模子的能力已经经满意了现实需求,这个时辰各人的存眷点会集中于模子效率及硬件计较效率上。针对于这一类型的模子,业界会花更多的精神于量化等相干技能上,同时硬件层面也只要撑持整形计较就能够满意模子的要求,进而获取更好的计较效率。可是,于年夜模子时代,今朝整形数据格局还有不克不及比力好地满意模子对于精度的要求,业界的趋向是利用低精度的浮点数据格局及混淆精度计较来做一个精度及效率之间衡量。同时,年夜模子收集仍于快速成长及不停演进之中,这个时辰怎样可以或许更快速地举行收集适配及端侧部署是更为主要的一件事。是以,”周易” X3 NPU着重夸大了对于浮点数据格局以和混淆精度计较的撑持,此中包括了Deepseek率先利用的fp8数据格局。”

他增补道,“别的,针对于年夜模子算法,单从技能上来说,我感觉此刻业界没有一个充足高效及强盛的收集满意运用的需求。不管是模子还有是量化算法都还有有许多的不确定性。于这个过渡期,量化数据格局其实不知道终极会收敛在浮点还有是定点,以是各类手腕都要上,‘周易’X3就同时撑持定点及浮点。”

撑持浮点还有有一个显著的上风,经由过程剪枝、蒸馏、量化等一系列方式举行模子等轻量化,于端侧部署时,碰面临模子精度降落带来的体验降落,浮点计较能带来更高精度。

从体系层面上来讲,这触及到从模子、轻量化到硬件多个层面的繁杂问题,“周易” X3 NPU的计谋是提供相对于周全的全栈优化能力,将更多的优化空间留给客户。

舒浩也指出,“假如客户是传管辖域,不需要全数的浮点类型,或者者有的客户只需要浮点计较,‘周易’X3 NPU均可以矫捷配置,针对于差别范畴配置出相对于最优的NPU方案。”

安谋科技的第六代NPU IP,为什么是通用NPU IP?

同时撑持更低比特的量化及浮点计较恰是DSP+DSA架构的通用NPU的上风。舒浩博士分享,于计较架构的演进上, “周易” X3 NPU还有将继承沿着混淆架构这个标的目的进步,于NPU中吸纳更多CPU及GPU的思惟,让AI的运用可以更高效地运行于NPU上,终极衍生出真正面向AI的NPU计较架构。

“但这其实不象征着NPU会替换CPU,CPU可以及NPU异构计较,负担更繁杂的使命及功效。”舒浩夸大。

除了了DSP+DSA的架构,“周易”X3 NPU于架构层面还有有其他立异,包括集成自研解压硬件WDC,这使年夜模子Weight软件无损压缩后经由过程硬件解压能得到分外15%~20%等效带宽晋升。

还有有,“周易”X3 NPU集成AI专属硬件引擎AIFF(AI Fixed-Function)与专用硬化调理器,可以或许实现超低至0.5%的CPU负载与低调理延迟,矫捷撑持端侧多使命场景及肆意优先级调理场景,确保高优先级使命的即时相应。

借助新特征,“周易”X3 NPU让年夜模子的推理越发高效,于Llama2 7B年夜模子实测中,“周易”X3 NPU于Prefill阶段算力使用率高达72%,并于安谋科技自研的解压硬件WDC的加持下,实现Decode阶段有用带宽使用率超100%,远超行业平均程度,满意年夜模子解码阶段的高吞吐需求。

为何提供完整的软件平台?

“周易”X3 NPU计较效率的年夜幅晋升及新特征的实现,离不开软硬件充实协同。

安谋科技Arm China产物总监鲍敏祺指出:“‘周易’X3 NPU遵照‘软硬协同、全周期办事与成绩客户’的产物准则,提供从硬件、软件到售后办事的全链路撑持。”

安谋科技的第六代NPU IP,为什么是通用NPU IP?

与“周易”X3 NPU配套的软件平台是“周易”Compass AI,这一完整的软件平台提供笼罩开发全流程的东西链,平台中的NN Compiler(神经收集编译器)集成Parser(模子解析)、Optimizer(优化器)、GBuilder(天生器)和AIPULLM(年夜模子运行东西),可实现主流模子的高效转化、主动化优化与部署配置天生,而且具有五年夜焦点能力,包括:

广泛的框架与模子撑持:撑持超160种算子与270种模子,兼容TensorFlow、ONNX、PyTorch、Hugging Face等主流AI框架,提供开箱即用的Model Zoo。

立异的Hugging Face模子“一键部署”:经由过程AIPULLM东西链,直接撑持Hugging Face格局模子,实现“一站式”转化与部署,极年夜降低开发门坎。

进步前辈的模子推理优化:实现业界领先的年夜模子动态shape撑持,高效处置惩罚肆意长度输入序列;同时提供包括Tensor/Channel/Token Level多样量化方式,以和GPTQ等年夜模子主流量化方案,并增长对于LLM/VLM/VLA和MoE等模子的高机能撑持,保障推理精度并实现云到端快速迁徙。

矫捷的开发者赋能:提供多种开放接口,撑持用户模子与自界说算子的开发与调试;配备富厚的调试东西与Bit精度软件仿真平台,撑持多条理白盒开发与机能调优,极年夜简化算法移植与部署。

周全的体系与异构兼容:撑持Android、Linux、RTOS、QNX等多种操作体系,并经由过程TVM/ONNX实现SoC异构计较,高效调理CPU、GPU、NPU等计较资源。

作为IP提供商,安谋科技为什么要提供完整的软件平台?舒浩暗示:“边端侧AI落地历程中,客户需要投入年夜量的人力、物力举行模子适配、调优及部署。假如没有完整软件平台的撑持,这会极年夜地增长客户营业落地的难度及事情量。‘周易’ X3 NPU提供了完整的软件栈撑持及富厚的东西,可以有用帮忙客户加快AI营业的端侧部署事情。‘周易’ X3 Compass端到端软件平台恰是咱们作为AI智能计较领航者一个很好的表现。作为一个开放的AI软件生态,‘周易’ X3 Compass软件平台可以帮忙客户降低事情量,晋升开发效率,于此基础上咱们也开放了许多的软件接口,客户可以构建其差异化的AI体系解决方案,进而构建差异化的产物竞争力。”

安谋科技的第六代NPU IP,为什么是通用NPU IP?

这是否象征着对于在利用“周易”X3 NPU开发芯片产物的芯片公司来讲,甚至不消于软件栈方面投入就能够给开发者利用?

舒浩注释,假如是与AI强相干的软件栈和尺度模子,基本上客户不需再投入,利用“周易” X3 Compass软件栈就能够完成模子适配、调优等各类事情。“咱们的方针就是防止客户对于在这些组件的反复投入与开发。同时,这类环境下咱们也不建议客户举行分外的投入:由于NPU的软硬件耦合很是慎密,只于软件层面投入研发,于对于硬件没有充足的相识的环境下,很难获取体系性有用的晋升,这类投入多是一个‘灾害’。”

“另外一方面,咱们的‘周易’ X3 Compass AI软件平台于runtime(运行时)层面提供了更多的自界说接口,包括:自界说算子接口、自界说图优化接口、NPU驱动接口等,利用这些接口客户可以按照SoC架谈判软件体系构建合适在本身的NPU软件方案。”舒浩增补道。

因而可知,“周易”Compass AI软件平台完整的组件及东西,既可以满意开发者白盒部署需求,撑持更容易用的DSL算子编程语言,开发者也能够于深度开发模式下,利用平台中的Compiler、Debugge及DSL语言开发自界说算子,也可经由过程Parser、Optimizer等东西打造专属的模子编译器,极年夜晋升开发效率。

一个能充实表现“周易”X3 NPU卓着硬件交融的例证是前面提到的AIFF模块软硬件设计中,硬件端充实联合软件利用场景,经由过程增年夜总线带宽、增长数据流水线并行和繁杂算子加快等方式晋升数据搬运、数据并行效率,软件端则针对于硬件特征设计专属利用模式,如对于模子举行合理切分以充实阐扬多核并行上风。

All in AI战略,安谋科技连结AI带领力

“周易”X3 NPU是安谋科技Arm China“All in AI”产物战略下降生的首款重磅产物,也是“AI Arm CHINA”战略成长标的目的的要害实践。

于这一战略之下,安谋科技会鼎力大举投入NPU IP,连结业界领先职位地方,并以开放互助的立场踊跃适配主流模子及OS,致力在为客户提供涵盖硬件、软件、技能办事的完备解决方案。

安谋科技的第六代NPU IP,为什么是通用NPU IP?

实在从已往五代“周易”NPU就能看出其领先性,接下来安谋科技的团队还有会存眷PD分散于端侧的衍生运用,存算一体以和3D IC等前沿半导体技能,连结于AI方面的连续投入及领先职位地方。雷峰网

雷峰网原创文章,未经授权禁止转载。详情见转载须知。

-米兰·(milan)中国官方网站

相关内容

All rights reserved ©2026 Jinko Power.Powered by Webfoss.沪ICP备15009312号-1