米兰·(milan)中国官方网站- 世界最大AI芯片打破单设备训练大模型记录 ,Cerebras要「杀死」GPU

2026-03-30 20:47:47

导语:巨型AI芯片,怎样解决AI年夜模子练习的疾苦?

以造出生避世界上最年夜加快器芯片CS-2 Wafer Scale Engine著名的公司Cerebras昨日公布他们已经经于使用“巨芯”举行人工智能练习上走出了主要的一步。该公司练习出了单芯片上全球最年夜的NLP(天然语言处置惩罚)AI模子。雷峰网(公家号:雷峰网)

该模子具备20亿个参数,基在CS-2芯片举行练习。这块全球最年夜的加快器芯片采用7nm制程工艺,由一整块方形的晶圆刻蚀而成。它的巨细数百倍在主流芯片,具备15KW的功率。它集成为了2.6万亿个7nm晶体管,封装了850000个内核及40GB内存。世界最大AI芯片打破单设备训练大模型记录 ,Cerebras要「杀死」GPU

图1 CS-2 Wafer Scale Engine芯片

单芯片练习AI年夜模子新纪录

NLP模子的开发是人工智能中的一个主要范畴。使用NLP模子,人工智能可以“理解”文字寄义,并举行响应的动作。OpenAI的DALL.E模子就是一个典型的NLP模子。这个模子可以将利用者的输入的文字信息转化为图片输出。

好比当利用者输入“牛油果外形的扶手椅”后,AI就会主动天生若干与这句话对于应的图象。

世界最大AI芯片打破单设备训练大模型记录 ,Cerebras要「杀死」GPU

图:AI吸收信息后天生的“牛油果外形扶手椅”图片

不止在此,该模子还有可以或许使AI理解物种、几何、汗青时代等繁杂的常识。

但要实现这一切其实不轻易,NLP模子的传统开发具备极高的算力成本及技能门坎。

现实上,假如只会商数字,Cerebras开发的这一模子20亿的参数目于偕行的烘托下,显患上有些平平无奇。

前面提到的DALL.E模子具备120亿个参数,而今朝最年夜的模子是DeepMind在去年年末推出的Gopher,具备2800亿个参数。

但除了去惊人的数字外,Cerebras开发的NLP还有有一个巨年夜的冲破:它降低了NLP模子的开举事度。

「巨芯」怎样打败GPU?

根据传统流程,开发NLP模子需要开发者将巨年夜的NLP模子切分若干个功效部门,并将他们的事情负载分离到成百上千个图形处置惩罚单位上。

数以千百计的图形处置惩罚单位对于厂商来讲象征着巨年夜的成本。

技能上的坚苦也一样使厂商们疾苦不胜。

切分模子是一个定制的问题,每一个神经收集、每一个GPU的规格、以和将他们毗连(或者互联)于一路的收集都是并世无双的,而且不克不及跨体系移植。

厂商必需于第一次练习前将这些因素十足思量清晰。

这项事情极为繁杂,有时辰甚至需要几个月的时间才能完成。

Cerebras暗示这是NLP模子练习中“最疾苦的方面之一”。只有少少数公司拥有开发NLP所须要的资源及专业常识。对于在人工智能行业中的其他公司而言,NLP的练习则太昂贵、太耗时且没法利用。

但若单个芯片就可以撑持20亿个参数的模子,就象征着不需要利用海量的GPU分离练习模子的事情量。这可以为厂商节省数千个GPU的练习成本及相干的硬件、扩大要求。同时这也使厂商没必要履历切分模子并将其事情负载分配给数千个GPU的疾苦。

Cerebras也并未仅仅执拗在数字,评价一个模子的优劣,参数的数目其实不是独一尺度。

比起但愿降生在“巨芯”上的模子“努力”,Cerebras更但愿的是模子“智慧”。

之以是Cerebras可以或许于参数目上取患上爆炸式增加,是由于使用了权重流技能。这项技能可以将计较及内存的占用量解耦,并答应将内存扩大到足以存储AI事情负载中增长的任何数目的参数。

因为这项冲破,设置模子的时间从几个月削减到了几分钟。而且开发者于GPT-J及GPT-Neo等型号之间“只需频频按键”就能够完成切换。这让NLP的开发变患上越发简朴。

这使患上NLP范畴呈现了新的变化。

正如Intersect360 Research 首席研究官 Dan Olds 对于Cerebras取患上成绩的评价:“Cerebras 可以或许以具备成本效益、易在拜候的方式将年夜型语言模子带给公共,这为人工智能斥地了一个冲动人心的新时代。”

雷峰网原创文章,未经授权禁止转载。详情见转载须知。

-米兰·(milan)中国官方网站

相关内容

All rights reserved ©2026 Jinko Power.Powered by Webfoss.沪ICP备15009312号-1