2026-01-29
milan米兰官方网站科技近50MW工商业分布式项目集中完工,赋能多元产业场景
了解详情
2026-03-30 20:47:47
导语:巨型AI芯片,怎样解决AI年夜模子练习的疾苦? 以造出生避世界上最年夜加快器芯片CS-2 Wafer Scale Engine著名的公司Cerebras昨日公布他们已经经于使用“巨芯”举行人工智能练习上走出了主要的一步。该公司练习出了单芯片上全球最年夜的NLP(天然语言处置惩罚)AI模子。雷峰网(公家号:雷峰网) 该模子具备20亿个参数,基在CS-2芯片举行练习。这块全球最年夜的加快器芯片采用7nm制程工艺,由一整块方形的晶圆刻蚀而成。它的巨细数百倍在主流芯片,具备15KW的功率。它集成为了2.6万亿个7nm晶体管,封装了850000个内核及40GB内存。 图1 CS-2 Wafer Scale Engine芯片 单芯片练习AI年夜模子新纪录 NLP模子的开发是人工智能中的一个主要范畴。使用NLP模子,人工智能可以“理解”文字寄义,并举行响应的动作。OpenAI的DALL.E模子就是一个典型的NLP模子。这个模子可以将利用者的输入的文字信息转化为图片输出。 好比当利用者输入“牛油果外形的扶手椅”后,AI就会主动天生若干与这句话对于应的图象。 图:AI吸收信息后天生的“牛油果外形扶手椅”图片 不止在此,该模子还有可以或许使AI理解物种、几何、汗青时代等繁杂的常识。 但要实现这一切其实不轻易,NLP模子的传统开发具备极高的算力成本及技能门坎。 现实上,假如只会商数字,Cerebras开发的这一模子20亿的参数目于偕行的烘托下,显患上有些平平无奇。 前面提到的DALL.E模子具备120亿个参数,而今朝最年夜的模子是DeepMind在去年年末推出的Gopher,具备2800亿个参数。 但除了去惊人的数字外,Cerebras开发的NLP还有有一个巨年夜的冲破:它降低了NLP模子的开举事度。 「巨芯」怎样打败GPU? 根据传统流程,开发NLP模子需要开发者将巨年夜的NLP模子切分若干个功效部门,并将他们的事情负载分离到成百上千个图形处置惩罚单位上。 数以千百计的图形处置惩罚单位对于厂商来讲象征着巨年夜的成本。 技能上的坚苦也一样使厂商们疾苦不胜。 切分模子是一个定制的问题,每一个神经收集、每一个GPU的规格、以和将他们毗连(或者互联)于一路的收集都是并世无双的,而且不克不及跨体系移植。 厂商必需于第一次练习前将这些因素十足思量清晰。 这项事情极为繁杂,有时辰甚至需要几个月的时间才能完成。 Cerebras暗示这是NLP模子练习中“最疾苦的方面之一”。只有少少数公司拥有开发NLP所须要的资源及专业常识。对于在人工智能行业中的其他公司而言,NLP的练习则太昂贵、太耗时且没法利用。 但若单个芯片就可以撑持20亿个参数的模子,就象征着不需要利用海量的GPU分离练习模子的事情量。这可以为厂商节省数千个GPU的练习成本及相干的硬件、扩大要求。同时这也使厂商没必要履历切分模子并将其事情负载分配给数千个GPU的疾苦。 Cerebras也并未仅仅执拗在数字,评价一个模子的优劣,参数的数目其实不是独一尺度。 比起但愿降生在“巨芯”上的模子“努力”,Cerebras更但愿的是模子“智慧”。 之以是Cerebras可以或许于参数目上取患上爆炸式增加,是由于使用了权重流技能。这项技能可以将计较及内存的占用量解耦,并答应将内存扩大到足以存储AI事情负载中增长的任何数目的参数。 因为这项冲破,设置模子的时间从几个月削减到了几分钟。而且开发者于GPT-J及GPT-Neo等型号之间“只需频频按键”就能够完成切换。这让NLP的开发变患上越发简朴。 这使患上NLP范畴呈现了新的变化。 正如Intersect360 Research 首席研究官 Dan Olds 对于Cerebras取患上成绩的评价:“Cerebras 可以或许以具备成本效益、易在拜候的方式将年夜型语言模子带给公共,这为人工智能斥地了一个冲动人心的新时代。” 雷峰网原创文章,未经授权禁止转载。详情见转载须知。
