2026-01-29
milan米兰官方网站科技近50MW工商业分布式项目集中完工,赋能多元产业场景
了解详情
2026-04-06 14:10:30
导语:最新发布的Trillium机能为TPU v5e的4.7倍,官方称是迄今为止机能最高、最节能的TPU。 12月12日,google公布其第六代TPU(张量处置惩罚器),Trillium正式上市。 google计较及人工智能基础举措措施副总裁兼总司理Mark Lohmeyer暗示,google旗下的年夜模子Gemini 2.0恰是采用Trillium举行练习, TPU是Google Cloud AI超等计较(AI Hypercomputer)的要害组件,集成为了机能优化后的硬件、开放软件、领先的呆板进修框架以和矫捷的消费模子。 以色列人工智能公司AI21 Labs的CTO Barak Lenz暗示,AI21 Labs是自TPU v4以来的持久用户,Trillium于范围、速率及成本效率方面都取患了显著的前进。 于GPU加快一切的人工智能时代,TPU像极外来物种。究竟于各年夜搜刮软件里输入要害词“TPU”,前几条成果显示的都是质料学科里的聚氨酯。 TPU因google而呈现,TPU市场因google而繁荣。为什么研发TPU,以和TPU团队的工程师脱离google后怎样将行业推向繁荣,暗地里的故事值患上讲述。 google「被迫」研发TPU 2009年,Geoffrey Hinton将深度神经收集运用在语音建模,于TIMIT(声学-音素持续语音语料库)上得到其时的最好结果,深度进修神经收集技能于语音辨认范畴最先年夜放异彩。 假如说ChatGPT是当下人工智能海潮的出发点,那AlexNet神经收集架构的呈现就是上一个里程碑。 2012年,Alex Krizhesky、Ilya Sutskever及Hinton提出的AlexNet架构,经由过程利用GPU构建深度进修模子,刷新其时的图象辨认世界纪录,而且正确率到达85%,于昔时的ImageNet年夜赛中一举夺冠。 人工智能于语音及图象辨认范畴的运用引起了google的存眷,究竟这两个范畴与google的焦点营业,如搜刮、舆图、照片及翻译等慎密相干。正值google思量推出头具名向全世界的语音辨认功效之际,研究团队发明需要处置惩罚的人工智能计较量将跨越其现有的算力。 google首席科学家Jeff Dean于采访时称:“其时,咱们大略地估算了数亿人与google的产物对于话会孕育发生几多计较量,成果显示google需要部署多一倍的算力才可以满意如许的需求。” 做为年夜厂,google生成带有傲性。其时,google团队研究了市道上提供的所有算力解决方案,全数都被高层反对失。 互联网年夜发作使算力需求出现指数级上升,两个较着的的趋向最先涌现,一是算力利用场景细分解,二是用户对于算力的需求不停爬升,传统的通用算力芯片很难再满意一些特定场景的需求。 对于专用芯片的投入日趋遭到存眷,开发公司内部的深度进修专用场理器芯片成为google的不贰之选。 「出道即巅峰」,首代TPU推理速率为竞品30倍 决议计划后,是迅速的履行。google挖来惠普智能基础举措措施试验室高级总监Norm Jouppi、Pacmid的研发卖力人Jonathan Ross、Arm架构开发商Calxeda的SoC工程总监Richard Ho以和高通高级工程师Ravi Narayanaswami等一批芯片行业资深从业职员,而这一批职员也勾画出当下人工智能芯片范畴巨头博弈的焦点人材画像。 面临全球最佳的工程师,年夜厂光环及天价薪资略显廉价,真正让这帮人聚于一路的是开发出满意全世界人工智能算力需求的解决方案这一愿景。 google云TPU营业开创人Zak Stone称:“2012年,我创建了一家呆板进修创业公司,为了以较低的成本得到算力,我的结合开创人会于网上采办二手的游戏GPU,然后于咖啡桌上搭建办事器,一旦咱们于运行GPU的时辰打开了微波炉,电源就会耗尽。插手google后,我创立了云TPU项目,我知道咱们必需把TPU打造成google云的基础举措措施。” 这也恰是google不直接出售TPU,而是经由过程google云出售TPU算力的缘故原由之一。另外一方面,这类做法可以避免在搭建供给链及硬件发卖团队,节省对于生疏营业的投入,同时反哺了google云营业而且提高了硬件产物的保密水平。 从立项到落地,google花了15个月。2015年,google开发出第一代TPU处置惩罚器,并最先部署于google的数据中央举行深度进修模子练习。彼时,外界对于在google内部的基础举措措施设置装备摆设鲜有认知,而事实上,击败棋王李世石的AlphaGo恰是由TPU驱动的。 研发TPU的团队卖力人Norm Jouppi称:“TPU的设计历程异样迅速,这自己就是一项特殊的成绩。更出乎意料的是,首批交付的硅片无需举行任何过错批改以和掩膜的更改,而正于同步举行的还有有团队组建,RTL(寄放器传输级)设计专家、验证专家都急需增补,整个事情节拍很是紧张。” 呆板进修硬件体系的首席工程师Andy Swing一样暗示:“咱们原以为TPU的产量不会跨越1万颗,但终极出产了跨越10万颗,于告白、搜刮、语音、AlphaGo甚至主动驾驶等范畴被广泛采用。” TPU跟GPU的焦点差异于在,GPU更通用,而TPU则专用在加快呆板进修事情负载,是一款ASIC(专用集成电路)芯片。TPU包罗数千个乘法累加器,这些累加器直接毗连,形成年夜型物理矩阵,即脉动阵列架构,如许的处置惩罚使TPU可以于神经收集计较中实现高计较吞吐量。 Google卓异工程师David Patterson称:“TPU就像海伦(希腊神话中最美的女人),它的呈现引起了成千芯片与之竞逐。” 首款TPU发布后,英特尔便耗资数十亿美元收购了多家芯片公司。阿里巴巴、亚马逊等公司一样最先研发近似产物。TPU从头唤起了人们对于计较机架构的存眷,厥后的几年内,呈现了上百家相干草创企业,年均总融资额近20亿美元,新设法层见叠出。 截至今朝,googleTPU履历了屡次迭代,TPU系列产物的机能也实现了指数级的上升。TPU v1的峰值机能为92 TOPS,1TOPS代表处置惩罚器每一秒钟可举行1万亿次浮点运算,做为同期的竞品,TPU v1的推理速率比英伟达K80 GPU及英特尔Haswell CPU快15到30倍。TPU v4的峰值机能到达1.1PFLOPS,即每一秒举行1100万亿次浮点运算,初次冲破每一秒万万亿次浮点运算的年夜关,相较在TPU v1,机能提高了快要12倍。最新发布的Trillium机能为TPU v5e的4.7倍,官方称是迄今为止机能最高、最节能的TPU。 所有这些处置惩罚能力还有只是最先。 TPU的重要设计师Cliff Young认为,跟上深度进修的成长不仅需要增长用在练习的芯片数目,现有的软硬件架构设计也必需转变,需要应用全新的质料-运用协同设计观点。将来深度进修架构的设计需要包罗从物理到运用的各个层面的协同设计,这是打破摩尔定律瓶颈的一种方式,是深度进修成长的新前途。 团队暗示:“其时,咱们的TPU及Pod设置对于设置装备摆设数据中央能力颇有意义,但此刻咱们正于转变数据中央的设计,以更好地满意需求,当下的解决方案与将来的解决方案将很是差别。健忘单个芯片或者单个TPU吧,咱们正于构建一个载满TPU的全世界数据中央收集。将来是全栈定制,从硅到一切。” TPU梦之队,从「队友到敌手」 当下,所有人都于眼红英伟达于人工智能芯片市场盘踞的市场份额,而TPU让google成为英伟达以外另外一个主要的算力供给商。全世界跨越60%得到融资的天生式AI草创公司及近90%天生式AI独角兽都于利用googleCloud的AI基础举措措施及Cloud TPU办事,包括Anthropic、Midjourney、Salesforce、Hugging Face及AssemblyAI等企业。 2024年7月,苹果宣布其利用了2048片TPUv5p芯片来练习拥有27.3亿参数的装备端模子AFM-on-device,以和利用8192片TPUv4芯片来练习年夜型办事器端模子AFM-server。 这些数据回覆了TPU于人工智能市场里的运用环境,也明示着这个市场会涌入更年夜量的竞争者。而事实上,于TPU v1方才发布的期间,TPU团队成员另立流派或者插手竞对于公司的征象就已经初显苗头。究竟于硅谷,当你萌发出创业设法时,成事规则中的一条就是从google挖人。 Social Capital的开创人Chamath Palihapitiya深谙此中的门道,他老是那末锋利且冒进,面临名士和精英他直言不讳,做为美国的SPAC(非凡目的收购公司)之王,带着散户逼空华尔街精英也让他赚足了吆喝。 Palihapitiya就像投资界的马斯克,把握本钱及流量杠杆让他成为创业者暗地里的攒局人。 2015年,于google的季度财报会上,Palihapitiya不经意间相识到google正于自研AI芯片,为何google要跟英特尔竞争?问题于Palihapitiya心中浮现,他最先寻觅谜底。 2016年,TPU v1发布,跟市场上其别人同样,Palihapitiya的计谋是“no miss”,他认为这一次芯片立异可让Facebook、Amazon、Tesla等公司以和当局使用呆板进修及计较机去做此前没人能做的工作。 巨头入局,Palihapitiya做局。他最先对于googleTPU范畴的工程师举行人材mapping,一年半的时间里,Palihapitiya挖走了google芯片开创团队里10人中的8位,暗地里的两个要害脚色是Jonathan Ross及软件工程师Doug Wightman,而建立的这家新公司恰是当下炙手可热的AI芯片企业Groq。 本年的8月5日,Groq完成由Blackrock领投的新一轮6.4亿美元融资,28亿美元的估值让Groq毫无疑难地成为AI芯片新贵。另外一方面,Meta首席人工智能科学家Yann LeCun公布担当Groq的技能参谋,于Groq的官网上赫然挂着Yann LeCun对于在Groq芯片的评价:“Groq芯片确凿直击关键。” 而问题于在Meta内部也于研发AI芯片,竞对于公司间的人事往来不经让外界感应不测。但可以推测出这暗地里离不开Palihapitiya的周旋,究竟他曾经担当了五年多的Facebook(Meta前身)副总裁,化敌为友,是攒局人的基本素养。 Groq以外,是OpenAI对于google近乎疯狂的“挖墙脚”。 疯狂的暗地里,是Sam Altman激进的7万亿自研芯片战略。此前,台积电CEO CC Wei于采访中暗示:“Altman的规划太激进了,让人难以置信。” 本年10月30日,外媒报导OpenAI与博通以和台积电告竣互助,规划在2026年出产其首个定制芯片。 OpenAI造芯传言靴子落地的暗地里,是Sam Altman网罗AI芯片人材规划的收网。Sam Altman的用人规则只有一条,要末此刻于google,要末以前于google。 近一年里,年夜量googleTPU团队的研发职员密集插手OpenAI,Sam Altman搭建了之前google高级工程总监Richard Ho为首的硬件研发团队,重要成员包括Tensor SoC卖力人Ravi Narayanaswami、高级硬件工程师Thomas Norrie、技能司理Sara Zebian、研究科学家Phitchaya以和设计验证司理Jerry Huang等人。 而这一批人收成的至多的评价恰是:“他们是我互助过的最佳的工程师之一。” 吸引最佳的工程师,Sam Altman开出的前提是:介入构建人类有史以来最弘大的计较机体系、与年夜模子团队的高度协作且不碰面临至公司内部的沟通拦阻,以和高薪。 TPU团队于市场颇受承认的暗地里是任职在google时研发TPU熬炼的从0到1的工程能力,而专用在加快呆板进修及神经收集的设计恰是当下市场最需要的。 贸易层面,身居差别公司也许针尖对于麦芒,但小我私家层面,他们都是googleTPU的偕行者,更是AI芯片将来的创作发明者。 雷峰网(公家号:雷峰网)参考质料: https://cloud.谷歌.com/blog/products/compute/trillium-tpu-is-ga https://cloud.谷歌.com/transform/ai-specialized-chips-tpu-history-gen-ai?e=48754805 https://www.censtry.com/blog/why-did-谷歌-develop-its-own-tpu-chip-in-depth-disclosure-of-team-members.html https://cloud.谷歌.com/tpu/docs/system-architecture-tpu-vm?hl=zh-cn#targetText=Tensor%20Processing%20Units%20(TPUs)%20are,and%20leadership%20in%20machine%20learning. https://cloud.谷歌.com/tpu/docs/system-architecture-tpu-vm?hl=zh-cn#targetText=Tensor%20Processing%20Units%20(TPUs)%20are,and%20leadership%20in%20machine%20learning. 雷峰网原创文章,未经授权禁止转载。详情见转载须知。
