亞馬遜的造芯「野望」
據悉,亞馬遜(AWS)推出了第三代AI訓練芯片Trainum3,是首款采用3nm工藝節點(diǎn)制造的AWS芯片,首批實(shí)例預計將于2025年底上市。
本文引用地址:http://dyxdggzs.com/article/202412/465450.htm自從2018年推出基于A(yíng)rm架構的CPU Graviton以來(lái),亞馬遜一直致力于為客戶(hù)開(kāi)發(fā)自研的芯片產(chǎn)品,Trainium是專(zhuān)門(mén)為超過(guò)1000億個(gè)參數模型的深度學(xué)習訓練打造的機器學(xué)習芯片。在2024年re:Invent大會(huì )上,AWS宣布Trainium2正式可用,其性能比第一代產(chǎn)品提升4倍,可以在極短的時(shí)間內訓練基礎模型和大語(yǔ)言模型。
亞馬遜發(fā)起新挑戰
亞馬遜將推出由數十萬(wàn)顆自研Trainium芯片組成的超級算力集群,該集群將落地美國,2025年建成后將成為世界上最大的人工智能模型訓練集群之一。凸顯了亞馬遜此前對自研芯片Trainium的承諾 —— 將Trainium視為替代英偉達GPU的備選選項,掌握更多的主動(dòng)權有利于減少對英偉達的依賴(lài),為客戶(hù)降低成本。
該芯片集群將供由AI初創(chuàng )公司Anthropic使用。在2024年re:Invent全球大會(huì )上,Anthropic的聯(lián)合創(chuàng )始人兼首席計算官Tom Brown宣布了「雷尼爾計劃」(Project Rainier),該算力集群就是其中的核心布局。
Anthropic是亞馬遜投資的AI初創(chuàng )公司:2023年9月,亞馬遜向Anthropic投資40億美元;今年11月,亞馬遜再次向Anthropic追加40億美元投資。在融資聲明中,Anthropic強調雙方將合作開(kāi)發(fā)Neuron軟件,它類(lèi)似于芯片與AI模型之間的結締組織(connective tissue),直接對標英偉達CUDA。
此舉背后,通過(guò)投資的方式將自研芯片和Anthropic深度綁定,我們可以看到亞馬遜在大模型上更大的野心。Anthropic推出的Claude系列模型也已集成在A(yíng)mazon Bedrock中,從模型能力上看,Claude系列模型是目前市面上幾乎少數可以和OpenAI旗下GPT-4對標的模型。
為了爭奪更多有大模型和云計算使用需求的客戶(hù),亞馬遜選擇聯(lián)合Anthropic是對標微軟+OpenAI的模式。微軟Azure的收入增長(cháng),有不少是來(lái)自微軟提供的GPT-4入口,這意味著(zhù)OpenAI走紅后,其為微軟的云服務(wù)Azure帶來(lái)了更多新增客戶(hù),亞馬遜也可以復制這種模式,即利用AI大模型帶來(lái)的增量尋求更多的市場(chǎng)份額。
據Synergy Research Group最新公布的數據估算,2024年第三季度,亞馬遜在全球云基礎設施市場(chǎng)的市場(chǎng)份額達到31%,領(lǐng)先于微軟Azure平臺的20%和谷歌云的11%。
亞馬遜展現出了其在芯片互聯(lián)技術(shù)上的獨特優(yōu)勢,秘密武器是其網(wǎng)絡(luò )技術(shù)NeuronLink,這項技術(shù)可以使所有四個(gè)服務(wù)器相互通信。與英偉達基于Blackwell架構芯片打造的服務(wù)器相比,能夠更靈活地將更多芯片連接在一起,從而大幅度提升運算速度,為用戶(hù)帶來(lái)更加流暢、高效的AI運算體驗。
值得一提的是,蘋(píng)果作為科技行業(yè)的巨頭,也選擇了與亞馬遜AWS合作,采用其定制的AI芯片來(lái)支持其搜索等關(guān)鍵服務(wù)。蘋(píng)果機器學(xué)習與人工智能高級總監貝諾伊·杜平(Benoit Dupin)表示蘋(píng)果內部正在測試Trainium2芯片,預計可節省約50%的成本。同時(shí),蘋(píng)果還在積極評估最新的AI芯片是否可用于預訓練其Apple Intelligence模型,這無(wú)疑為AWS的AI芯片技術(shù)注入了更多的期待和可能性。
歷數亞馬遜云科技如今的自研產(chǎn)品陣容不難發(fā)現,他們已經(jīng)擁有包括通用處理器Graviton、AI訓練芯片Amazon Trainium、AI推理芯片Amazon Inferentia,以及網(wǎng)絡(luò )系統Nitro在內的至少四大類(lèi)自研硬件/芯片家族。
根據云成本管理和優(yōu)化平臺Vantage的一項調查顯示,在實(shí)例類(lèi)型的成本支出方面,在2024第一季度的Amazon EC2 M7系列通用實(shí)例類(lèi)型上,采用Graviton的M7g系列達到了34.5%;到了2024年第二季度,在A(yíng)mazon RDS、Amazon ElastiCache和Amazon OpenSearch托管服務(wù)所采用的實(shí)例類(lèi)型中,Graviton已經(jīng)超越了Intel。
不難看出,作為持續的行業(yè)領(lǐng)導者,亞馬遜云科技不只是擁有客觀(guān)上更多的自研芯片種類(lèi)。更為重要的是,他們是真的將自研芯片投入到了主力云計算業(yè)務(wù)中,并已取得了客觀(guān)上的巨大成功。
亞馬遜自研芯片的優(yōu)勢
在云廠(chǎng)商自研芯片的浪潮中,亞馬遜無(wú)疑是最早踐行這一趨勢的先驅?zhuān)河布匝兄肥加?012年,并且從2013年就被確立為重要的業(yè)務(wù)策略,同年研發(fā)出了第一款自研芯片Nitro。
Nitro并非如今的通用處理器或AI芯片,它本質(zhì)上其實(shí)是一個(gè)專(zhuān)用硬件系統,主要用于高性能網(wǎng)絡(luò )處理和虛擬化卸載,將服務(wù)器的更多CPU算力解放出來(lái)、讓這些CPU性能能夠被更多客戶(hù)所使用。
亞馬遜自主完成的所有自研芯片均由Annapurna Labs團隊設計和制造。Annapurna Labs是亞馬遜于2015年收購的半導體微電子公司,早在收購之前,雙方就在Nitro系統的開(kāi)發(fā)方面緊密合作。目前,Annapurna Labs團隊成員分布在全球多個(gè)地點(diǎn),包括以色列的特拉維夫、加拿大的多倫多,以及德克薩斯州奧斯汀的實(shí)驗室。
亞馬遜的自研硬件更是成為了其云服務(wù)性?xún)r(jià)比不斷攀升背后的重要因素。2021年P(guān)rime Day期間,亞馬遜首次使用Amazon Graviton2支持的Amazon EC2實(shí)例;2024年P(guān)rime-Day期間,亞馬遜使用了超過(guò)25萬(wàn)個(gè)Graviton芯片為超過(guò)5800種不同的亞馬遜電商服務(wù)提供支持。
自從2006年推出第一代公有云服務(wù)以來(lái),亞馬遜至今已主動(dòng)降價(jià)100次以上,甚至有時(shí)降價(jià)幅度極其巨大。比如就在今年10月,亞馬遜云科技剛剛宣布將Amazon DynamoDB按需吞吐量的價(jià)格降低50%、將全球表(Global Tables)的價(jià)格降低多達67%。很顯然,這種持續、主動(dòng)的降價(jià)行為,很大程度是得益于了亞馬遜的自研硬件體系。
亞馬遜自己也受益于自研芯片“性?xún)r(jià)比”所帶來(lái)的規模優(yōu)勢。此前亞馬遜云科技副總裁Jeff Barr曾展示了一張Graviton4開(kāi)發(fā)時(shí)的實(shí)例集群快照,充分利用自研處理器的規模優(yōu)勢,使用了多達數十萬(wàn)個(gè)內核加速EDA電子設計自動(dòng)化流程,峰值規模為正常使用規模的5倍。
隨著(zhù)生成式AI需求的持續增長(cháng),芯片將會(huì )成為爭奪AI霸權的下一個(gè)戰場(chǎng)。在A(yíng)I硬件領(lǐng)域,英偉達的確獨霸天下。無(wú)數人在問(wèn):在未來(lái)幾個(gè)月甚至幾年內英偉達還能保持高增長(cháng)嗎?競爭對手能不能找到辦法縮小差距?
除了亞馬遜,還有很多廠(chǎng)商正在開(kāi)發(fā)自己的AI芯片,比如微軟、Meta、OpenAI、谷歌、AMD、英特爾。年初時(shí)有消息稱(chēng),英特爾、高通、谷歌及其它一些科技企業(yè)準備聯(lián)手應戰,合作圍繞軟件展開(kāi)。但英偉達CUDA的地位不是一夜之間可以撼動(dòng)的,不單只是軟件能力,還以為它15年的使用歷史,現在許多代碼是圍繞CUDA開(kāi)發(fā)的,CUDA與很多AI及高性能計算項目深度連接在一起。
值得注意的是,AI半導體市場(chǎng)實(shí)際上分成兩大塊 —— 訓練和推理,數據中心用GPU訓練AI,推理發(fā)生在服務(wù)器或者邊緣設備上。在訓練市場(chǎng),英偉達占據98%的市場(chǎng)份額,這種優(yōu)勢短期內不會(huì )消失,因此邊緣AI推理市場(chǎng)是競爭對手可以重點(diǎn)關(guān)注的領(lǐng)域。
其中NPU(Neural Processing Units)就是部分廠(chǎng)商的研究重點(diǎn),它的能耗更低、更加專(zhuān)業(yè)化。NPU能加速處理AI任務(wù),包括深度學(xué)習和推理任務(wù),并行處理海量數據,還可以用專(zhuān)門(mén)的片上存儲器快速執行復雜的人工智能算法,以實(shí)現高效數據存儲和檢索。雖然GPU處理能力更強、功能更多,但NPU更小、更便宜、更節能,在執行專(zhuān)業(yè)AI任務(wù)時(shí),由于NPU采用特殊架構,性能反而有可能高于CPU。
評論