云巨頭,芯片十年
Annapurna Labs 聯(lián)合創(chuàng )始人 Nafea Bshara 了解半導體并欣賞優(yōu)質(zhì)紅酒。亞馬遜杰出工程師James Hamilton(詹姆斯·漢密爾頓)熱衷于改變行業(yè)的想法,并且喜歡與聰明的企業(yè)家會(huì )面。
就這樣,10 年前,即 2013 年秋天,他們來(lái)到了西雅圖派克市場(chǎng)歷史悠久的 Virginia Inn 餐廳和酒吧,進(jìn)行了一場(chǎng)最終改變亞馬遜云業(yè)務(wù)進(jìn)程的對話(huà)。
他們的會(huì )面以及亞馬遜最終收購Annapurna Labs ,加速了這家科技巨頭創(chuàng )建自己的處理器的計劃,為其當前人工智能戰略的一個(gè)關(guān)鍵組成部分奠定了基礎。
亞馬遜的定制芯片,包括用于先進(jìn)人工智能的芯片,本周將成為人們關(guān)注的焦點(diǎn),因為亞馬遜網(wǎng)絡(luò )服務(wù)試圖在拉斯維加斯舉行的re:Invent 會(huì )議上表明自己在人工智能新時(shí)代的地位。
兩周前,微軟宣布了自己的一對定制芯片,其中包括在 OpenAI 的幫助下設計的Maia AI Accelerator ,而在這家 ChatGPT 制造商最近陷入混亂之前。微軟將其定制芯片描述為優(yōu)化和最大化其云基礎設施性能的最終“拼圖”。
在人工智能應用中,ChatGPT 已經(jīng)讓亞馬遜緊隨其后,特別是當 OpenAI 的聊天機器人與 Alexa 語(yǔ)音助手的對話(huà)能力進(jìn)行比較時(shí)。
正如亞馬遜首席執行官安迪·賈西(Andy Jassy)所說(shuō),在人工智能的“中間層”中,亞馬遜希望通過(guò) AWS Bedrock 脫穎而出,提供對多種大型語(yǔ)言模型的訪(fǎng)問(wèn)。
但亞馬遜戰略的基礎是其定制的人工智能芯片Trainium和Inferentia,用于訓練和運行大型人工智能模型。
它們是大型云平臺制造自己的芯片的趨勢的一部分,經(jīng)過(guò)優(yōu)化,可以在世界各地的數據中心以更高的性能和更低的成本運行。盡管微軟剛剛公開(kāi)了其計劃,但谷歌已經(jīng)開(kāi)發(fā)了多代張量處理單元,谷歌云將其用于 機器學(xué)習工作負載,據報道,谷歌正在開(kāi)發(fā) 自己的基于 Arm 的芯片。
在人工智能領(lǐng)域,這些芯片提供了通用芯片的替代品。例如,Jassy 在 8 月份的公司季度財報電話(huà)會(huì )議上表示,AWS 客戶(hù)已經(jīng)接受了 Nvidia 廣泛使用的 H100 GPU,作為亞馬遜 EC2 P5 實(shí)例的一部分,用于深度學(xué)習和高性能計算。
“然而,迄今為止,市場(chǎng)上只有一種對每個(gè)人來(lái)說(shuō)都是可行的選擇,而且供應一直很稀缺,”賈西當時(shí)補充道?!霸偌由衔覀冞^(guò)去幾年積累的芯片專(zhuān)業(yè)知識,促使我們幾年前開(kāi)始開(kāi)發(fā)自己的定制人工智能芯片?!?/p>
亞馬遜的人工智能芯片是定制芯片系列的一部分,這一系列可以追溯到十年前 Bshara 和 Hamilton 在角落攤位上的對話(huà)。
“這就是未來(lái)?!?/p>
漢密爾頓是一位廣受尊敬的工程師,擔任亞馬遜高級副總裁,于 2010 年從微軟加入這家云巨頭。他于 2021年被任命為亞馬遜高級領(lǐng)導團隊成員,并繼續直接向賈西匯報。
漢密爾頓最近回到弗吉尼亞旅館接受 GeekWire 采訪(fǎng)時(shí)表示,他最初是在認識到 Amazon S3(簡(jiǎn)單存儲服務(wù))在線(xiàn)服務(wù)的潛力后才被亞馬遜吸引的。諷刺的是,在微軟的 Bill Gates 和 Ray Ozzie 讓他針對 S3 編寫(xiě)一個(gè)應用程序進(jìn)行實(shí)驗之后,他才意識到這一點(diǎn)。
“我在會(huì )議之前收到了這張賬單——7.23 美元。我花了 7.23 美元用于計算、編寫(xiě)這個(gè)應用程序并測試它,”他回憶道?!八淖兞宋业纳?。我剛剛意識到,這就是未來(lái)?!?/p>
這是云中開(kāi)發(fā)人員和企業(yè)可以獲得的價(jià)格和性能優(yōu)勢的早期跡象。但在亞馬遜工作幾年后,漢密爾頓意識到公司需要再次飛躍。

James Hamilton 出席 2016 年 AWS re:Invent 大會(huì )
就在 2013 年與 Bshara 會(huì )面前幾周,漢密爾頓為杰夫·貝佐斯和當時(shí)的 AWS 首席執行官賈西(亞馬遜稱(chēng)他們?yōu)椤皊ix-pager”)撰寫(xiě)了一篇內部論文,為 AWS 開(kāi)始開(kāi)發(fā)自己的定制芯片提供了理由。
“如果我們不制造芯片,我們就會(huì )失去創(chuàng )新的控制,”漢密爾頓回憶起當時(shí)的想法,并將此舉描述為隨著(zhù)服務(wù)器過(guò)渡到片上系統設計,公司的下一步自然發(fā)展。
在他看來(lái),亞馬遜需要在芯片層面進(jìn)行創(chuàng )新,以保持對其基礎設施和成本的控制;避免在關(guān)鍵服務(wù)器組件方面依賴(lài)其他公司;通過(guò)將安全性和工作負載優(yōu)化等功能直接構建到硬件中,為客戶(hù)提供更多價(jià)值。
隨著(zhù) Arm 處理器在移動(dòng)和物聯(lián)網(wǎng)設備中的應用量越來(lái)越大,Hamilton 相信這將帶來(lái)更好的服務(wù)器處理器以及更多的研發(fā)投資。
漢密爾頓工作早起,經(jīng)常在晚上在當地的酒吧和餐館與初創(chuàng )公司、客戶(hù)和供應商會(huì )面,了解他們的工作情況。當時(shí),他以環(huán)游世界和在船上工作而聞名,他會(huì )在辦公室和碼頭之間選擇可以停放自行車(chē)的地方。
Bshara 于 2011 年在以色列創(chuàng )辦了 Annapurna Labs,合作伙伴包括 Hrvoye (Billy) Bilic 和芯片設計公司 Galileo Technologies Ltd 的創(chuàng )始人 Avigdor Willenz。

Annapurna Labs 聯(lián)合創(chuàng )始人 Nafea Bshara 現在是 AWS 副總裁和杰出工程師。
他是由一位共同的朋友介紹給漢密爾頓的,他們同意按照漢密爾頓的傳統一起度過(guò)歡樂(lè )時(shí)光。Bshara 記得在當地的 UPS 商店打印了一系列幻燈片,然后將自己放在展位上,以免在向漢密爾頓展示時(shí)將內容透露給餐廳的其他人。
Hamilton 回憶起這家以色列初創(chuàng )公司所做的事情很快就給他留下了深刻的印象,他認識到其設計有可能成為亞馬遜第二代主力 Nitro 服務(wù)器芯片的基礎,該芯片的第一個(gè)版本是根據 Cavium 半導體的現有設計改編的公司。
Bshara 記得 Hamilton 在第一次會(huì )議上詢(xún)問(wèn) Annapurna 是否可以更進(jìn)一步,開(kāi)發(fā)基于 Arm 的服務(wù)器處理器。Annapurna Labs聯(lián)合創(chuàng )始人當時(shí)立場(chǎng)堅定:市場(chǎng)尚未準備好。
這表明他很現實(shí),而不僅僅是說(shuō)他認為亞馬遜高級工程師想聽(tīng)的話(huà)。Bshara在會(huì )后發(fā)了一封電子郵件,詳細說(shuō)明了他當時(shí)的理由。
這是他們在 Nitro 上最初合作的火花,最終導致亞馬遜在 2015 年以據稱(chēng) 3.5 億美元的價(jià)格收購了 Annapurna 。亞馬遜表示,目前正在使用的 Nitro 芯片已超過(guò) 2000 萬(wàn)個(gè)。
AWS 于 2018 年推出了由 Annapurna 開(kāi)發(fā)的基于 Arm 的 CPU Graviton。當他們決定制造這款芯片時(shí),Hamilton 提醒 Bshara 當初見(jiàn)面時(shí)他對 Arm 服務(wù)器的評價(jià)。
“我告訴他,你是對的,”Bshara回憶道,并解釋說(shuō)市場(chǎng)現在已經(jīng)準備好了。
亞馬遜的優(yōu)勢與挑戰
Annapurna 讓亞馬遜在這個(gè)看似走鋼絲的領(lǐng)域取得了早期優(yōu)勢。
Bshara 解釋說(shuō),設計芯片“極其困難——它與軟件不同”?!胺稿e的余地為零。因為如果你有一個(gè)錯誤,然后你旋轉一個(gè)芯片,你就會(huì )損失九個(gè)月的時(shí)間。對于軟件,如果出現錯誤,您可以發(fā)布新版本。在這里,你必須去打印一個(gè)新版本?!?/p>
亞馬遜渴望談?wù)撨@段歷史的原因之一是為了反駁人們普遍認為亞馬遜因生成人工智能的興起而措手不及的看法。這將成為本周在拉斯維加斯舉行的 re:Invent 大會(huì )上反復出現的主題,AWS 首席執行官 Adam Selipsky 和團隊將展示他們的最新產(chǎn)品和功能。
“我們絕對希望成為運行生成式人工智能的最佳場(chǎng)所,”負責運行 AWS EC2(彈性云計算)的亞馬遜副總裁Dave Brown說(shuō)道,AWS EC2 是該公司云計算平臺的核心服務(wù)?!爱斈憧紤]客戶(hù)想要做什么時(shí),這是一個(gè)非常廣泛的領(lǐng)域?!?/p>
他表示,即使不使用亞馬遜的 AI 芯片,該公司的 Nitro 處理器在顯著(zhù)提高通常用于 AI 訓練的 Nvidia 支持的 EC2 P5 實(shí)例的網(wǎng)絡(luò )吞吐量方面也發(fā)揮著(zhù)關(guān)鍵作用。
但定制的人工智能芯片使其能夠進(jìn)行更精細的控制。
“因為我們擁有 Trainium 和 Inferentia 的全部?jì)热?,所以不存在我們無(wú)法一直調試到硬件的問(wèn)題,”他說(shuō)?!拔覀兡軌蚴褂枚ㄖ菩酒笠幠嫿O其穩定的系統?!?/p>
CCS Insight首席分析師James Sanders表示,由于涉及的工作負載規模巨大,定制芯片對于 AWS、Azure 和 Google Cloud 等主要云平臺至關(guān)重要。
“從數據中心規劃的角度來(lái)看,只要將盡可能多的 GPU 放入服務(wù)器機架中,就會(huì )開(kāi)始遇到很多麻煩,”他說(shuō)?!斑@變成了散熱問(wèn)題,變成了功耗問(wèn)題?!?/p>
與商用芯片相比,定制芯片可以更好地優(yōu)化工作負載、降低功耗并提高安全性。高耗電的 GPU 還具有一些對于 AI 工作負載來(lái)說(shuō)不必要的功能。亞馬遜很早就認識到了這一事實(shí),并在定制人工智能芯片方面憑借 Trainium 和 Inferentia 占據了先機。
然而,桑德斯表示,軟件方面是一個(gè)關(guān)鍵挑戰。
Nvidia 在人工智能領(lǐng)域擁有強大的地位,這要歸功于其用于 GPU 通用計算的軟件平臺 CUDA。這給了英偉達一條護城河。他說(shuō),亞馬遜的障礙之一是將人工智能工作負載從 Nvidia GPU 上的 CUDA 移植到亞馬遜芯片上運行。這需要開(kāi)發(fā)人員付出巨大的努力以及亞馬遜的推廣。
Moor Insights & Strategy首席執行官兼首席分析師、AMD 前戰略副總裁帕特里克·穆?tīng)柡诘?( Patrick Moorhead)表示,如果開(kāi)發(fā)人員局限于使用 CUDA 作為編程語(yǔ)言,那么將現有工作負載從 Nvidia GPU 上移走可能會(huì )很困難。他將這一前景描述為“一次非常沉重的提升”。
他說(shuō),亞馬遜的軟件抽象層和集成開(kāi)發(fā)工具可以在啟動(dòng)新工作負載時(shí)簡(jiǎn)化這種過(guò)渡。
Annapurna 聯(lián)合創(chuàng )始人 Bshara 表示,亞馬遜認識到軟件熟悉度對長(cháng)期增長(cháng)的重要性,該公司正在投入大量資源為其 AI 芯片構建軟件工具鏈。
“許多客戶(hù)將 Trainium 支持視為一種戰略?xún)?yōu)勢,”Bshara 通過(guò)電子郵件表示?!拔覀儗蛻?hù)如此迅速地接受這些芯片感到興奮,并相信工具和支持很快將至少像他們以前使用過(guò)的任何芯片架構一樣為客戶(hù)所使用和熟悉?!?/p>
他表示,該公司的人工智能芯片已被 AirBnB、Snap 和 Sprinklr 等公司大規模使用,具有明顯的性能和成本優(yōu)勢。
Anthropic 還將根據他們最近宣布的合作伙伴關(guān)系使用亞馬遜的 AI 芯片,其中亞馬遜將向這家初創(chuàng )公司投資高達 40 億美元,作為與微軟和 OpenAI 的雙雄對抗。
Moorhead 表示,展望未來(lái),亞馬遜面臨的最大挑戰將包括,隨著(zhù)人工智能模型的需求持續呈指數級增長(cháng),如何利用最新的芯片架構在技術(shù)上保持領(lǐng)先地位;并繼續大力投資研發(fā),與 Nvidia 和 AMD 等專(zhuān)用芯片公司競爭。
Moorhead 表示,亞馬遜在開(kāi)發(fā)自己的芯片時(shí)冒了很大的風(fēng)險,但它通過(guò)重置半導體行業(yè)并在主要云平臺上引發(fā)新的競爭而獲得了回報?!八麄兣α?,而且也做到了,”他說(shuō)?!八麄兇_實(shí)激勵了其他人效仿?!?/p>
來(lái)源:EETOP
--End--
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。