編輯:桃子 好困
【導讀】卷瘋了!世界最快的大模型Groq一夜之間爆火,能夠每秒輸出近500個(gè)token。如此神速的響應,背后全憑自研的LPU。
一覺(jué)醒來(lái),每秒能輸出500個(gè)token的Groq模型刷屏全網(wǎng)。堪稱(chēng)是「世界上速度最快的LLM」!
相比之下,ChatGPT-3.5每秒生成速度僅為40個(gè)token。有網(wǎng)友將其與GPT-4、Gemini對標,看看它們完成一個(gè)簡(jiǎn)單代碼調試問(wèn)題所需的時(shí)間。沒(méi)想到,Groq完全碾壓兩者,在輸出速度上比Gemini快10倍,比GPT-4快18倍。(不過(guò)就答案質(zhì)量來(lái)說(shuō),Gemini更好。) 最關(guān)鍵的是,任何人可以免費用!進(jìn)入Groq主頁(yè),目前有兩種可以自選的模型:Mixtral8x7B-32k,Llama 270B-4k。
地址:https://groq.com/與此同時(shí),Groq API也向開(kāi)發(fā)者提供,完全兼容OpenAI API。Mixtral 8x7B SMoE可以達到480 token/S,100萬(wàn)token價(jià)格為0.27美元。極限情況下,用Llama2 7B甚至能實(shí)現750 token/S。
目前,他們還提供100萬(wàn)token的免費試用。Groq突然爆火,背后最大的功臣不是GPU,而是自研的LPU——語(yǔ)言處理單元。單卡僅有230MB內存,2萬(wàn)美元一張。在LLM任務(wù)上,LPU比英偉達的GPU性能快10倍。
在前段時(shí)間的基準測試中,Groq LPU推理引擎上運行的Llama 2 70B直接刷榜,而且比頂級云提供商快18倍的LLM推理性能。
網(wǎng)友大波演示
Groq火箭般的生成速度,讓許多人為之震驚。網(wǎng)友們紛紛放出的自己做的demo。
在不到一秒鐘的時(shí)間里,生成幾百詞的、帶有引用的事實(shí)性回答。實(shí)際上,搜索占據了超過(guò)四分之三的處理時(shí)間,而非內容的生成!
針對「創(chuàng )建一個(gè)簡(jiǎn)單的健身計劃」同一提示,Groq與ChatGPT并排響應,速度差異。

面對300多個(gè)單詞的「巨型」prompt,Groq在不到一秒鐘的時(shí)間里,就為一篇期刊論文創(chuàng )建了初步大綱和寫(xiě)作計劃!
Groq完全實(shí)現了遠程實(shí)時(shí)的AI對話(huà)。在GroqInc硬件上運行Llama 70B,然后在提供給Whisper,幾乎沒(méi)有延遲。
GPU不存在了?
Groq模型之所以能夠以驚人速度響應,是因為背后公司Groq(同名)開(kāi)發(fā)了獨特的硬件——LPU。并非是,傳統的GPU。
簡(jiǎn)而言之,Groq自研的是一種名為張量流處理器(TSP)的新型處理單元,并將其定義為「語(yǔ)言處理單元」,即LPU。它是專(zhuān)為圖形渲染而設計、包含數百個(gè)核心的并行處理器,能夠為AI計算提供穩定的性能。
論文地址:https://wow.groq.com/wp-content/uploads/2024/02/GroqISCAPaper2022_ASoftwareDefinedTensorStreamingMultiprocessorForLargeScaleMachineLearning.pdf具體來(lái)說(shuō),LPU的工作原理與GPU截然不同。它采用了時(shí)序指令集計算機(Temporal Instruction Set Computer)架構,這意味著(zhù)它無(wú)需像使用高帶寬存儲器(HBM)的GPU那樣頻繁地從內存中加載數據。這一特點(diǎn)不僅有助于避免HBM短缺的問(wèn)題,還能有效降低成本。這種設計使得每個(gè)時(shí)鐘周期(every clock cycle)都能被有效利用,從而保證了穩定的延遲和吞吐量。在能效方面,LPU也顯示出其優(yōu)勢。通過(guò)減少多線(xiàn)程管理的開(kāi)銷(xiāo)和避免核心資源的未充分利用,LPU能夠實(shí)現更高的每瓦特計算性能。目前,Groq可支持多種用于模型推理的機器學(xué)習開(kāi)發(fā)框架,包括PyTorch、TensorFlow和ONNX。但不支持使用LPU推理引擎進(jìn)行ML訓練。甚至有網(wǎng)友表示,「Groq的LPU在處理請求和響應方面,速度超越了英偉達的GPU」。
不同于英偉達GPU需要依賴(lài)高速數據傳輸,Groq的LPU在其系統中沒(méi)有采用高帶寬存儲器(HBM)。它使用的是SRAM,其速度比GPU所用的存儲器快約20倍。
鑒于A(yíng)I的推理計算,相較于模型訓練需要的數據量遠小,Groq的LPU因此更節能。在執行推理任務(wù)時(shí),它從外部?jì)却孀x取的數據更少,消耗的電量也低于英偉達的GPU。LPU并不像GPU那樣對存儲速度有極高要求。如果在A(yíng)I處理場(chǎng)景中采用Groq的LPU,可能就無(wú)需為英偉達GPU配置特殊的存儲解決方案。
Groq的創(chuàng )新芯片設計實(shí)現了多個(gè)TSP的無(wú)縫鏈接,避免了GPU集群中常見(jiàn)的瓶頸問(wèn)題,極大地提高了可擴展性。這意味著(zhù)隨著(zhù)更多LPU的加入,性能可以實(shí)現線(xiàn)性擴展,簡(jiǎn)化了大規模AI模型的硬件需求,使開(kāi)發(fā)者能夠更容易地擴展應用,而無(wú)需重構系統。Groq公司宣稱(chēng),其技術(shù)能夠通過(guò)其強大的芯片和軟件,在推理任務(wù)中取代GPU的角色。網(wǎng)友做的具體規格對比圖。
這一切意味著(zhù)什么?對開(kāi)發(fā)者來(lái)說(shuō),這意味著(zhù)性能可以被精確預測并優(yōu)化,這一點(diǎn)對于實(shí)時(shí)AI應用至關(guān)重要。對于未來(lái)AI應用的服務(wù)而言,LPU可能會(huì )帶來(lái)與GPU相比巨大的性能提升!考慮到A100和H100如此緊缺,對于那些初創(chuàng )公司擁有這樣的高性能替代硬件,無(wú)疑是一個(gè)巨大的優(yōu)勢。目前,OpenAI正在向全球政府和投資者尋求7萬(wàn)億美元的資金,以開(kāi)發(fā)自己的芯片,解決擴展其產(chǎn)品時(shí)遇到算力不足的問(wèn)題。
2倍吞吐量,響應速度僅0.8秒
前段時(shí)間,在A(yíng)rtifialAnalysis.ai的LLM基準測試中,Groq的方案擊敗了8個(gè)關(guān)鍵性能指標。其中包括在延遲與吞吐量、隨時(shí)間的吞吐量、總響應時(shí)間和吞吐量差異。在右下角的綠色象限中,Groq取得最優(yōu)的成績(jì)。
來(lái)源:ArtifialAnalysis.aiLlama 2 70B在Groq LPU推理引擎上效果最為出色,達到了每秒241個(gè)token的吞吐量,是其他大廠(chǎng)的2倍還要多。
總響應時(shí)間Groq的響應時(shí)間也是最少的,接收100個(gè)token后輸出只有0.8秒。
另外,Groq已經(jīng)運行了幾個(gè)內部基準,可以達到每秒300個(gè)token,再次設定了全新的速度標準。Groq首席執行官Jonathan Ross曾表示,「Groq的存在是為了消除「富人和窮人」,并幫助人工智能社區中的每個(gè)人發(fā)展。而推理是實(shí)現這一目標的關(guān)鍵,因為『速度』是將開(kāi)發(fā)人員的想法轉化為商業(yè)解決方案和改變生APP的關(guān)鍵」。
一塊卡2萬(wàn)刀,內存230MB
想必大家在前面已經(jīng)注意到了,一張LPU卡僅有230MB的內存。
而且,售價(jià)為2萬(wàn)+美元。
根據The Next Platform的報道,在以上的測試中,Groq實(shí)際上使用了576個(gè)GroqChip,才實(shí)現了對Llama 2 70B的推理。
通常來(lái)說(shuō),GroqRack配備有9個(gè)節點(diǎn),其中8個(gè)節點(diǎn)負責計算任務(wù),剩下1個(gè)節點(diǎn)作為備用。但這次,9個(gè)節點(diǎn)全部被用于計算工作。
對此網(wǎng)友表示,Groq LPU面臨的一個(gè)關(guān)鍵問(wèn)題是,它們完全不配備高帶寬存儲器(HBM),而是僅配備了一小塊(230MiB)的超高速靜態(tài)隨機存取存儲器(SRAM),這種SRAM的速度比HBM3快20倍。這意味著(zhù),為了支持運行單個(gè)AI模型,你需要配置大約256個(gè)LPU,相當于4個(gè)滿(mǎn)載的服務(wù)器機架。每個(gè)機架可以容納8個(gè)LPU單元,每個(gè)單元中又包含8個(gè)LPU。相比之下,你只需要一個(gè)H200(相當于1/4個(gè)服務(wù)器機架的密度)就可以相當有效地運行這些模型。這種配置如果用于只需運行一個(gè)模型且有大量用戶(hù)的場(chǎng)景下可能表現良好。但是,一旦需要同時(shí)運行多個(gè)模型,特別是需要進(jìn)行大量的模型微調或使用高級別的LoRA等操作時(shí),這種配置就不再適用。此外,對于需要在本地部署的情況,Groq LPU的這一配置優(yōu)勢也不明顯,因為其主要優(yōu)勢在于能夠集中多個(gè)用戶(hù)使用同一個(gè)模型。
另有網(wǎng)友表示,「Groq LPU似乎沒(méi)有任何HBM,而且每個(gè)芯片基本上都帶有少量的SRAM?也就是說(shuō)他們需要大約256個(gè)芯片來(lái)運行Llama 70B?」沒(méi)想到得到了官方回應:是的,我們的LLM在數百個(gè)芯片上運行。
還有人對LPU的卡的價(jià)錢(qián)提出了異議,「這難道不會(huì )讓你的產(chǎn)品比H100貴得離譜嗎」?
馬斯克Grok,同音不同字
前段時(shí)間,Groq曾公開(kāi)基準測試結果后,已經(jīng)引來(lái)了一大波關(guān)注。而這次,Groq這個(gè)最新的AI模型,憑借其快速響應和可能取代GPU的新技術(shù),又一次在社交媒體上掀起了風(fēng)暴。不過(guò),Groq背后的公司并非大模型時(shí)代后的新星。它成立于2016年,并直接注冊了Groq這一名字。
CEO兼聯(lián)合創(chuàng )始人Jonathan Ross在創(chuàng )立Groq之前,曾是谷歌的員工。曾在一個(gè)20%的項目中,設計并實(shí)現了第一代TPU芯片的核心元素,這就是后來(lái)的谷歌張量處理單元(TPU)。隨后,Ross加入了谷歌X實(shí)驗室的快速評估團隊(著(zhù)名的「登月工廠(chǎng)」項目初始階段),為谷歌母公司Alphabet設計和孵化新的Bets(單元)。
或許大多數人對馬斯克Grok,還有Groq模型的名字感到迷惑。
其實(shí),在勸退馬斯克使用這個(gè)名字時(shí),還有個(gè)小插曲。去年11月,當馬斯克的同名AI模型Grok(拼寫(xiě)有所不同)開(kāi)始受到關(guān)注時(shí),Groq的開(kāi)發(fā)團隊發(fā)表了一篇博客,幽默地請馬斯克另選一個(gè)名字:我們明白你為什么會(huì )喜歡我們的名字。你對快速的事物(如火箭、超級高鐵、單字母公司名稱(chēng))情有獨鐘,而我們的Groq LPU推理引擎正是運行LLM和其他生成式AI應用的最快方式。但我們還是得請你趕緊換個(gè)名字。
不過(guò),馬斯克并未對兩個(gè)模型名稱(chēng)的相似之處作出回應。
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。