<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 智能計算 > 設計應用 > 加速基于 Arm Neoverse N2 的大語(yǔ)言模型推理

加速基于 Arm Neoverse N2 的大語(yǔ)言模型推理

作者: 時(shí)間:2024-07-09 來(lái)源:Arm 收藏

人工智能 (AI) 正在眾多行業(yè)掀起浪潮,尤其是在 (LLM) 問(wèn)世后,AI 發(fā)展呈現井噴之勢。LLM 模型不僅極大改變了我們與技術(shù)的交互方式,并且在自然語(yǔ)言理解和生成方面展現出了驚人的能力。雖然 GPU 在訓練生成式 AI 模型方面發(fā)揮了重要作用,但在推理領(lǐng)域,除了 GPU 和加速器之外,還有其他可行的選擇。長(cháng)期以來(lái),CPU 一直被用于傳統的 AI 和機器學(xué)習 (ML) 用例,由于 CPU 能夠處理廣泛多樣的任務(wù)且部署起來(lái)更加靈活,因此當企業(yè)和開(kāi)發(fā)者尋求將 LLM 集成到產(chǎn)品和服務(wù)中時(shí),CPU 成了熱門(mén)選擇。

本文引用地址:http://dyxdggzs.com/article/202407/460787.htm

在本文中,我們將探討基于 N2 的阿里巴巴倚天 710 CPU 在運行 Llama 3 [1] 和 Qwen1.5 [2] 等業(yè)內標準 LLM 時(shí)所展現的靈活性和可擴展性。此外,本文還將通過(guò)比較分析,展示倚天 710 CPU 相較于其他基于 CPU 架構的服務(wù)器平臺所具備的主要優(yōu)勢。


 

阿里云倚天 710 云實(shí)例上的 LLM 性能

 

通用矩陣乘法 (General Matrix Multiplications, GEMM) 是深度學(xué)習計算(包括 LLM 中的計算)中廣泛使用的一項基本運算。它對兩個(gè)輸入矩陣進(jìn)行復雜的乘法運算,得到一個(gè)輸出。v8.6-A 架構增加了 SMMLA 指令,該指令將第一個(gè)源矢量中的 2x8 有符號 8 位整數值矩陣與第二個(gè)源矢量中的 8x2 有符號 8 位整數值矩陣相乘。然后將生成的 2x2 的 32 位整數矩陣乘積加到目標矢量中的 32 位整數矩陣累加器中。這相當于對每個(gè)目標元素執行 8 路點(diǎn)積運算。SMMLA 指令已添加到基于 N2 的阿里巴巴倚天 710 CPU 中。

在過(guò)去幾個(gè)月內, 軟件團隊與合作伙伴緊密協(xié)作,利用上述 SMMLA 指令,優(yōu)化了在 llama.cpp 中實(shí)現的 int4 和 int8 GEMM 內核。最近,我們在阿里云倚天 710 云實(shí)例上進(jìn)行了多次實(shí)驗,采用了最新的優(yōu)化 [3][4] ,以評估 llama.cpp 在不同場(chǎng)景下的性能表現。

所有實(shí)驗均在阿里云 ecs.g8y.16xlarge 實(shí)例上進(jìn)行,該實(shí)例帶有 64 個(gè)虛擬 CPU (vCPU) 和 256 GB 的內存。所用的模型是經(jīng)過(guò) int4 量化的 Llama3-8B 和 Qwen1.5-4B。

 
 

提示詞處理

提示詞詞元 (Token) 通常是并行處理的,即使對于單次操作 (batch=1),也會(huì )使用所有可用核心,而且隨著(zhù)批量大小的增加,提示詞處理速率基本不變。在這方面,經(jīng)過(guò) Arm 優(yōu)化,每秒處理的詞元數提升了 2.7 倍。

 
 

詞元生成

詞元生成以自回歸的方式進(jìn)行,詞元生成的總時(shí)間與需要生成的輸出長(cháng)度相關(guān)。在這方面,經(jīng)過(guò) Arm 優(yōu)化,在處理更大批量的數據時(shí)提升效果更為明顯,吞吐量最多可提高 1.9 倍。

 
 

延遲

詞元生成的延遲對 LLM 的交互式部署非常重要。對于下個(gè)詞元響應時(shí)間 (time-to-next-token),100ms 的延遲是關(guān)鍵的目標指標,這是基于人們每秒 5-10 個(gè)單詞的典型閱讀速度計算得出的。在下方圖表中,我們看到在單次操作和批量處理的場(chǎng)景下,阿里云倚天 710 云實(shí)例都能滿(mǎn)足 100ms 的延遲要求,因此是常規體量 LLM 的合適部署目標。我們使用了兩組不同的新模型 Llama3-8B 和 Qwen1.5-4B,以展示實(shí)際部署中不同體量的常規 LLM 的延遲情況。

 

性能比較

 

此外,我們使用經(jīng)過(guò) int4 量化的 Llama3-8B 模型,比較了它在倚天 710 與在阿里云上其他服務(wù)器 CPU 的性能 [注] 。

阿里云倚天 710:ecs.g8y.16xlarge,64 個(gè) vCPU,256 GB 內存,12.8 人民幣/小時(shí)

Intel Icelake:ecs.g7.16xlarge,64 個(gè) vCPU,256 GB 內存,16.74 人民幣/小時(shí)


Intel Sapphire Rapids:ecs.g8i.16xlarge,64 個(gè) vCPU,256 GB 內存,17.58 人民幣/小時(shí)

[注] 阿里云倚天 710 采用了 [3][4] 中的優(yōu)化,Intel Icelake 和 Sapphire Rapids 使用了現有的 llama.cpp 實(shí)現。

我們發(fā)現,與其他兩款 CPU 相比,阿里云倚天 710 的提示詞處理表現出最高達 3.2 倍的性能優(yōu)勢,詞元生成性能最高達 2.2 倍的優(yōu)勢。

同樣值得注意的是,阿里云倚天 710 平臺的成本效益高于 Icelake 和 Sapphire Rapids,這在阿里云倚天 710 實(shí)例相對較低的定價(jià)中就有所體現。這使得阿里云倚天 710 在 LLM 推理的總體擁有成本方面具有顯著(zhù)優(yōu)勢,與其他兩款 CPU 相比,每元詞元數量最高多了近三倍,這為希望在采用 LLM 的過(guò)程中逐步擴大規模的用戶(hù)提供了令人信服的優(yōu)勢。

 

結論

 

當開(kāi)發(fā)者想要在應用中部署專(zhuān)用 LLM 時(shí),服務(wù)器 CPU 為開(kāi)發(fā)者提供了靈活、經(jīng)濟和簡(jiǎn)化的部署流程。Arm 集成了幾項關(guān)鍵的增強功能,大幅提高了 LLM 的性能。得益于此,基于 Arm 的服務(wù)器處理器(如阿里云倚天 710)能夠提供優(yōu)于其他服務(wù)器 CPU 的 LLM 性能。此外,它們還有助于降低采用 LLM 的門(mén)檻,使更多應用開(kāi)發(fā)者能夠輕松將 LLM 部署于各種場(chǎng)景。



關(guān)鍵詞: Arm Neoverse 大語(yǔ)言模型

評論


相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>