<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 智能計算 > 設計應用 > 借助小語(yǔ)言模型,高效 Arm 計算賦能定制化 AI 未來(lái)

借助小語(yǔ)言模型,高效 Arm 計算賦能定制化 AI 未來(lái)

作者: 時(shí)間:2024-07-09 來(lái)源:Arm 收藏

隨著(zhù)我們逐步邁入人工智能 (AI) 的世界,小體量模型愈發(fā)具有大優(yōu)勢。

本文引用地址:http://dyxdggzs.com/article/202407/460786.htm

在過(guò)去的一年多里,大語(yǔ)言模型 (LLM) 推動(dòng)了生成式 AI 的早期創(chuàng )新浪潮,訓練參數量朝萬(wàn)億級規模邁進(jìn),但越來(lái)越多的證據表明,無(wú)限制地擴展 LLM 并不具備可持續性。至少來(lái)說(shuō),通過(guò)此方式來(lái)發(fā)展 AI 所需的基礎設施成本過(guò)于高昂,僅有少數企業(yè)可以承受。此類(lèi) LLM 需要消耗大量算力和電力,運營(yíng)成本不菲。這些項目將帶來(lái)沉重的財務(wù)和資源負擔,例如 GPT-4 的訓練成本至少為一億美元。

除此之外,這些 LLM 的開(kāi)發(fā)和部署過(guò)程也相對復雜。劍橋大學(xué)的一項研究 [1] 指出,企業(yè)將花費超過(guò) 90 天來(lái)部署單一的機器學(xué)習 (ML) 模型。漫長(cháng)的周期阻礙了快速開(kāi)發(fā)和迭代實(shí)驗的步伐,而這在 AI 技術(shù)飛速發(fā)展的領(lǐng)域卻又至關(guān)重要。

綜合考慮以上因素和其他挑戰,AI 的開(kāi)發(fā)重心正逐漸轉向小語(yǔ)言模型 (Small Language Models, SLM),有時(shí)或稱(chēng)小型 LLM,從而借助其效率更高、資源需求更少,以及更易于定制和控制等優(yōu)勢來(lái)解決多項挑戰。相比于生成較復雜或精細的內容,SLM(例如 Llama、Mistral、Qwen、Gemma、Phi-3 的小規模參數版本)在執行對話(huà)、翻譯、摘要和分類(lèi)等較簡(jiǎn)單的集中任務(wù)時(shí),效率更高,其訓練過(guò)程也僅需消耗較少的電力。

這有助于開(kāi)發(fā)者構建具有多模態(tài)功能的生成式 AI 解決方案,用于處理和生成文本、圖像和音頻等不同媒體形式的內容。

Llama 3 等基礎模型可以利用特定上下文數據進(jìn)一步微調,以專(zhuān)注于特定應用領(lǐng)域,如醫學(xué)科學(xué)、代碼生成或其它專(zhuān)業(yè)知識領(lǐng)域。結合這些較小體量 LLM 的可及性,這些應用讓生成式 AI 更為普及,并讓不具備 GPU 集群的應用開(kāi)發(fā)者也可獲得 AI 功能,進(jìn)而開(kāi)辟了新的應用和用例。

與此同時(shí),諸如量化等底層優(yōu)化技術(shù)也是提高模型效率的有效方式。量化技術(shù)通過(guò)對神經(jīng)網(wǎng)絡(luò )權重進(jìn)行更低精度計算,可以縮減模型大小。量化可以將 16 位浮點(diǎn)數壓縮為 4 位整數,進(jìn)而大幅降低了內存和計算需求,對準確度也僅有細微影響。例如,應用這一方法后,原本擁有 70 億參數的 Llama 2 模型可從 13.5 GB 縮減至 3.9 GB,130 億參數版本可從 26.1 GB 縮減至 7.3 GB,700 億參數模型可從 138 GB 縮減至 40.7 GB。這項技術(shù)提高了這些輕量級模型的運行速度,還降低了軟件運行成本,尤其是在 CPU 上的軟件運行成本。

結合更高效、性能更強大的 CPU 技術(shù),這些軟件進(jìn)展使規模更小、效率更高的 語(yǔ)言模型能夠直接在移動(dòng)設備上運行 ,從而提高性能、保護隱私并優(yōu)化用戶(hù)體驗。

llama.cpp 等專(zhuān)用框架也促進(jìn)了 SLM 的興起。與 PyTorch 等通用框架相比,llama.cpp 專(zhuān)注于優(yōu)化 CPU 推理的性能,能在通用硬件上更快速、更高效地執行基于 Llama 的模型。這種可及性為廣泛部署提供了新的可能,而無(wú)需依賴(lài)專(zhuān)門(mén)的 GPU 資源,從而使 LLM 能夠服務(wù)于更廣泛的用戶(hù)群體和應用。

那么,硬件在其中又扮演了什么角色呢?

的方式來(lái)體現效率的價(jià)值

Neoverse CPU 通過(guò) Neon 和 SVE 等 SIMD 指令提升 ML 處理進(jìn)程,尤其是用以加速通用矩陣乘法 (General Matrix Multiplications, GEMM),這是一種涉及神經(jīng)網(wǎng)絡(luò )內部復雜乘法的核心算法。在過(guò)去幾代產(chǎn)品中,Arm 不斷在其 Neon 和 SVE2 引擎中引入 SDOT (Signed Dot Product) 和 MMLA (Matrix Multiply Accumulate) 等功能指令,進(jìn)而增強關(guān)鍵的 ML 算法。這有助于提高廣泛部署的服務(wù)器 CPU 效率,如 AWS Graviton 和 NVIDIA Grace,以及近期宣布投入量產(chǎn)的 Microsoft Cobalt 和 Google Axion 。

典型的 LLM 管線(xiàn)可劃分為兩個(gè)階段:

第一階段:提示處理,準備模型的輸入數據,目的是提高響應速度。

第二階段:詞元 (Token) 生成,一次創(chuàng )建一段文本,重點(diǎn)在于吞吐量和可擴展性。

在聊天、風(fēng)格轉換、總結生成和內容創(chuàng )建等不同應用中,提示大小、詞元生成以及對于速度、質(zhì)量需求之間的優(yōu)先級會(huì )有所不同。交互式聊天優(yōu)先考慮快速響應,風(fēng)格轉換強調輸出質(zhì)量,總結生成需要平衡全面性和及時(shí)性,而內容創(chuàng )建則側重于生成大量?jì)?yōu)質(zhì)素材。

簡(jiǎn)而言之,語(yǔ)言模型是否有效,取決于能否根據快速交互、高效摘要、高質(zhì)量寫(xiě)作和大量?jì)热輨?chuàng )作輸入處理等任務(wù)需要,精細調整其輸入處理和文本生成。

Llama 3 在 AWS Graviton3 上的性能表現

為了評估 Neoverse CPU 執行 LLM 任務(wù)的效率,Arm 軟件團隊和合作伙伴對 llama.cpp 中的 int4 和 int8 內核進(jìn)行了優(yōu)化,以利用基于 Arm 架構的服務(wù)器 CPU 中較新的指令。團隊使用經(jīng)過(guò) int4 量化并具有 80 億參數的 Llama 3 模型,對 AWS r7g.16xlarge 實(shí)例進(jìn)行了性能測試,該實(shí)例搭載了 64 個(gè)基于 Arm 架構的 Graviton3 核心并配置了 512 GB RAM。

測試結果如下:

提示處理:經(jīng)過(guò) Arm 優(yōu)化,每秒處理的詞元數提高了三倍;在更大的批次大小時(shí),有小幅性能提升。

詞元生成:經(jīng)過(guò) Arm 優(yōu)化,吞吐量提高了兩倍,有助于更高效地處理更大的批次大小。

AWS Graviton3 在單個(gè)和批量處理場(chǎng)景中均達到了新興行業(yè)共同要求的針對交互式 LLM 部署的 100ms 延遲目標。即使是在 2019 年推出的 Graviton2 上,也能在 100ms 延遲目標內運行多達 80 億參數的 LLM。

與當前一代 x86 實(shí)例相比,AWS Graviton3 在提示處理和詞元生成方面的性能高了三倍。

成本效益:Graviton3 實(shí)例的價(jià)格低于 Sapphire Rapids 和 Genoa。Graviton3 的單位價(jià)格詞元生成數量高了三倍,是采用和擴展 LLM 經(jīng)濟高效的理想之選。

想要詳細了解該性能測試,盡請關(guān)注 Arm 社區的后續文章!

靈活且價(jià)格經(jīng)濟

基于 CPU 的云實(shí)例為開(kāi)發(fā)者提供了靈活、經(jīng)濟、快速的開(kāi)發(fā)起點(diǎn),使其能夠輕松在應用中部署規模較小的專(zhuān)用 LLM。Arm 在自身的架構中引入了多項關(guān)鍵功能,顯著(zhù)提升了 LLM 的性能。得益于此,與其他服務(wù)器 CPU 相比,廣泛部署且基于 Neoverse 平臺的服務(wù)器處理器(如 AWS Graviton3)不僅能提供業(yè)界領(lǐng)先的 LLM 性能,還能為更多應用開(kāi)發(fā)者降低采用 LLM 的成本門(mén)檻。

具體來(lái)說(shuō),僅需兩分錢(qián)左右就可以在兩秒鐘內處理完本篇推文,并在不到一秒鐘內生成簡(jiǎn)短摘要。

Arm 一直處于推動(dòng)向 SLM 發(fā)展的前沿,我們深切認識到了這一趨勢的潛力,并已準備好迎接這一轉變。深深根植于 Arm DNA 的高效和出色性能的 CPU 廣受市場(chǎng)贊譽(yù),能在不會(huì )影響質(zhì)量或性能的前提下,無(wú)縫運行 AI 工作負載。

較大規模的語(yǔ)言模型在短短一年多的時(shí)間對科技行業(yè)和整個(gè)社會(huì )產(chǎn)生了深遠影響,短時(shí)間內必然不會(huì )消失。

 

即使是 OpenAI 首席執行官 Sam Altman 也已看到了即將發(fā)生的變化。他表示:大模型時(shí)代將告一段落,未來(lái)的重點(diǎn)將轉向專(zhuān)用和定制模型。只有根據客戶(hù)和特定領(lǐng)域的數據對這些模型進(jìn)行優(yōu)化調整,才能真正釋放其價(jià)值潛能。

 

隨著(zhù)定制化難度降低和必要性提升,SLM 正借此東風(fēng)展翅高飛,占據其市場(chǎng)位置。

 

正如 AI 初創(chuàng )公司 Hugging Face 首席執行官 Clem Delangue 表示,多達 99% 的用例都可以使用 SLM 來(lái)解決,他預計 2024 年將是 SLM 綻放的一年。

 

我們即將迎來(lái)的小語(yǔ)言模型將大有可為!



關(guān)鍵詞: Arm

評論


相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>