<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 業(yè)界動(dòng)態(tài) > 英特爾一系列AI解決方案,為L(cháng)lama 2大模型提供實(shí)力之選

英特爾一系列AI解決方案,為L(cháng)lama 2大模型提供實(shí)力之選

作者: 時(shí)間:2023-07-25 來(lái)源: 收藏

英特爾廣泛的AI硬件組合及開(kāi)放的軟件環(huán)境,為Meta發(fā)布的Llama 2模型提供了極具競爭力的選擇,進(jìn)一步助力大語(yǔ)言模型的普及,推動(dòng)AI發(fā)展惠及各行各業(yè)。

本文引用地址:http://dyxdggzs.com/article/202307/448955.htm


大語(yǔ)言模型(LLM)在生成文本、總結和翻譯內容、回答問(wèn)題、參與對話(huà)以及執行復雜任務(wù)(如解決數學(xué)問(wèn)題或推理)方面表現出的卓越能力,使其成為最有希望規?;旄I鐣?huì )的AI技術(shù)之一。大語(yǔ)言模型有望解鎖更豐富的創(chuàng )意和洞察,并激發(fā)AI社區推進(jìn)技術(shù)發(fā)展的熱情。


Llama 2旨在幫助開(kāi)發(fā)者、研究人員和組織構建基于生成式AI的工具和體驗。Meta發(fā)布了多個(gè)Llama 2的預訓練和微調版本,擁有70億、130億和700億三種參數。通過(guò)Llama 2,Meta在公司的各個(gè)微調模型中采用了三項以安全為導向的核心技術(shù):安全的有監督微調、安全的目標文本提取以及安全的人類(lèi)反饋強化學(xué)習(RLHF)。這些技術(shù)相結合,使Meta得以提高安全性能。隨著(zhù)越來(lái)越廣泛的使用,人們將能夠以透明、公開(kāi)的方式不斷識別并降低生成有害內容的風(fēng)險。


英特爾致力于通過(guò)提供廣泛的硬件選擇和開(kāi)放的軟件環(huán)境,推動(dòng)AI的發(fā)展與普及。英特爾提供了一系列AI解決方案,為AI社區開(kāi)發(fā)和運行Llama 2等模型提供了極具競爭力和極具吸引力的選擇。英特爾豐富的AI硬件產(chǎn)品組合與優(yōu)化開(kāi)放的軟件相結合,為應對算力挑戰提供了可行的方案。






英特爾提供了滿(mǎn)足模型的開(kāi)發(fā)和部署的AI優(yōu)化軟件。開(kāi)放生態(tài)系統是英特爾得天獨厚的戰略?xún)?yōu)勢,在A(yíng)I領(lǐng)域亦是如此。我們致力于培育一個(gè)充滿(mǎn)活力的開(kāi)放生態(tài)系統來(lái)推動(dòng)AI創(chuàng )新,其安全、可追溯、負責任以及遵循道德,這對整個(gè)行業(yè)至關(guān)重要。此次發(fā)布的大模型進(jìn)一步彰顯了我們的核心價(jià)值觀(guān)——開(kāi)放,為開(kāi)發(fā)人員提供了一個(gè)值得信賴(lài)的選擇。Llama 2模型的發(fā)布是我們行業(yè)向開(kāi)放式AI發(fā)展轉型邁出的重要一步,即以公開(kāi)透明的方式推動(dòng)創(chuàng )新并助力其蓬勃發(fā)展。


-- 李煒

英特爾軟件與先進(jìn)技術(shù)副總裁

兼人工智能和分析部門(mén)總經(jīng)理


-- Melissa Evers

英特爾軟件與先進(jìn)技術(shù)副總裁

兼執行戰略部總經(jīng)理



在Llama 2發(fā)布之際,我們很高興地分享70億和130億參數模型的初始推理性能測試結果。這些模型在英特爾AI產(chǎn)品組合上運行,包括Habana?Gaudi?2 深度學(xué)習加速器、第四代英特爾?至強?可擴展處理器、英特爾?至強?CPU Max系列和英特爾?數據中心GPU Max系列。我們在本文中分享的性能指標是我們當前軟件提供的“開(kāi)箱即用”的性能,并有望在未來(lái)的軟件中進(jìn)一步提升。我們還支持700億參數模型,并將很快分享最新相關(guān)信息。


Habana?Gaudi?2 深度學(xué)習加速器


Habana Gaudi2旨在為用戶(hù)提供高性能、高能效的訓練與推理,尤其適用于諸如Llama和Llama 2的大語(yǔ)言模型。Gaudi2加速器具備96GB HBM2E的內存容量,可滿(mǎn)足大語(yǔ)言模型的內存需求并提高推理性能。Gaudi2配備Habana?SynapseAI?軟件套件,該套件集成了對PyTorch和DeepSpeed的支持,以用于大語(yǔ)言模型的訓練和推理。此外,SynapseAI近期開(kāi)始支持HPU Graphs和DeepSpeed推理,專(zhuān)門(mén)針對時(shí)延敏感度高的推理應用。Gaudi2還將進(jìn)行進(jìn)一步的軟件優(yōu)化,包括計劃在2023年第三季度支持FP8數據類(lèi)型。此優(yōu)化預計將在執行大語(yǔ)言模型時(shí)大幅提高性能、吞吐量,并有效降低延遲。


大語(yǔ)言模型的性能需要靈活敏捷的可擴展性,來(lái)突破服務(wù)器內以及跨節點(diǎn)間的網(wǎng)絡(luò )瓶頸。每張Gaudi2芯片集成了21個(gè)100Gbps以太網(wǎng)接口,21個(gè)接口專(zhuān)用于連接服務(wù)器內的8顆Gaudi2,該網(wǎng)絡(luò )配置有助于提升服務(wù)器內外的擴展性能。


在近期發(fā)布的MLPerf基準測試中,Gaudi2在大語(yǔ)言模型上展現了出色的訓練性能,包括在384個(gè)Gaudi2加速器上訓練1750億參數的GPT-3模型所展現的結果。Gaudi2經(jīng)過(guò)驗證的高性能使其成為L(cháng)lama和Llama 2模型訓練和推理的高能效解決方案。


圖1顯示了70億參數和130億參數Llama 2模型的推理性能。模型分別在一臺Habana Gaudi2設備上運行,batch size=1,輸出token長(cháng)度256,輸入token長(cháng)度不定,使用BF16精度。報告的性能指標為每個(gè)token的延遲(不含第一個(gè))。該測試使用optimum-habana文本生成腳本在Llama模型上運行推理。optimum-habana庫能夠幫助簡(jiǎn)化在Gaudi加速器上部署此類(lèi)模型的流程,僅需極少的代碼更改即可實(shí)現。如圖1所示,對于128至2000輸入token,在70億參數模型上Gaudi2的推理延遲范圍為每token 9.0-12.2毫秒,而對于130億參數模型,范圍為每token 15.5-20.4毫秒1。

image.png

圖1 基于Habana Gaudi2,70億和130億參數Llama 2模型的推理性能


若想訪(fǎng)問(wèn)Gaudi2,可按照此處(https://developer.habana.ai/intel-developer-cloud/)在英特爾開(kāi)發(fā)者云平臺上注冊一個(gè)實(shí)例,或聯(lián)系超微(Supermicro)了解Gaudi2服務(wù)器基礎設施。


英特爾?至強?可擴展處理器


第四代英特爾至強可擴展處理器是一款通用計算處理器,具有英特爾?高級矩陣擴展(英特爾?AMX)的AI加速功能。具體而言,該處理器的每個(gè)核心內置了BF16和INT8通用矩陣乘(GEMM)加速器,以加速深度學(xué)習訓練和推理工作負載。此外,英特爾?至強?CPU Max系列,每顆CPU提供64GB的高帶寬內存(HBM2E),兩顆共128GB,由于大語(yǔ)言模型的工作負載通常受到內存帶寬的限制,因此,該性能對于大模型來(lái)說(shuō)極為重要。


目前,針對英特爾至強處理器的軟件優(yōu)化已升級到深度學(xué)習框架中,并可用于PyTorch*、TensorFlow*、DeepSpeed*和其它AI庫的默認發(fā)行版。英特爾主導了torch.compile CPU后端的開(kāi)發(fā)和優(yōu)化,這是PyTorch 2.0的旗艦功能。與此同時(shí),英特爾還提供英特爾?PyTorch擴展包*(Intel?Extension for PyTorch*),旨在PyTorch官方發(fā)行版之前,盡早、及時(shí)地為客戶(hù)提供英特爾CPU的優(yōu)化。


第四代英特爾至強可擴展處理器擁有更高的內存容量,支持在單個(gè)插槽內實(shí)現適用于對話(huà)式AI和文本摘要應用的、低延遲的大語(yǔ)言模型執行。對于BF16和INT8,該結果展示了單個(gè)插槽內執行1個(gè)模型時(shí)的延遲。英特爾?PyTorch擴展包*支持SmoothQuant,以確保INT8精度模型具有良好的準確度。


考慮到大語(yǔ)言模型應用需要以足夠快的速度生成token,以滿(mǎn)足讀者較快的閱讀速度,我們選擇token延遲,即生成每個(gè)token所需的時(shí)間作為主要的性能指標,并以快速人類(lèi)讀者的閱讀速度(約為每個(gè)token 100毫秒)作為參考。如圖2、3所示,對于70億參數的Llama2 BF16模型和130億參數的Llama 2 INT8模型,第四代英特爾至強單插槽的延遲均低于100毫秒2。


得益于更高的HBM2E帶寬,英特爾至強CPU Max系列為以上兩個(gè)模型提供了更低的延遲。而憑借英特爾AMX加速器,用戶(hù)可以通過(guò)更高的批量尺寸(batch size)來(lái)提高吞吐量。

image.png

圖2 基于英特爾至強可擴展處理器,70億參數和130億參數Llama 2模型(BFloat16)的推理性能


image.png

圖3 基于英特爾至強可擴展處理器,70億參數和130億參數Llama 2模型(INT8)的推理性能



對于70億和130億參數的模型,每個(gè)第四代至強插槽可提供低于100毫秒的延遲。用戶(hù)可以分別在兩個(gè)插槽上同時(shí)運行兩個(gè)并行實(shí)例,從而獲得更高的吞吐量,并獨立地服務(wù)客戶(hù)端。亦或者,用戶(hù)可以通過(guò)英特爾?PyTorch擴展包*和DeepSpeed* CPU,使用張量并行的方式在兩個(gè)第四代至強插槽上運行推理,從而進(jìn)一步降低延遲或支持更大的模型。


關(guān)于在至強平臺上運行大語(yǔ)言模型和Llama 2,開(kāi)發(fā)者可以點(diǎn)擊此處(https://intel.github.io/intel-extension-for-pytorch/llm/cpu/)了解更多詳細信息。第四代英特爾至強可擴展處理器的云實(shí)例可在A(yíng)WS和Microsoft Azure上預覽,目前已在谷歌云平臺和阿里云全面上線(xiàn)。英特爾將持續在PyTorch*和DeepSpeed*進(jìn)行軟件優(yōu)化,以進(jìn)一步加速Llama 2和其它大語(yǔ)言模型。


英特爾?數據中心GPU Max系列


英特爾數據中心GPU Max系列提供并行計算、科學(xué)計算和適用于科學(xué)計算的AI加速。作為英特爾性能最為出色、密度最高的獨立顯卡,英特爾數據中心GPU Max系列產(chǎn)品中封裝超過(guò)1000億個(gè)晶體管,并包含多達128個(gè)Xe內核,Xe是英特爾GPU的計算構建模塊。


英特爾數據中心GPU Max系列旨在為AI和科學(xué)計算中使用的數據密集型計算模型提供突破性的性能,包括:


●408 MB基于獨立SRAM技術(shù)的L2緩存、64MB L1緩存以及高達128GB的高帶寬內存(HBM2E)。

●AI增強型的Xe英特爾?矩陣擴展(英特爾?XMX)搭載脈動(dòng)陣列,在單臺設備中可實(shí)現矢量和矩陣功能。


英特爾Max系列產(chǎn)品統一支持oneAPI,并基于此實(shí)現通用、開(kāi)放、基于標準的編程模型,釋放生產(chǎn)力和性能。英特爾oneAPI工具包括高級編譯器、庫、分析工具和代碼遷移工具,可使用SYCL輕松將CUDA代碼遷移到開(kāi)放的C++。


英特爾數據中心Max系列GPU通過(guò)當今框架的開(kāi)源擴展來(lái)實(shí)現軟件支持和優(yōu)化,例如面向PyTorch*的英特爾擴展、面向TensorFlow*的英特爾?擴展和面向DeepSpeed*的英特爾?擴展。通過(guò)將這些擴展與上游框架版本一起使用,用戶(hù)將能夠在機器學(xué)習工作流中實(shí)現快速整合。


我們在一個(gè)600瓦OAM形態(tài)的GPU上評估了Llama 2的70億參數模型和Llama 2的130億參數模型推理性能,這個(gè)GPU上封裝了兩個(gè)tile,而我們只使用其中一個(gè)tile來(lái)運行推理。圖4顯示,對于輸入長(cháng)度為32到2000的token,英特爾數據中心GPU Max系列的一個(gè)tile可以為70億參數模型的推理提供低于20毫秒的單token延遲,130億參數模型的單token延遲為29.2-33.8毫秒3。因為該GPU上封裝了兩個(gè)tile,用戶(hù)可以同時(shí)并行運行兩個(gè)獨立的實(shí)例,每個(gè)tile上運行一個(gè),以獲得更高的吞吐量并獨立地服務(wù)客戶(hù)端。


image.png

圖4 英特爾數據中心GPU Max 1550上的Llama 2的70億和130億參數模型的推理性能


關(guān)于在英特爾GPU平臺上運行大語(yǔ)言模型和Llama 2,可以點(diǎn)擊此處(https://intel.github.io/intel-extension-for-pytorch/llm/xpu/)獲取詳細信息。目前英特爾開(kāi)發(fā)者云平臺上已發(fā)布英特爾GPU Max云實(shí)例測試版。


英特爾平臺上的大語(yǔ)言模型微調


除了推理之外,英特爾一直在積極地推進(jìn)微調加速,通過(guò)向Hugging Face Transformers、PEFT、Accelerate和Optimum庫提供優(yōu)化,并在面向Transformers的英特爾?擴展中提供參考工作流。這些工作流支持在相關(guān)英特爾平臺上高效地部署典型的大語(yǔ)言模型任務(wù),如文本生成、代碼生成、完成和摘要。


總結


上述內容介紹了在英特爾AI硬件產(chǎn)品組合上運行Llama 2的70億和130億參數模型推理性能的初始評估,包括Habana Gaudi2深度學(xué)習加速器、第四代英特爾至強可擴展處理器、英特爾?至強?CPU Max系列和英特爾數據中心GPU Max系列。我們將繼續通過(guò)軟件發(fā)布提供優(yōu)化,后續會(huì )再分享更多關(guān)于大語(yǔ)言模型和更大的Llama 2模型的評估。







關(guān)鍵詞:

評論


相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>