新型的FPGA器件將支持多樣化AI/ML創(chuàng )新進(jìn)程
近日舉辦的GTC大會(huì )把人工智能/機器學(xué)習(AI/ML)領(lǐng)域中的算力比拼又帶到了一個(gè)新的高度,這不只是說(shuō)明了通用圖形處理器(GPGPU)時(shí)代的來(lái)臨,而是包括GPU、FPGA和NPU等一眾數據處理加速器時(shí)代的來(lái)臨,就像GPU以更高的計算密度和能效勝出CPU一樣,各種加速器件在不同的AI/ML應用或者細分市場(chǎng)中將各具優(yōu)勢,未來(lái)并不是只要貴的而是更需要對的。
本文引用地址:http://dyxdggzs.com/article/202403/456971.htm此次GTC上新推出的用于AI/ML計算或者大模型的B200芯片有一個(gè)顯著(zhù)的特點(diǎn),它與傳統的圖形渲染GPU大相徑庭并與上一代用于AI/ML計算的GPU很不一樣。在其他算力器件品種中也是如此,AI/ML計算尤其是推理應用需要一種專(zhuān)為高帶寬工作負載優(yōu)化的新型FPGA,下面我們以Achronix的Speedster7t FPGA芯片為例來(lái)看看技術(shù)的演進(jìn)方向,以及在實(shí)際推理應用中展現出來(lái)的在性?xún)r(jià)比和能效比等方面優(yōu)于先進(jìn)GPU的特性。
先來(lái)快速看看Speedster7t的產(chǎn)品亮點(diǎn):該器件集成了800K到1500K等效邏輯單元以及326K到692K 6輸入查找表(LUT),高達120T算力的機器學(xué)習處理單元(MLP),同時(shí)還配備了高性能存儲和I/O接口,以及最高可達190Mb的嵌入式存儲容量。在外部連接接口部署上,Speedster7t包含16個(gè)GDDR6通道,可提供高達4 Tbps的高速存儲帶寬;32對SerDes通道,支持1-112Gbps的數據速率;4個(gè)400G以太網(wǎng)端口(4× 400G或16× 100G)和2個(gè)PCIe Gen5端口,支持16通道(×16)和8通道(×8)配置。
Achronix的Speedster7t FPGA芯片被用戶(hù)認為非常適合AI/ML推理原因是: 足夠的算力,靈活可配的計算精度;高帶寬大容量低成本的GDDR6(4Tbps帶寬, 32GB容量);革命性的全新二維片上網(wǎng)絡(luò )(2D NoC)路由架構;靈活通用的芯片間互聯(lián); 支持用戶(hù)基于該芯片開(kāi)發(fā)自定義的推理系統,比如單板多片FPGA甚至多板互聯(lián)以組成更高性能(如1TBbps/64GB,2TBbps/128GB, 4TBbps/256GB…等更高帶寬和更大容量的計算存儲)以支持更大或超大模型推理部署。
簡(jiǎn)而言之,相比傳統的推理算力平臺,Speedster7t FPGA可以提供更高性?xún)r(jià)比和能耗比的大模型推理能力; 另外,在傳統的FPGA處理功能中,越來(lái)越多的用戶(hù)在該系統中加入機器學(xué)習的能力, Speedster7t FPGA能很好勝任傳統FPGA功能和高性能機器學(xué)習融合在一起。
一類(lèi)創(chuàng )新性的高性能FPGA系列產(chǎn)品
Achronix Speedster?7t系列FPGA基于革命性的FPGA架構,該架構經(jīng)過(guò)了高度優(yōu)化提供了高速、高帶寬內外連接,可以滿(mǎn)足日益增長(cháng)的人工智能/機器學(xué)習、網(wǎng)絡(luò )密集型和數據加速應用的需求。Speedster7t系列FPGA芯片具有一個(gè)革命性的全新二維片上網(wǎng)絡(luò ),以及一個(gè)針對人工智能/機器學(xué)習進(jìn)行優(yōu)化的高密度的機器學(xué)習處理單元陣列。通過(guò)將FPGA的可編程性與類(lèi)似ASIC路由架構和計算引擎相結合,Speedster7t系列提高了高性能FPGA的標準。
全新的二維片上網(wǎng)絡(luò )(2D NoC)提供ASIC級別的性能
Speedster7t系列FPGA芯片具有革命性的2D NoC,可在整個(gè)FPGA邏輯陣列中傳輸數據,并將數據傳輸到高性能I/O和內存子系統,同時(shí)可提供高達20 Tbps的總帶寬。憑借2D NoC,在Speedster7t FPGA芯片不需要消耗任何可編程邏輯資源的情況下來(lái)進(jìn)行數據傳輸。在該芯片上的2D NoC提供了20 Tbps的二維片上網(wǎng)絡(luò )總帶寬;該2D NoC不僅覆蓋了芯片全域,而且還連接到各類(lèi)高速接口和總帶寬高達4 Tbps的高速存儲接口。
高速接口
無(wú)論是支持輸入和輸出的數據流,還是存儲緩沖這些數據,對于高性能計算、機器學(xué)習和硬件加速解決方案而言,都需要在片內和片外傳輸數據。Speedster7t系列FPGA芯片的架構可支持前所未有的帶寬。包括:
400G以太網(wǎng):Speedster7t系列FPGA芯片支持多達4個(gè)400GbE端口或16個(gè)100GbE端口,通過(guò)2D NoC連接到FPGA邏輯。
PCI Express Gen5:Speedster7t系列FPGA芯片配備了多個(gè)PCle Gen5接口,支持速率達32GT/s。
存儲接口:GDDR6 + DDR4/5
Speedster7t器件是唯一在片上支持GDDR6存儲器的FPGA,以最低的DRAM成本(每存儲位)提供最快的SDRAM訪(fǎng)問(wèn)速度。Speedster7t系列FPGA芯片具有高達4 Tbps的GDDR6帶寬,以很低的成本就可提供相當于基于HBM的FPGA存儲器帶寬。Speedster7t系列FPGA芯片包括了DDR4/5存儲器接口,以支持更深入的緩沖需求。PHY和控制器支持由JEDEC規范定義的所有標準功能。
機器學(xué)習處理單元
每個(gè)Speedster7t FPGA器件都具有可編程的數學(xué)計算單元,這些單元被集成至全新的機器學(xué)習處理單元(MLP)模塊中。每個(gè)MLP都是一個(gè)高度可配置的計算密集型模塊,具有多達32個(gè)乘法器/累加器(MAC),支持4到24位整數格式和各種浮點(diǎn)模式,包括Tensorflow的bfloat16格式以及高效的塊浮點(diǎn)格式,大大提高了性能。
MLP模塊包括緊密集成的嵌入式存儲器模塊,以確保機器學(xué)習算法將以750 MHz的最高性能運行。這種高密度計算和高性能數據傳輸的結合造就了高性能機器學(xué)習處理結構,該結構可提供市場(chǎng)上基于FPGA的極高TOPS級別運算能力(TOPS即Tera-Operations Per Second,每秒萬(wàn)億次運算)。
圖中文字說(shuō)明:Register File - 寄存器文件,Fracturable Adder/Accumulator - 可拆分的加法器/累加器,Float MAC - 浮點(diǎn)乘累加單元(MAC),Memory Cascade in - 存儲器級聯(lián),Operand Cascade in - 操作數級聯(lián)。
設計工具支持
Achronix Tool Suite工具套件是一個(gè)支持所有Achronix硬件產(chǎn)品的工具鏈。它可與行業(yè)標準的邏輯綜合和仿真工具結合使用,從而使FPGA設計人員能夠輕松地將其設計映射到Speedster7t FPGA器件中。Achronix Tool Suite工具套件包括Synopsys的Synplify Pro的優(yōu)化版本和Achronix Snapshot調試器。Achronix仿真庫由Siemens EDA的ModelSim、Synopsys的VCS和Aldec的Riviera-PRO提供支持。
展望:在推理等領(lǐng)域幫助開(kāi)發(fā)者打造綜合性能優(yōu)于先進(jìn)GPU的應用
隨著(zhù)AI/ML技術(shù)在各個(gè)領(lǐng)域開(kāi)始廣泛走進(jìn)應用,Achronix根據Speedster7t FPGA器件的高性能和高帶寬特性,選擇了推理這一個(gè)應用面非常廣的技術(shù)市場(chǎng)方向,與合作伙伴加大了在Speedster7t FPGA器件上的推理算法和IP的研發(fā),以期幫助更多的創(chuàng )新者實(shí)現突破。
該芯片提供了足夠的算力,并利用其片上搭載的二維片上網(wǎng)絡(luò )(2D NoC)和機器學(xué)習處理單元(MLP),各種高速接口和GDDR6高帶寬存儲接口,提供了用于大規模推理應用需要的計算器件內外連接、硬件加速和存儲調用等新技術(shù),從而可以支持開(kāi)發(fā)者快速去實(shí)現創(chuàng )新。
這個(gè)策略取得了顯著(zhù)的成果,其中一個(gè)領(lǐng)域是加速自動(dòng)語(yǔ)言識別(ASR)解決方案,它由搭載Speedster7t FPGA器件的VectorPath加速卡提供支持,運行Myrtle.ai提供的基于Achronix FPGA的ASR IP,從而提供業(yè)界領(lǐng)先的、實(shí)時(shí)的、超低延遲的語(yǔ)音轉文本功能。運行在服務(wù)器中的單張VectorPath加速卡可替代多達20臺僅基于CPU的服務(wù)器或10張GPU加速卡。
Speedster7t FPGA的技術(shù)創(chuàng )新為人工智能推理帶來(lái)了更高性?xún)r(jià)比和更高能效比以及可以讓用戶(hù)開(kāi)發(fā)自定義的推理硬件平臺和系統。 在ASR實(shí)際性能方面,其出色的超低單詞錯誤率和僅有最先進(jìn)GPU解決方案八分之一以下的端到端延遲(包括了預處理和后處理以及與CPU做數據交互的時(shí)間)顛覆了ASR領(lǐng)域。該解決方案可以在標準的機器學(xué)習框架中使用垂直應用特定的或自定義的數據集進(jìn)行定制或重新訓練。
對于越來(lái)越多的其他的推理應用,Speedster7t FPGA的獨創(chuàng )高帶寬架構也可以為這些應用提供有力的支撐。Achronix正在通過(guò)不斷研發(fā),以完善其工具鏈和應用生態(tài),將在2024年推出更好的工具來(lái)幫助各種推理應用的開(kāi)發(fā),使眾多的用戶(hù)更加便捷地使用Speedster7t FPGA器件或者VectorPath加速卡來(lái)實(shí)現性?xún)r(jià)比和能效提升,而不用去爭搶緊俏的高性能GPU加速卡。
評論