AI用FPGA發(fā)展快,帶來(lái)架構新變革
1 AI用FPGA將越來(lái)越多 FPGA是AI/ML運算的主要芯片之一。據市場(chǎng)調查公司Semico Research的2019年5月數據,2018年用于A(yíng)I的FPGA市值約10億美元,預計2019年為18億美元左右。到2023年的未來(lái)四年中,AI用FPGA將增長(cháng)約3倍,達到52億美元(如下圖)。
本文引用地址:http://dyxdggzs.com/article/201905/400806.htm這個(gè)增長(cháng)是驚人的,因為過(guò)去多年來(lái),FPGA業(yè)的年均增長(cháng)率只有8%~9%。
目前,25%的商業(yè)已經(jīng)實(shí)現了AI/機器學(xué)習(ML),未來(lái)兩年內將達72%。帶來(lái)的好處是在核心功能方面帶來(lái)商業(yè)的洞察力,諸如市場(chǎng)營(yíng)銷(xiāo)、銷(xiāo)售、定價(jià)、物流、合規和欺詐檢測。
不過(guò),這也為FPGA的傳統架構帶來(lái)了不小的挑戰。因為市面上有各種AI算法(如下圖),基本上底層是矩陣層,用高精度浮點(diǎn)運算,但是算法的變化趨勢是:精度/位數降低,從浮點(diǎn)改為定點(diǎn),原因是為了把運算的復雜度降低,從而降低功耗。
數據加速有其特點(diǎn),通常要有三要素:高算力,高效、豐富的存儲緩存能力,高效、大帶寬的數據運送能力。為此,FPGA芯片需要改進(jìn)架構,以滿(mǎn)足數據加速的需要。
2 Achronix的7納米FPGA架構
近日,Achronix宣布推出突破性FPGA——Speedster7t,采用7納米工藝、TSMC流片,主要針對AI/ML(機器學(xué)習)和高帶寬網(wǎng)絡(luò )應用。為此,公司總裁兼CEO(首席執行官)Robert Blake向電子產(chǎn)品世界等介紹了新架構。
據悉,Speedster7t研發(fā)了三年。該公司至今已有十余年歷史,此前,已推出了三代FPGA。不過(guò),為了應對AI挑戰,Speedster7t芯片的設計團隊重新設計架構,提出了兼具FPGA靈活性和ASIC高性能的新一代FPGA(如下圖)。
亮點(diǎn)如下。
*新的NOC(片上網(wǎng)絡(luò ))路由架構;
*新的機器學(xué)習處理器(MLP);
*最高速度接口,例如最新的第五代PCIe和400 Gbps以太網(wǎng);
*是第一家內嵌GDDR6高帶寬內存單元的FPGA公司。
2.1 MLP
AI/ML需要矢量矩陣乘法,而傳統的帶DSP塊的FPGA的性能有限(如下圖左),新的MLP可帶來(lái)更高的性能(如下圖右)。
另外,傳統FPGA的數字濾波器也不適合(如下圖左),新的Speedster7t采用了矢量矩陣乘法。
再有,新一代的Speedster7t MLP采用了專(zhuān)為AI/ML優(yōu)化的數學(xué)塊(Math Block)(如下圖)。具有四個(gè)特點(diǎn),①高密度乘陣列:每個(gè)MAC( 乘累加)支持最多32個(gè)乘法器,驅動(dòng)可變精度的加法和累加器,有浮點(diǎn)MAC和整點(diǎn)MAC。②緊密相鄰的緩存塊:大塊RAM為72Kbits,寄存器文件是2Kbits。③通過(guò)運算和內存級聯(lián)功能,可以實(shí)現更復雜的算法,而無(wú)需使用FPGA布線(xiàn)資源。④支持多數字格式,包括浮點(diǎn)、整點(diǎn)和自定義格式。
2.2 內存層次結構和帶寬
內存在FPGA fabric(邏輯功能塊)中:每6個(gè)輸入LUT(查找表)中有2個(gè)寄存器,每個(gè)塊RAM中有72 Kbits。
率先采用GDDR6。
具有DDR4/5接口。
2.3 更高速率接口
采用1~112 Gbps SerDes(串行收發(fā)器),有固化的以太網(wǎng)結構,硬化的第五代PCIe。
2.4 創(chuàng )新的二維片上網(wǎng)絡(luò )(NOC)
像疊加在FPGA互聯(lián)城市街道系統上的高速公路一樣,NoC支持片上處理引擎之間的高帶寬通信。例如,有的做圖像處理,有的做數據庫交流等,有了NOC,可以有效地做起來(lái)。
那么,一家友商的高端FPGA中也有高速公路架構,NOC的特點(diǎn)是什么?Robert稱(chēng)速度更快,是市面上產(chǎn)品的十倍。
值得指出的是,NOC的外圍(如下圖的大黃框)是購買(mǎi)的IP,但是內部的構造是Achronix自己設計的。
如何為400G以太網(wǎng)傳輸提供所需的頻率?通常采用打包方式。傳送速度需要足夠快,以確保來(lái)得及裝包。不過(guò),包有大有小,例如視頻包較大,大包會(huì )降低效率,使得包之間有空的空間。
因此,傳統FPGA不能在任何400G以太網(wǎng)總線(xiàn)帶寬下運行得足夠快(如下圖)。
Speedster7t采用了分成多路傳輸方法(如下圖)。
3 Speedster7t產(chǎn)品家族
此次發(fā)布的新芯片,預計2019年第四季度會(huì )提供樣片和加速卡,2020年量產(chǎn)。不過(guò),相關(guān)的ACE軟件工具有很多創(chuàng )新,現在就可獲得。
4 創(chuàng )新性的商業(yè)模式
眾所周知,FPGA業(yè)有兩大巨擎,都有35年左右的歷史,專(zhuān)利和產(chǎn)品遍布。Achronix作為一家只有十余年歷史的公司,必須要另辟蹊徑。為此該公司定位于高端FPGA,主要應用領(lǐng)域是高性能數據加速,諸如高性能計算和網(wǎng)絡(luò )處理加速等。
不僅是上述的技術(shù)創(chuàng )新,該公司還有獨特的商業(yè)模式:既提供FPGA芯片,也有FPGA IP授權等業(yè)務(wù),其IP產(chǎn)品——Speedcore eFPGA IP已于2016年推向市場(chǎng),并于去年底推出了最新的第四代Speedcore。
Robert十分看好FPGA IP授權的前景,認為未來(lái)可能越來(lái)越多地用于A(yíng)SIC,例如RF芯片是否也可以變成FPGA?這看起來(lái)似乎不可思議,但就像CPU界,二三十年前,沒(méi)人把CPU放進(jìn)SoC中,而現在很常見(jiàn)。
現在FPGA芯片的營(yíng)收占公司的比例最大,但IP授權發(fā)展速度最快。
5 評論——創(chuàng )新對小公司更加重要
Achronix公司的第一代FPGA產(chǎn)品是與Intel達成了協(xié)議,采用當時(shí)Intel最先進(jìn)的工藝——22nm生產(chǎn),型號為Speedster22i,意味著(zhù)22nm、Intel流片。當時(shí)震動(dòng)了業(yè)界,一方面人們不相信FPGA業(yè)最新工藝產(chǎn)品將被一家小公司做出,同時(shí)也發(fā)現Intel要涉足代工業(yè)務(wù)。
當時(shí)很多客戶(hù)雖然喜歡這家小公司的前沿產(chǎn)品,但不太放心,Achronix安慰說(shuō):“你可以不相信我,但你總不會(huì )不相信Intel??!只要有Intel在,Intel就可以給客戶(hù)流片?!?/p>
沒(méi)想到幾年后,FPGA巨頭——Altera被Intel收為旗下。Achronix又轉到TSMC去流片。第四代產(chǎn)品叫Speedster7t,意味著(zhù)7nm、TSMC流片。
而且Achronix還開(kāi)辟的了新業(yè)務(wù)——IP授權模式,發(fā)展良好。
這讓大家再一次領(lǐng)略到初創(chuàng )公司在夾縫中生存時(shí),創(chuàng )新的重要性。
此次FPGA架構的創(chuàng )新令人眼界大開(kāi),例如有些功能友商已有,Achronix的性能更高;有些架構和功能是Achronix首創(chuàng )的,專(zhuān)為AI/ML和高帶寬應用打造。
6 Achronix官方新聞稿如下
Achronix推出突破性的FPGA系列產(chǎn)品,以面向高帶寬數據加速應用的靈活性而將性能提升到全新高度
· 全新Speedster7t系列產(chǎn)品專(zhuān)為機器學(xué)習市場(chǎng)和高帶寬網(wǎng)絡(luò )應用而進(jìn)行了優(yōu)化
· 創(chuàng )新架構和ACE軟件工具為要求更高性能和更短設計周期的設計提供了全新范式
· Speedster7t器件采用臺積電(TSMC)的7nm FinFET工藝制造
美國加州圣克拉拉市, 2019年 5月 21日—基于現場(chǎng)可編程門(mén)陣列(FPGA)的硬件加速器件和高性能嵌入式FPGA(eFPGA)半導體知識產(chǎn)權(IP)領(lǐng)導性企業(yè)Achronix半導體公司(Achronix Semiconductor Corporation)今日宣布:推出創(chuàng )新性的、全新的FPGA系列產(chǎn)品,以滿(mǎn)足人工智能/機器學(xué)習(AI/ML)和高帶寬數據加速應用日益增長(cháng)的需求。Achronix的Speedster?7t系列基于一種高度優(yōu)化的全新架構,以其所具有的如同ASIC一樣的性能、可簡(jiǎn)化設計的FPGA靈活性和增強功能,從而遠遠超越傳統的FPGA解決方案。
Speedster7t FPGA系列產(chǎn)品是專(zhuān)為高帶寬應用進(jìn)行設計,具有一個(gè)革命性的全新二維片上網(wǎng)絡(luò )(2D NoC),以及一個(gè)高密度全新機器學(xué)習處理器(MLP)模塊陣列。通過(guò)將FPGA的可編程性與ASIC的布線(xiàn)結構和計算引擎完美地結合在一起,Speedster7t系列產(chǎn)品創(chuàng )造了一類(lèi)全新的“FPGA +”技術(shù)。
隨著(zhù)人工智能/機器學(xué)習的應用場(chǎng)景快速發(fā)展演進(jìn),新的解決方案都要去應對在高性能、靈活和上市時(shí)間等方面的不同需求。根據市場(chǎng)調研公司Semico Research的預測,人工智能應用中FPGA的市場(chǎng)規模將在未來(lái)4年內增長(cháng)3倍,達到52億美元。
“我們正處于智能化、自學(xué)習計算的高增長(cháng)階段的早期,這種計算將廣泛影響我們日的常生活?!?span style="font-family:Arial">Achronix Semiconductor總裁兼首席執行官Robert Blake表示:“Speedster7t是Achronix歷史上最令人激動(dòng)的發(fā)布,代表了建立在四個(gè)架構代系的硬件和軟件開(kāi)發(fā)基礎上的創(chuàng )新和積淀,以及與我們領(lǐng)先客戶(hù)之間的密切合作。Speedster7t是靈活的FPGA技術(shù)與ASIC核心效率的融合,從而提供了一個(gè)全新的‘FPGA+’芯片品類(lèi),它們可以將高性能技術(shù)的極限大大提升?!?/span>
在開(kāi)發(fā)Speedster7t系列FPGA的產(chǎn)品過(guò)程中,Achronix的工程團隊完全重新構想了整個(gè)FPGA架構,以平衡片上處理、互連和外部輸入輸出接口(I / O),以實(shí)現數據密集型應用吞吐量的最大化,這些應用場(chǎng)景可見(jiàn)于那些基于邊緣和基于服務(wù)器的AI / ML應用、網(wǎng)絡(luò )處理和存儲。
Speedster7t器件采用了TSMC的7nm FinFET工藝制造,是專(zhuān)為接收來(lái)自多個(gè)高速來(lái)源的大量數據而設計,同時(shí)還需要將那些數據分發(fā)到可編程片上算法性和處理性單元中,然后以盡可能低的延遲來(lái)提供那些結果。Speedster7t系列產(chǎn)品包括高帶寬GDDR6接口、400G以太網(wǎng)端口和PCI Express Gen5等接口,所有這一切單元都互相連接以提供ASIC級帶寬,同時(shí)保留FPGA的完全可編程性。
“Achronix全新的Speedster7t FPGA系列產(chǎn)品是創(chuàng )新性芯片架構實(shí)現爆發(fā)的一個(gè)卓越案例,創(chuàng )造該架構的目的是直接面向AI應用處理大量的數據,” Semico Research公司ASIC和SoC首席市場(chǎng)分析師Rich Wawrzyniak說(shuō)道。“通過(guò)將數學(xué)函數、存儲器和可編程性整合到其機器學(xué)習處理器中,再結合交叉芯片、二維NoC結構,從而形成了消除瓶頸和確保整個(gè)器件中數據自由流動(dòng)的絕佳方法。在AI / ML應用中,內存帶寬就是一切,Achronix的Speedster7t在這一領(lǐng)域提供了令人印象深刻的性能指標。”
為計算性能進(jìn)行了高度的優(yōu)化
Speedster7t FPGA的核心是其全新機器學(xué)習處理器(MLP)中大規模的可編程計算單元平行陣列,它們可提供業(yè)界最高的、基于FPGA的計算密度。MLP是高度可配置的、計算密集型的單元模塊,可支持4到24位的整點(diǎn)格式和高效的浮點(diǎn)模式,包括對TensorFlow的16位格式的支持,以及可使每個(gè)MLP的計算引擎加倍的增壓塊浮點(diǎn)格式的直接支持。
MLP與嵌入式存儲器模塊緊密相鄰,通過(guò)消除傳統設計中與FPGA布線(xiàn)相關(guān)的延遲,來(lái)確保以750 MHz的最高性能將數據傳送到MLP。這種高密度計算和高性能數據傳輸的結合使得處理器邏輯陣列能夠提供基于FPGA的最高可用計算能力以每秒萬(wàn)億次運算數量為單位(TOPS,Tera-Operations Per Second)。
世界級的帶寬
高性能計算和機器學(xué)習系統的關(guān)鍵之處是高片外存儲器帶寬,從而為多個(gè)數據流提供存儲源和緩沖。 Speedster7t器件是唯一支持GDDR6存儲器的FPGA,該類(lèi)存儲器是具有最高帶寬的外部存儲器件。每個(gè)GDDR6存儲控制器都能夠支持512 Gbps的帶寬,Speedster7t器件中有多達8個(gè)GDDR6控制器,可以支持4 Tbps的GDDR6累加帶寬,并且以很小的成本就可提供與基于HBM的FPGA等效存儲帶寬。
“美光(Micron)樂(lè )于攜手Achronix去實(shí)現全球第一個(gè)面向高帶寬存儲需求而直接加載了GDDR6的FPGA產(chǎn)品,”美光計算與聯(lián)網(wǎng)業(yè)務(wù)部營(yíng)銷(xiāo)副總裁Mal Humphrey。“像這樣的創(chuàng )新的和可擴展的解決方案將推動(dòng)人工智能領(lǐng)域內的差異化,其中異構計算可選方案與高性能的存儲是加速獲得數據內涵的必需部分?!?/span>
除了這種非凡的存儲帶寬,Speedster7t器件還包括業(yè)界最高性能的接口端口,以支持極高帶寬的數據流。Speedster7t器件擁有多達72個(gè)業(yè)界最高性能的SerDes,可以達到1到112 Gbps的速度。還有帶有前向糾錯(FEC)的硬件400G以太網(wǎng)MAC,支持4x 100G和8x 50G的配置,以及每個(gè)控制器有8個(gè)或16個(gè)通道的硬件PCI Express Gen5控制器。
超高效率的數據移動(dòng)
來(lái)自Speedster7t高速I / O和存儲器端口的數萬(wàn)兆比特數據很容易淹沒(méi)傳統FPGA面向比特位的可編程互連邏輯陣列的路由容量,而Speedster7t架構包含一個(gè)可橫跨和垂直跨越FPGA邏輯陣列的創(chuàng )新性的、高帶寬的二維片上網(wǎng)絡(luò )(NOC),它們連接到所有FPGA的高速數據和存儲器接口。它們就像疊加在FPGA互連這個(gè)城市街道系統上的空中高速公路網(wǎng)絡(luò )一樣,Speedster7t的NoC支持片上處理引擎之間所需的高帶寬通信。NoC中的每一行或每一列都可作為兩個(gè)256位實(shí)現,單向的、行業(yè)標準的AXI通道,工作頻率為2Ghz,同時(shí)可為每個(gè)方向提供512 Gbps的數據流量。
通過(guò)在Speedster中實(shí)現專(zhuān)用二維 NoC, 極大地簡(jiǎn)化了高速數據移動(dòng),并確保數據流可以輕松地定向到整個(gè)FPGA結構中的任何自定義處理引擎。最重要的是,NOC消除了傳統FPGA使用可編程路由和邏輯查找表資源在整個(gè)FPGA中移動(dòng)數據流中出現的擁塞和性能瓶頸。這種高性能網(wǎng)絡(luò )不僅可以提高Speedster7t FPGA的總帶寬容量,還可以在降低功耗的同時(shí)提高有效LUT容量。
針對安全性至上和硬件確保應用的安全防護功能
Speedster7t FPGA系列產(chǎn)品在面臨第三方攻擊的威脅時(shí),可用最先進(jìn)的比特流安全保護功能應對,它們具有的多層防御能力可保護比特流的保密性和完整性。密鑰是基于防篡改物理不可克隆技術(shù)(PUF)進(jìn)行加密,比特流由256位的AES-GCM加密算法進(jìn)行加密和驗證。為了防止來(lái)自旁側信道的攻擊,比特流被分段,每個(gè)數據段使用單獨導出的密鑰,且解密硬件采用差分功率分析(DPA)計數器措施。 此外,2048位RSA公鑰認證協(xié)議被用來(lái)激活解密和認證硬件。用戶(hù)可以確信的是當他們加載其安全比特流時(shí),它是預期的配置,這是因為它已通過(guò)RSA公鑰、AES-GCM私鑰和CRC校驗進(jìn)行了身份驗證。
經(jīng)驗證的、可向低成本ASIC轉換的途徑,用以滿(mǎn)足大批量需求
Achronix是唯一一家既提供獨立FPGA芯片又提供Speedcore?嵌入式FPGA(eFPGA)半導體知識產(chǎn)權( IP)的公司。Achronix在Speedcore eFPGA IP中采用了與Speedster7t FPGA中使用的同一種技術(shù),可支持從Speedster7t FPGA到ASIC的無(wú)縫轉換。FPGA應用通常具有必須保持可編程性的功能,而其他固定功能則是專(zhuān)用于特定的系統應用。對于ASIC的轉換而言,固定功能可以被固化進(jìn)ASIC結構中,從而減小芯片面積、成本和功耗。當使用Speedcore eFPGA IP將Speedster7t FPGA轉換為ASIC時(shí),客戶(hù)有望節省高達50%的功耗并降低90%的成本。
供貨
Speedster7t FPGA器件的大小范圍為從363K至2.6M 的6輸入查找表(LUT)。支持所有Achronix產(chǎn)品的ACE設計工具現已可提供,可支持包括Speedcore eFPGA和Speedchip?FPGA多晶粒封裝芯片(Chiplet)。
第一批用于評估的器件和開(kāi)發(fā)板將于2019年第四季度提供。
關(guān)于Achronix半導體公司
Achronix半導體公司是一家私有的、采用無(wú)晶圓廠(chǎng)模式的半導體公司,總部位于美國加利福尼亞州圣克拉拉市,同時(shí)提供高性能FPGA和嵌入式FPGA(EFPGA)解決方案。Achronix歷來(lái)都是高性能FPGA市場(chǎng)向前發(fā)展的推動(dòng)者之一。Achronix提供的產(chǎn)品包括可編程的FPGA結構、具有硬連線(xiàn)系統級模塊的分立式高性能和高密度FPGA、數據中心和HPC硬件加速器板,以及支持所有Achronix產(chǎn)品的一流EDA軟件。公司在美國、歐洲和中國都設有銷(xiāo)售辦公室和代表處,在印度班加羅爾設有一間研發(fā)和設計辦公室。更多信息,請訪(fǎng)問(wèn):http://www.achronix.com。
評論