【E問(wèn)E答】英特爾的CPU+FPGA能否打敗谷歌TPU?
近日,英特爾宣布與科大訊飛達成技術(shù)合作,共同優(yōu)化在機器學(xué)習與深度學(xué)習領(lǐng)域的離線(xiàn)訓練與在線(xiàn)預測,并在上周舉辦電博會(huì )上進(jìn)行了展示。本文是網(wǎng)易智能對英特爾技術(shù)專(zhuān)家與科大訊飛深度學(xué)習平臺研發(fā)總監張致江的采訪(fǎng),值得一讀。
本文引用地址:http://dyxdggzs.com/article/201704/346533.htm據了解,2016年11月,英特爾和訊飛簽署了一個(gè)為期是三年的人工智能技術(shù)合作框架。英特爾與科大訊飛的技術(shù)合作涵蓋了深度學(xué)習的完整流程,包括數據采集,離線(xiàn)訓練(Traning),在線(xiàn)預測(Inferencing),采集新數據組,進(jìn)行新的離線(xiàn)訓練。
機器學(xué)習/深度學(xué)習中最重要的技術(shù)是離線(xiàn)訓練和在線(xiàn)推理。針對離線(xiàn)訓練,英特爾和訊飛主要是針對現在的KNL和即將要發(fā)布的KNM來(lái)提升訊飛在深度學(xué)習平臺的性能??拼笥嶏w深度學(xué)習平臺研發(fā)總監張致江表示,英特爾下一代的處理器KNL和KNM這方面去做這樣的事情效果非常好,目前在這個(gè)上面做的跟主流的深度學(xué)習處理方案水平相差很小,同時(shí)下一代的KNL、KNM因為有很大的顯存、編程的特性,未來(lái)可能考慮用這種方案去做平臺建設。張致江稱(chēng),現在主流的一些加速方案可能會(huì )限制整個(gè)計算的memory,而KNL、KNM實(shí)際上是打破了這樣一個(gè)限制。

在線(xiàn)推理方面,主要是用英特爾的FPGA技術(shù)。張致江稱(chēng),在線(xiàn)預測傳統的方法基本上都是用CPU的方式去做這樣的事情,但是隨著(zhù)業(yè)務(wù)量的增長(cháng)整個(gè)服務(wù)器的數量也是隨著(zhù)線(xiàn)性增長(cháng)的,成本太高。張致江稱(chēng),我們在用CPU加FPGA的方案去做的時(shí)候,一臺服務(wù)器里面就插了一張FPGA的加速處理器,整個(gè)性能是遠遠超過(guò)于兩臺甚至三臺、四臺CPU機器的性能,成本也會(huì )降低很多。
也就是說(shuō),英特爾將人工智能芯片的技術(shù)路徑分為離線(xiàn)訓練與在線(xiàn)推理兩方面,針對離線(xiàn)訓練會(huì )主推至強融核KNL/KNM處理器(KNM尚未上市),特點(diǎn)是針對單精度操作進(jìn)行了優(yōu)化,支持自啟動(dòng),能夠獨立運行操作系統和應用軟件,內置片上內存,直接通過(guò)內存控制器從DDR4內存讀取數據到處理器緩存,對行業(yè)標準的開(kāi)源深度學(xué)習框架進(jìn)行了優(yōu)化。在線(xiàn)預測階段,英特爾主推至強CPU+Arria10FPGA的方案,聲稱(chēng)可以實(shí)現低延遲高通量在線(xiàn)處理,因為英特爾A10FPGA原生支持并行多通道任務(wù)處理,超過(guò)1500個(gè)單精度浮點(diǎn)計算單元會(huì )同片上/本地存儲提供穩定的低處理遲延,成本更低。
基于CPU+FPGA,能替代GPU嗎?
英特爾人工智能事業(yè)部(AIPG)首席技術(shù)官Amir Khosrowshahi在最近接受媒體采訪(fǎng)時(shí)表示,目前所使用GPU太低級了,半導體行業(yè)需要構建全新的神經(jīng)網(wǎng)絡(luò )架構。Khosrowshahi認為,在執行圖形渲染過(guò)程中輔助圖形處理單元的部分功能是沒(méi)有必要的,比如大容量緩存,頂點(diǎn)處理,渲染和紋理等等,從能源利用率上考慮也產(chǎn)生了相當高的成本。Khosrowshahi稱(chēng),“神經(jīng)網(wǎng)絡(luò )則相當簡(jiǎn)單,利用小巧的矩陣乘法和非線(xiàn)性就能直接創(chuàng )建半導體來(lái)實(shí)現GPU的功能,而且你所創(chuàng )建的半導體非常忠誠于神經(jīng)網(wǎng)絡(luò )架構,顯然這是GPU所無(wú)法給予的?!?/p>
而CPU+FPGA的優(yōu)勢在于,對于開(kāi)發(fā)人員CPU的編程是相對比較容易的。如果說(shuō)是用CPU加另外一個(gè)企業(yè)的加速處理器,往往這個(gè)加速處理器跟CPU不是編程體系或者不是一個(gè)優(yōu)化體系,那么就要選另外一套優(yōu)化體系。張致江稱(chēng),如果你不是學(xué)計算機專(zhuān)業(yè)的,這相當于另外一個(gè),它是一個(gè)異構體系,你去優(yōu)化這個(gè)異構體系的性能,實(shí)際上還是非常吃力的,它甚至跟CPU完全不一樣。英特爾出了KNL、KNM這樣的東西,你在CPU上寫(xiě)的程序直接放上去就可以了,只要再學(xué)習一點(diǎn)點(diǎn)優(yōu)化方法效率就能很好,所以我覺(jué)得這個(gè)接受程度會(huì )更高。
但顯然,GPU是占了先機的,NVIDIA的方案是目前人工智能的主流。張致江坦言,人工智能剛剛興起也就是這幾年,剛剛興起之初業(yè)內很多人都是用GPU這個(gè)方案去做的,但是AI有自己的一些計算特點(diǎn),這時(shí)候我們就看了KNL和FPGA,我們做的KNL、FPGA不能說(shuō)是比它多好或者比它差,它是兩種不同應用領(lǐng)域的東西,有擅長(cháng)、有適合的地方,GPU有些地方走的時(shí)間比較早一點(diǎn),可能它的庫各方面會(huì )成熟一些。因為FPGA的原因,在編程方式各方面更加容易,會(huì )更加適合這樣一些特殊應用場(chǎng)景的需求。
英特爾技術(shù)專(zhuān)家認為,FPGA最初是用在通訊領(lǐng)域,在英特爾收購的Altera這家公司出的這一代產(chǎn)品,當時(shí)很多人普遍認為他們出的這一代東西不是很好,為什么不是很好呢?是因為在通訊領(lǐng)域另外一些發(fā)現會(huì )更好,但是后來(lái)我們做過(guò)研究發(fā)現A10這一代更加適合深度學(xué)習和大數據的應用場(chǎng)景,而且獲得了非常好的效果。
谷歌TPU秒殺CPU/GPU,CPU+FPGA能招架嗎?
英特爾用CPU+FPGA叫板GPU,但谷歌的TPU成了螳螂后面的黃雀。
近日,谷歌首次透露TPU細節,其執行谷歌常規機器學(xué)習工作負載的處理速度比GPU/CPU快15-30倍。這一消息表明隨著(zhù)人工智能的發(fā)展,以往的GPU/CPU架構已經(jīng)相對落后。
不過(guò)除了Google,英特爾通過(guò)不斷的收購也在進(jìn)行相關(guān)的研發(fā)。Khosrowshahi給出的答案:就是目前尚在開(kāi)發(fā)中的LakeCrest,這是英特爾今年會(huì )面向部分客戶(hù)提供離散加速器。但伴隨著(zhù)時(shí)間的推移,它將會(huì )成為Xeon處理器的最佳伴侶。
另外,軟件的優(yōu)化和整合也是英特爾、英偉達、谷歌搶占市場(chǎng)的關(guān)鍵。張致江稱(chēng),無(wú)論在前端還是后端,英特爾擅長(cháng)的其實(shí)是底層的計算架構、硬件這一塊,訊飛特別擅長(cháng)的在于軟件這一塊,包括有自己的算法、神經(jīng)網(wǎng)絡(luò )、數據結構模型、處理方式等等。
評論