AI芯片之戰:TPU/GPU/FPGA誰(shuí)稱(chēng)雄?
智能時(shí)代就要到來(lái),芯片市場(chǎng)格局一變再變。兩個(gè)典型例子:引領(lǐng)處理器市場(chǎng) 40 多年的英特爾 2015 年底收購完 Altera,今年 4 月就宣布計劃裁員 1.2 萬(wàn);另一方面,GPU 巨頭英偉達今年 3 月推出加速人工智能和深度學(xué)習的芯片 Tesla P100,投入研發(fā)經(jīng)費超過(guò) 20 億美元,據《華爾街日報》報道,今年 5 月英偉達售出的 GPU 比去年同月增長(cháng) 62%,公司當前市值 240 億美元。
本文引用地址:http://dyxdggzs.com/article/201808/390001.htm深度學(xué)習應用大量涌現使超級計算機的架構逐漸向深度學(xué)習應用優(yōu)化,從傳統 CPU 為主 GPU 為輔的英特爾處理器變?yōu)?GPU 為主 CPU 為輔的結構。不過(guò),未來(lái)相當長(cháng)一段時(shí)間內,計算系統仍將保持 CPU + 協(xié)處理器的混合架構。但是,在協(xié)處理市場(chǎng),隨著(zhù)人工智能尤其是機器學(xué)習應用大量涌現,芯片廠(chǎng)商紛紛完善產(chǎn)品、推出新品,都想成為智能時(shí)代協(xié)處理器的領(lǐng)跑者——但問(wèn)題是,誰(shuí)會(huì )擔當這個(gè)角色呢?
TPU:始于谷歌,終于谷歌
要說(shuō)新的芯片,首先不得不提谷歌在剛剛結束的 I/O 大會(huì )上披露的 TPU。
有輿論稱(chēng),谷歌自己打造芯片,勢必對芯片制造商產(chǎn)生巨大影響。確實(shí),面向機器學(xué)習專(zhuān)用的處理器是芯片行業(yè)的發(fā)展趨勢,而且未來(lái)其他大公司也很有可能組建芯片團隊,設計自己專(zhuān)用的芯片。

谷歌TPU芯片
TPU 團隊主要負責人、計算機體系結構領(lǐng)域大牛 Norm Jouppi 介紹,TPU 專(zhuān)為谷歌 TensorFlow 等機器學(xué)習應用打造,能夠降低運算精度,在相同時(shí)間內處理更復雜、更強大的機器學(xué)習模型并將其更快投入使用。 Jouppi 表示,谷歌早在 2013 年就開(kāi)始秘密研發(fā) TPU,并且在一年前將其應用于谷歌的數據中心。TPU 從測試到量產(chǎn)只用了 22 天,其性能把人工智能技術(shù)往前推進(jìn)了差不多 7 年,相當于摩爾定律 3 代的時(shí)間。
有媒體評論稱(chēng) TPU 不僅為谷歌帶來(lái)了巨大的人工智能優(yōu)勢,也對市面上已有的芯片產(chǎn)品構成了威脅。
這后半句話(huà)值得商榷。GPU 巨頭、英偉達 CEO 黃仁勛日前告訴《華爾街日報》,兩年前谷歌就意識到 GPU 更適合訓練,而不善于做訓練后的分析決策。由此可知,谷歌打造 TPU 的動(dòng)機只是想要一款更適合做分析決策的芯片。這一點(diǎn)在谷歌的官方聲明里也得到了印證:TPU 只在特定機器學(xué)習應用中作輔助使用,公司將繼續使用其他廠(chǎng)商制造的 CPU 和 GPU。
谷歌云服務(wù)副總裁 Diane Greene 也表示,谷歌并沒(méi)有對外銷(xiāo)售 TPU 的打算——拋開(kāi) TPU 本來(lái)就是為了谷歌自己設計的這個(gè)事實(shí)以外,谷歌對外銷(xiāo)售芯片的可能性很低,就像 Facebook 主張全球提供免費互聯(lián)網(wǎng),也并不是自己要做運營(yíng)商。
因此,TPU 再好,也僅適用于谷歌,而且還是用于輔助 CPU 和 GPU。
TrueNorth 坐山觀(guān)虎斗?
第二個(gè)要說(shuō)的是 IBM TrueNorth。IBM 在 2014 年研發(fā)出脈沖神經(jīng)網(wǎng)絡(luò )芯片 TrueNorth,走的是“類(lèi)腦計算”的路線(xiàn)。類(lèi)腦計算的假設是,相似的結構可能會(huì )實(shí)現相似的功能,所以類(lèi)腦計算研究者使用神經(jīng)形態(tài)器件制造與人腦神經(jīng)網(wǎng)絡(luò )相似的電子神經(jīng)網(wǎng)絡(luò ),希望后者具有與人腦類(lèi)似的功能,并進(jìn)一步反過(guò)來(lái)理解人類(lèi)智能。

帶有IBM TrueNorth的DRAPA SyNAPSE
TrueNorth 一張郵票大小,有 54 億個(gè)晶體管,構成的神經(jīng)元陣列包含 100 萬(wàn)個(gè)數字神經(jīng)元,這些神經(jīng)元之間又通過(guò) 2.56 億個(gè)電突觸彼此通信。由于采用了異步架構,TrueNorth 的能耗很低,54 億個(gè)晶體管僅用 70 毫瓦;而且,只有在特定神經(jīng)元被開(kāi)啟并和其他神經(jīng)元通信時(shí)才會(huì )產(chǎn)生能耗。TrueNorth 設計師 Filipp Akopyan 表示,TrueNorth 的目標是 Edge-of-the-Net 和大數據解決方案,所以必須要能夠用超低功耗實(shí)時(shí)處理大量數據。
在此基礎上,2016年 4 月 IBM 推出了用于深度學(xué)習的類(lèi)腦超級計算平臺 IBM TrueNorth,含 16 個(gè) TrueNorth 芯片,處理能力相當于 1600 萬(wàn)個(gè)神經(jīng)元和 40 億個(gè)神經(jīng)鍵,消耗的能量只需 2.5 瓦。
將低能耗芯片用于深度學(xué)習無(wú)疑是一大重舉,美國 LLNL 數據科學(xué)副主任 Jim Brase 表示,類(lèi)腦計算與未來(lái)高性能計算和模擬發(fā)展趨勢一致。但是,新智元芯片群的幾位專(zhuān)家討論后一致認為,TrueNorth 雖然與人腦某些結構和機理較為接近,但智能算法的精度或效果有待進(jìn)一步提高,離大規模商業(yè)應用還有一段距離。
因此,未來(lái) 10 年芯片市場(chǎng)群雄逐鹿,TrueNorth 大概不會(huì )有亮相的機會(huì )。
寒武紀:中國的智能芯片
寒武紀是國際首個(gè)深度學(xué)習專(zhuān)用處理器芯片。2012 年,中科院計算所和法國 Inria 等機構共同提出了國際上首個(gè)人工神經(jīng)網(wǎng)絡(luò )硬件的基準測試集 benchNN。這項工作提升了人工神經(jīng)網(wǎng)絡(luò )處理速度,有效加速了通用計算,大大推動(dòng)了國際體系結構學(xué)術(shù)圈對神經(jīng)網(wǎng)絡(luò )的接納度。此后,中科院計算所和法國 Inria 的研究人員共同推出了一系列不同結構的 DianNao 神經(jīng)網(wǎng)絡(luò )硬件加速器結構。

寒武紀芯片板卡
2016 年 3 月,中科院計算所陳云霽、陳天石課題組、寒武紀公司提出的寒武紀深度學(xué)習處理器指令集 Cambricon 被計算機體系結構領(lǐng)域頂級國際會(huì )議 ISCA 2016 接收,在所有近 300 篇投稿中排名第一,在深度學(xué)習處理器指令集方面取得了開(kāi)創(chuàng )性進(jìn)展。指令集是計算機軟硬件生態(tài)體系的核心,英特爾和 ARM 正是通過(guò)其指令集控制了 PC 和嵌入式生態(tài)體系。
2016 年 4 月,寒武紀進(jìn)入產(chǎn)業(yè)化運營(yíng),陳天石也從中科院計算所的副研究員變成了北京中科寒武紀科技有限公司的 CEO。陳天石表示,寒武紀產(chǎn)業(yè)化運營(yíng)的主要方向將是高性能服務(wù)器芯片、高能效終端芯片和服務(wù)機器人芯片。
寒武紀芯片預計 2018 年左右上市,其表現如何,值得期待。
后起之秀概率芯片
2016 年 4月16 日,MIT Techonolgy Review 報道,DARPA 投資了一款叫做“S1”的概率芯片。模擬測試中,使用 S1 追蹤視頻里的移動(dòng)物體,每幀處理速度比傳統處理器快了近 100 倍,而能耗還不到傳統處理器的 2%。MIT 媒體實(shí)驗室教授、Twitter 首席媒體科學(xué)家 Deb Roy 評論稱(chēng),近似計算的潮流正在興起。

美國 Singular Computing 公司開(kāi)發(fā)的“S1”概率芯片(來(lái)源:MIT Techonolgy Review)
紐約州立大學(xué)石溪分校終身教授顧險峰從最基礎的數學(xué)層面分析了概率芯片的優(yōu)點(diǎn),專(zhuān)用概率芯片可以發(fā)揮概率算法簡(jiǎn)單并行的特點(diǎn),極大提高系統性能。概率芯片所使用的隨機行走概率方法有很多優(yōu)點(diǎn):算法邏輯異常簡(jiǎn)單,不需要復雜的數據結構,不需要數值代數計算;計算精度可以通過(guò)模擬不同數目的隨機行走自如控制;不同的隨機行走相互獨立,可以大規模并行模擬;模擬過(guò)程中,不需要全局信息,只需要網(wǎng)絡(luò )的局部信息。
顧險峰最后總結,隨著(zhù)英特爾重組,傳統 CPU 體系機構獨霸江山的時(shí)代將一去不復返,概率芯片和其他更多采用全新架構的專(zhuān)用處理器分庭抗禮的時(shí)代即將來(lái)臨。
早在 2008 年 MIT Techonolgy Review “十大科技突破”預測中,概率芯片就榜上有名。通過(guò)犧牲微小的計算精度換取能耗明顯降低,概率芯片在歷來(lái)追求精準的芯片領(lǐng)域獨樹(shù)一幟,但正因如此,再考慮到 DARPA 已經(jīng)投資 S1,概率芯片很可能后來(lái)居上。
實(shí)力股 FPGA
2012年,百度決定自主設計深度學(xué)習專(zhuān)有的體系結構和芯片,經(jīng)過(guò)深入研究和論證,為了讓項目快速落地及迭代,工程師最后決定使用 FPGA 實(shí)現百度第一版自主設計的深度學(xué)習專(zhuān)有芯片。
作為 GPU 在算法加速上強有力的競爭者,FPGA 硬件配置最靈活,單位能耗也通常比 GPU 低。更重要的是,FPGA 相比 GPU 價(jià)格便宜(雖然性?xún)r(jià)比不一定是最好的)。使用 FPGA 需要具體硬件的知識,對許多開(kāi)發(fā)者有一定難度,因此 FPGA 也常被視為一種行家專(zhuān)屬的架構。不過(guò),現在也出現了用軟件平臺編程 FPGA,弱化了軟硬件語(yǔ)言間的障礙,讓更多開(kāi)發(fā)者使用 FPGA 成為可能。
加州大學(xué)計算機博士劉少山認為,FPGA 具有低能耗、高性能以及可編程等特性,十分適合感知計算。在能源受限的情況下,FPGA 相對于 CPU 與 GPU 有明顯的性能與能耗優(yōu)勢。FPGA 低能耗的特點(diǎn)很適合用于傳感器的數據預處理工作。此外,感知算法不斷發(fā)展意味著(zhù)感知處理器需要不斷更新,FPGA 具有硬件可升級、可迭代的優(yōu)勢。劉少山預計,FPGA 與傳感器的緊密結合將會(huì )很快普及,而后隨著(zhù)視覺(jué)、語(yǔ)音、深度學(xué)習的算法在 FPGA 上的不斷優(yōu)化,FPGA 將逐漸取代 GPU 與 CPU 成為機器人上的主要芯片。
目前還沒(méi)有任何深度學(xué)習工具明確支持 FPGA,但顯然它是一支實(shí)力股。
GPU:未來(lái)市場(chǎng)霸主?
憑借強大的并行計算能力,在機器學(xué)習快速發(fā)展的推動(dòng)下,GPU 目前在深度學(xué)習芯片市場(chǎng)非常受歡迎,大有成為主流的趨勢?;ヂ?lián)網(wǎng)巨頭,比如谷歌、Facebook、微軟、Twitter 和百度等公司都在使用 GPU 分析圖片、視頻和音頻文件,改進(jìn)搜索和圖像標簽等應用功能。GPU 也被應用于 VR/AR 相關(guān)的產(chǎn)業(yè)。此外,很多汽車(chē)生產(chǎn)商也在使用 GPU 作為傳感器芯片發(fā)展無(wú)人車(chē)??梢哉f(shuō),GPU 是眼下智能產(chǎn)品市場(chǎng)用戶(hù)覆蓋率最廣泛的芯片。
研究公司 Tractica LLC 預計,到 2024 年深度學(xué)習項目在 GPU 上的花費將從 2015 年的 4360 萬(wàn)增長(cháng)到 41 億美元,在相關(guān)軟件上的花費將從 1.09 億增長(cháng)到 104 億。
但是,也有人認為通用芯片 GPU 相比深度學(xué)習專(zhuān)用芯片并不具有優(yōu)勢。
這有一定道理。然而,設計新的芯片需要很多年,研發(fā)成本可能高達幾千萬(wàn)甚至幾十億美元。而且,專(zhuān)用芯片比通用芯片更難編程。最重要的是,專(zhuān)用芯片——根據定義——只提升特定任務(wù)的性能表現,這也是為什么谷歌要制作 TPU 輔助 GPU 和 CPU。
英偉達工程架構副總裁 Marc Hamilton 表示,谷歌的 TPU 是一個(gè)非常有意思的技術(shù),但其發(fā)布進(jìn)一步印證了他們的觀(guān)點(diǎn),那就是人工智能處理器將繼續從通用的 CPU 轉向 GPU 和 TPU 等其他芯片。此外,GPU 技術(shù)也在不斷發(fā)展,從算法層面加速智能感知計算速度。
Hamilton 還提到了百度人工智能科學(xué)家 Bryan Catanzaro 的話(huà):深度學(xué)習并不是一個(gè)那么窄的領(lǐng)域,從計算角度看,深度學(xué)習是多樣化的而且演化迅速;要是制造一款適用于所有深度學(xué)習應用的專(zhuān)用芯片,本質(zhì)上也就成了 GPU 或 DSP。
當然,GPU 也有缺陷,比如不如 FPGA 靈活。同時(shí),GPU 也不乏競爭者:除了同樣具備并行計算能力的 AMD,Nervana、Movidius 等公司都在制作與 GPU 類(lèi)似的芯片,但側重于把數據更快轉移和分攤給圖像所需要的功能。
小結
除了采用其他架構,研究人員很早就開(kāi)始探索使用新材料制作芯片。2015 年,三星、Gobal Foundries、IBM 和紐約州立大學(xué)等機構組成的研究聯(lián)盟推出了一個(gè) 7 納米的微芯片,其晶體管大約一半都由硅鍺(SiGe)合金制成。石墨烯也是芯片研發(fā)一個(gè)重點(diǎn)。機器學(xué)習加速新材料發(fā)現,也意味著(zhù)使用新材料制作的芯片出現幾率大大提高。
總之,谷歌自己打造 TPU 預示著(zhù)未來(lái)更多非半導體公司或許也將開(kāi)始生產(chǎn)硬件;硬件制造商必須不斷改進(jìn)自己的產(chǎn)品,與 CPU 進(jìn)行更好的配合,并且貼近用戶(hù)越來(lái)越多樣化的需求。
評論