盤(pán)點(diǎn)2021年全球AI芯片,詳解“xPU”,請收下最新最全的知識點(diǎn)
前言
你一定聽(tīng)說(shuō)過(guò)CPU、GPU,但是TPU、VPU、NPU、XPU…等等其他字母開(kāi)頭的“xPU”呢?
本文引用地址:http://dyxdggzs.com/article/202203/432156.htmAI概念在幾年前火爆全球,科技巨頭們紛紛投入AI芯片的研發(fā),小公司也致力于提出概念靠AI浪潮融資,為了快速在A(yíng)I市場(chǎng)上立足,也為了讓市場(chǎng)和用戶(hù)能記住自家的產(chǎn)品,各家在芯片命名方面都下了點(diǎn)功夫,既要獨特,又要和公司產(chǎn)品契合,還要朗朗上口,也要容易讓人記住。前文所提到的“xPU”的命名方式就深受各大廠(chǎng)商的喜愛(ài)。

本文就從字母A到Z來(lái)盤(pán)點(diǎn)一下目前各種“xPU”命名AI芯片,以及芯片行業(yè)里的各種“xPU”縮寫(xiě),給大家漲漲知識。此外,除了“xPU”命名方式,本文也擴展了一些“xxP”方式的以Processor命名的芯片或IP。
1、APU
Accelerated Processing Unit
APU是AMD的一個(gè)處理器品牌,它第一次將中央處理器和獨顯核心做在一個(gè)晶片上,它同時(shí)具有高性能處理器和最新獨立顯卡的處理性能。AMD在一顆芯片上集成傳統CPU和圖形處理器GPU,這樣主板上將不再需要北橋,任務(wù)可以靈活地在CPU和GPU間分配。AMD將這種異構結構稱(chēng)為加速處理單元,即APU。
2021年8月,AMD即將發(fā)售新款APU:5600G和5700G。

Audio Processing Unit
聲音處理器,顧名思義,處理聲音數據的專(zhuān)用處理器。不多說(shuō),生產(chǎn)APU的芯片商有好多家。聲卡里都有。
2、BPU
Brain Processing Unit
地平線(xiàn)機器人(Horizon Robotics)以BPU來(lái)命名自家的AI芯片。地平線(xiàn)是一家成立于2015年的start-up,總部在北京,目標是“嵌入式人工智能全球領(lǐng)導者”。地平線(xiàn)的芯片未來(lái)會(huì )直接應用于自己的主要產(chǎn)品中,包括:智能駕駛、智能生活和智能城市。地平線(xiàn)機器人的公司名容易讓人誤解,以為是做“機器人”的,其實(shí)不然。地平線(xiàn)做的不是“機器”的部分,是在做“人”的部分,是在做人工智能的“大腦”,所以,其處理器命名為BPU。相比于國內外其他AI芯片start-up公司,地平線(xiàn)的第一代BPU走的相對保守的TSMC的40nm工藝。BPU已經(jīng)被地平線(xiàn)申請了注冊商標,其他公司就別打BPU的主意了。
Biological Processing Unit
一個(gè)口號“21 世紀是生物學(xué)的世紀”忽悠了無(wú)數的有志青年跳入了生物領(lǐng)域的大坑。其實(shí),這句話(huà)需要這么理解,生物學(xué)的進(jìn)展會(huì )推動(dòng)21世紀其他學(xué)科的發(fā)展。比如,對人腦神經(jīng)系統的研究成果就會(huì )推動(dòng)AI領(lǐng)域的發(fā)展,SNN結構就是對人腦神經(jīng)元的模擬。不管怎么說(shuō),隨著(zhù)時(shí)間的推移,坑總會(huì )被填平的。不知道生物處理器在什么時(shí)間會(huì )有質(zhì)的發(fā)展。
Bio-Recognition Processing Unit
生物特征識別現在已經(jīng)不是紙上談兵的事情了。指紋識別已經(jīng)是近來(lái)智能手機的標配,電影里的黑科技虹膜識別也上了手機,聲紋識別可以支付了…不過(guò),除了指紋識別有專(zhuān)門(mén)的ASIC芯片外,其他生物識別還基本都是sensor加通用cpu/dsp的方案。不管怎樣,這些芯片都沒(méi)占用BPU或BRPU這個(gè)寶貴位置。
3、CPU
Central Processing Unit
CPU就不多說(shuō)了,中央處理器。不會(huì )有AI公司將自己的芯片命名為CPU的。不過(guò),CPU與AI處理器并不沖突。
首先,很多公司的AI處理器中還是會(huì )使用CPU做控制調度。比如,wave computing用的是Andes的CPU core;Mobileye用了好幾個(gè)MIPS的CPU core;國內的某些AI芯片公司用的ARM的CPU core。
此外,在現有的移動(dòng)市場(chǎng)的AP中,在CPU之外,再集成一兩個(gè)AI加速器IP(例如針對視覺(jué)應用的DSP,見(jiàn)VPU部分)也是一種趨勢。2017 年,麒麟 970 第一次把 NPU 技術(shù)應用在手機里。今天我們看到的情況是所有的手機芯片都必須有 AI 處理芯片了,2020年麒麟9000的出現更是把AI移動(dòng)端處理器的性能再升一大截。
另外一種趨勢,做高性能計算CPU的公司也不甘錯過(guò)AI的浪潮。例如,
Adapteva。一家做多核MIMD結構處理器的公司。2016年tapeout的Epiphany V集成有1024個(gè)核。相對以前的版本,針對deep learning和加密增加了特定指令。
kalrayinc。一家做多核并行處理器的公司,有針對數據中心和自動(dòng)駕駛的解決方案。最近公布了第三代MPPA處理器“Coolidge”的計劃,并融資$26 Million。計劃采用16nm FinFET工藝,集成80-160個(gè)kalray 64-bit core,以及80-160個(gè)用于機器視覺(jué)處理和深度學(xué)習計算的協(xié)處理器。
4、DPU
作為Deep Learning的首字母,以D開(kāi)頭來(lái)命名AI芯片是一種很自然的思路。
Deep-Learning Processing Unit
深度學(xué)習處理器。DPU并不是哪家公司的專(zhuān)屬術(shù)語(yǔ)。在學(xué)術(shù)圈,Deep Learning Processing Unit(或processor)被經(jīng)常提及。例如ISSCC 2017新增的一個(gè)session的主題就是Deep Learning Processor。以DPU為目標的公司如下:
Deephi Tech(深鑒)。深鑒是一家位于北京的start-up,初創(chuàng )團隊有很深的清華背景。深鑒將其開(kāi)發(fā)的基于FPGA的神經(jīng)網(wǎng)絡(luò )處理器稱(chēng)為DPU。到目前為止,深鑒公開(kāi)發(fā)布了兩款DPU:亞里士多德架構和笛卡爾架構,分別針對CNN以及DNN/RNN。雖然深鑒號稱(chēng)是做基于FPGA的處理器開(kāi)發(fā),但是從公開(kāi)渠道可以看到的招聘信息以及非公開(kāi)的業(yè)內交流來(lái)看,其做芯片已成事實(shí)。
TensTorrent。一家位于Toronto的start-up,研發(fā)專(zhuān)為深度學(xué)習和智能硬件而設計的高性能處理器,技術(shù)人員來(lái)自NVDIA和AMD。
Deep Learning Unit
深度學(xué)習單元。Fujitsu(富士通)最近高調宣布了自家的AI芯片,命名為DLU。名字雖然沒(méi)什么創(chuàng )意,但是可以看到DLU已經(jīng)被富士通標了“TM”,雖然TM也沒(méi)啥用。在其公布的信息里可以看到,DLU的ISA是重新設計的,DLU的架構中包含眾多小的DPU(Deep Learning Processing Unit)和幾個(gè)大的master core(控制多個(gè)DPU和memory訪(fǎng)問(wèn))。每個(gè)DPU中又包含了16個(gè)DPE(Deep-Learning Processing Element),共128個(gè)執行單元來(lái)執行SIMD指令。富士通預計2018財年內推出DLU。
Deep Learning Accelerator
深度學(xué)習加速器。2019年,英偉達在 GitHub 上開(kāi)源了 NVDLA 編譯器的源代碼,這是世界上首個(gè)軟硬件推理平臺的完整開(kāi)源代碼,給業(yè)界帶來(lái)了不小的波瀾。下圖是NVDLA的架構示意。

Dataflow Processing Unit
數據流處理器。創(chuàng )立于2010年的wave computing公司將其開(kāi)發(fā)的深度學(xué)習加速處理器稱(chēng)為Dataflow Processing Unit(DPU),應用于數據中心。Wave的DPU內集成1024個(gè)cluster。每個(gè)Cluster對應一個(gè)獨立的全定制版圖,每個(gè)Cluster內包含8個(gè)算術(shù)單元和16個(gè)PE。其中,PE用異步邏輯設計實(shí)現,沒(méi)有時(shí)鐘信號,由數據流驅動(dòng),這就是其稱(chēng)為Dataflow Processor的緣由。使用TSMC 16nm FinFET工藝,DPU die面積大概400mm^2,內部單口sram至少24MB,功耗約為200W,等效頻率可達10GHz,性能可達181TOPS。
Data-storage Processing Unit
數據存儲處理器。深圳大普微電子開(kāi)發(fā)固態(tài)硬盤(pán)SSD主控芯片。SSD的主控也是一個(gè)很大的市場(chǎng),國內在這個(gè)方向上奮斗的公司不少。
Digital Signal Processor
數字信號處理器。芯片行業(yè)的人對DSP都不陌生,設計DSP的公司也很多,TI,Qualcomm,CEVA,Tensilica,ADI,Freescale等等,都是大公司,此處不多做介紹。相比于CPU,DSP通過(guò)增加指令并行度來(lái)提高數字計算的性能,如SIMD、VLIW、SuperScalar等技術(shù)。面對AI領(lǐng)域新的計算方式(例如CNN、DNN等)的挑戰,DSP公司也在馬不停蹄地改造自己的DSP,推出支持神經(jīng)網(wǎng)絡(luò )計算的芯片系列。在后面VPU的部分,會(huì )介紹一下針對Vision應用的DSP。和CPU一樣,DSP的技術(shù)很長(cháng)時(shí)間以來(lái)都掌握在外國公司手里,國內也不乏兢兢業(yè)業(yè)在這方向努力的科研院所,如清華大學(xué)微電子所的Lily DSP(VLIW架構,有獨立的編譯器),以及國防科大的YHFT-QDSP和矩陣2000。但是,也有臭名昭著(zhù)的“漢芯”。
5、EPU
Emotion Processing Unit
Emoshape 并不是這兩年才推出EPU的,號稱(chēng)是全球首款情緒合成(emotion synthesis)引擎,可以讓機器人具有情緒。但是,從官方渠道消息看,EPU本身并不復雜,也不需要做任務(wù)量巨大的神經(jīng)網(wǎng)絡(luò )計算,是基于MCU的芯片。結合應用API以及云端的增強學(xué)習算法,EPU可以讓機器能夠在情緒上了解它們所讀或所看的內容。結合自然語(yǔ)言生成(NLG)及WaveNet技術(shù),可以讓機器個(gè)性化的表達各種情緒。例如,一部能夠朗讀的Kindle,其語(yǔ)音將根據所讀的內容充滿(mǎn)不同的情緒狀態(tài)。
6、FPU
先說(shuō)一個(gè)最常用的FPU縮寫(xiě):Floating Point Unit。浮點(diǎn)單元,不多做解釋了?,F在高性能的CPU、DSP、GPU內都集成了FPU做浮點(diǎn)運算。
7、GPU
Graphics Processing Unit
圖形處理器。GPU原來(lái)最大的需求來(lái)自PC市場(chǎng)上各類(lèi)游戲對圖形處理的需求,隨著(zhù)AI的火熱,在深度學(xué)習并行訓練和推理上應用十分廣泛。但是隨著(zhù)移動(dòng)設備的升級,在移動(dòng)端也逐漸發(fā)展起來(lái)。
NVIDIA。說(shuō)起GPU,毫無(wú)疑問(wèn)現在的老大是NVIDIA。這家成立于1993年的芯片公司一直致力于設計各種GPU:針對個(gè)人和游戲玩家的GeForce系列,針對專(zhuān)業(yè)工作站的Quadro系列,以及針對服務(wù)器和高性能運算的Tesla系列。隨著(zhù)AI的發(fā)展,NVIDIA在A(yíng)I應用方面不斷發(fā)力,推出了針對自動(dòng)駕駛的DRIVE系列,以及專(zhuān)為AI打造的VOLTA架構。特別提一下VOLTA,今年5月份,NVIDIA發(fā)布的Tesla V100采用TSMC 12nm工藝,面積竟然815mm^2,號稱(chēng)相關(guān)研發(fā)費用高達30億美元。得益于在A(yíng)I領(lǐng)域的一家獨大,NVIFIA的股價(jià)在過(guò)去一年的時(shí)間里狂漲了300%。最后,也別忘了NVIDIA家還有集成了GeForce GPU的Tegra系列移動(dòng)處理器。
AMD。這幾年NVIDIA的火爆,都快讓大家忘了AMD的存在了。AMD是芯片行業(yè)中非常古老的一家芯片公司,成立于1969年,比NVIDIA要早很多年。AMD最出名的GPU品牌Radeon來(lái)自于其2006年以54億美元收購的ATI公司。AMD新出的MI系列GPU將目標對準AI。
在移動(dòng)端市場(chǎng),GPU被三家公司瓜分,但是也阻止不了新的競爭者殺入。
ARM家的Mali。Mali不是ARM的自創(chuàng )GPU品牌,來(lái)自于A(yíng)RM于2006年收購的Falanx公司。Falanx最初的GPU是面向PC市場(chǎng)的,但是根本就無(wú)法參與到NVIDIA和ATI的競爭中去,于是轉向移動(dòng)市場(chǎng);并且Falanx最初的GPU的名字也不是Mali,而是Maliak,為了好記,改為Mali,來(lái)自羅馬尼亞文,意思是small,而不是我們熟悉的吃蘑菇救公主的超級瑪麗(SuperMALI)。
Imagination的PowerVR。主要客戶(hù)是蘋(píng)果,所以主要精力都在支持蘋(píng)果,對其他客戶(hù)的支持不足。但是,蘋(píng)果突然宣布放棄PVR轉為自研,對Imagination打擊不小,股價(jià)大跌六成。Imagination現在正在尋求整體出售,土財快追,但是,美國未必批。
Qualcomm的Adreno。技術(shù)來(lái)自于A(yíng)MD收購ATI后出售的移動(dòng)GPU品牌Imageon。有意思的是,名字改自于A(yíng)TI的知名GPU品牌Radeon;
VeriSilicon的Vivante。Vivante(圖芯)是一家成立于2004年的以做嵌入式GPU為主的芯片公司,于2015年被VSI收購。Vivante的市場(chǎng)占有率較低。這里多加一段小八卦,Vivante的創(chuàng )始人叫戴偉進(jìn),VSI的創(chuàng )始人叫戴偉民,一句話(huà)對這次收購進(jìn)行總結就是,戴家老大收購了戴家老二。哦,對了,戴家還有一個(gè)三妹戴偉立,創(chuàng )立的公司名號更響亮:Marvell。
Samsung的。。。哦,三星沒(méi)有自己的GPU。2021年中旬,三星表示即將推出的三星Exynos旗艦處理器中的GPU將基于A(yíng)MD最新的RDNA2架構打造,這標志著(zhù)新GPU首次登陸移動(dòng)平臺。
再簡(jiǎn)單補充國內的兩家開(kāi)發(fā)GPU的公司:
上海兆芯。兆芯是VIA(威盛)分離出來(lái)的。兆芯于2016年針對移動(dòng)端出了一款GPU芯片ZX-2000,名字有點(diǎn)簡(jiǎn)單直接。主要技術(shù)來(lái)源于威盛授權,GPU核心技術(shù)來(lái)自收購的美國S3 Graphics。
長(cháng)沙景嘉微電子。于2014年推出一款GPU芯片JM5400。這是一家有國防科大背景的公司,與龍芯為合作伙伴,芯片主要應用在軍用飛機和神舟飛船上。
Graph Streaming Processor
圖形流處理器。這是ThinCI(取意think-eye)提出的縮寫(xiě)。ThinCI是一家致力于打造deep learning和computer vision芯片的start-up,由4名Intel前員工創(chuàng )立于2010年,總部在Sacramento,在印度也有研發(fā)人員。ThinCI的視覺(jué)芯片瞄準了自動(dòng)駕駛應用,投資方有世界頂級汽車(chē)零部件供應商公司日本電裝DENSO。在剛結束的hotchip會(huì )議上,ThinCI介紹了他們的GSP,使用了多種結構性技術(shù)來(lái)實(shí)現任務(wù)級、線(xiàn)程級、數據級和指令級的并行。GSP使用TSMC 28nm HPC+工藝,功耗預計2.5W。
8、HPU
Holographic Processing Unit
全息處理器。Microsoft專(zhuān)為自家Hololens應用開(kāi)發(fā)的。第一代HPU采用28nm HPC工藝,使用了24個(gè)Tensilica DSP并進(jìn)行了定制化擴展。HPU支持5路cameras、1路深度傳感器(Depth sensor)和1路動(dòng)作傳感器(Motion Sensor)。Microsoft 在最近的CVPR 2017上宣布了HPU2的一些信息。HPU2將搭載一顆支持DNN的協(xié)處理器,專(zhuān)門(mén)用于在本地運行各種深度學(xué)習。指的一提的是,HPU是一款為特定應用所打造的芯片,這個(gè)做產(chǎn)品的思路可以學(xué)習。據說(shuō)Microsoft評測過(guò)Movidius(見(jiàn)VPU部分)的芯片,但是覺(jué)得無(wú)法滿(mǎn)足算法對性能、功耗和延遲的要求,所有才有了HPU。
9、IPU
Intelligence Processing Unit
智能處理器。以IPU命名芯片的有兩家公司。
Graphcore。Graphcore公司的IPU是專(zhuān)門(mén)針對graph的計算而打造的。稍微說(shuō)說(shuō)Graph,Graphcore認為Graph是知識模型及相應算法的非常自然的表示,所以將Graph作為機器智能的基礎表示方法,既適用于神經(jīng)網(wǎng)絡(luò ),也適用于貝葉斯網(wǎng)絡(luò )和馬爾科夫場(chǎng),以及未來(lái)可能出現的新的模型和算法。Graphcore的IPU一直比較神秘,直到近期才有一些細節的信息發(fā)布。比如:16nm,同構多核(>1000)架構,同時(shí)支持training和inference,使用大量片上sram,性能優(yōu)于Volta GPU和TPU2,預計2017年底會(huì )有產(chǎn)品發(fā)布,等等。多八卦一點(diǎn),Graphcore的CEO和CTO以前創(chuàng )立的做無(wú)線(xiàn)通信芯片的公司Icera于2011年被Nvidia收購并于2015年關(guān)閉。關(guān)于IPU更細節的描述,可以看唐博士的微信公號的一篇文章,傳輸門(mén):解密又一個(gè)xPU:Graphcore的IPU。
Mythic。另外一家剛融了$9.3 million的start-up公司Mythic也提到了IPU:“Mythic’s intelligence processing unit (IPU) adds best-in-class intelligence to any device”。和現在流行的數字電路平臺方案相比,Mythic號稱(chēng)可以將功耗降到1/50。之所以這么有信心,是因為他們使用的“processing in memory”結構。
Image Cognition Processor
圖像認知處理器ICP,加拿大公司CogniVue開(kāi)發(fā)的用于視覺(jué)處理和圖像認知的IP。跑個(gè)題,CogniVue一開(kāi)始是Freescale的IP供應商,后來(lái)于2015年被Freescale收購以進(jìn)一步加強ADAS芯片的整合開(kāi)發(fā);隨后,Freescale又被NXP 118億美元拿下;還沒(méi)完,高通近400億美元吞并了NXP。 現在NXP家的ADAS SOC芯片S32V系列中,就用到了兩個(gè)ICP IP。

Image Processing Unit
圖像處理器。一些SOC芯片中將處理靜態(tài)圖像的模塊稱(chēng)為IPU。但是,IPU不是一個(gè)常用的縮寫(xiě),更常見(jiàn)的處理圖像信號的處理器的縮寫(xiě)為下面的ISP。
Image Signal Processor
圖像信號處理器。這個(gè)話(huà)題也不是一個(gè)小話(huà)題。ISP的功能,簡(jiǎn)單的來(lái)說(shuō)就是處理camera等攝像設備的輸出信號,實(shí)現降噪、Demosaicing、HDR、色彩管理等功能。以前是各種數碼相機、單反相機中的標配。Canon、Nikon、Sony等等,你能想到的出數碼相機的公司幾乎都有自己的ISP。進(jìn)入手機攝影時(shí)代,人們對攝影攝像的要求也越來(lái)越高,ISP必不可少。說(shuō)回AI領(lǐng)域,camera采集圖像數據,也要先經(jīng)過(guò)ISP進(jìn)行處理之后,再由視覺(jué)算法(運行在CPU、GPU或ASIC加速器上的)進(jìn)行分析、識別、分類(lèi)、追蹤等進(jìn)一步處理。也許,隨著(zhù)AI技術(shù)發(fā)展,ISP的一些操作會(huì )直接被end-2-end的視覺(jué)算法統一。
10、JPU
暫無(wú)
11、KPU
Knowledge Processing Unit
嘉楠耘智(canaan)號稱(chēng)2017年將發(fā)布自己的AI芯片KPU。嘉楠耘智要在KPU單一芯片中集成人工神經(jīng)網(wǎng)絡(luò )和高性能處理器,主要提供異構、實(shí)時(shí)、離線(xiàn)的人工智能應用服務(wù)。這又是一家向AI領(lǐng)域擴張的不差錢(qián)的礦機公司。作為一家做礦機芯片(自稱(chēng)是區塊鏈專(zhuān)用芯片)和礦機的公司,嘉楠耘智累計獲得近3億元融資,估值近33億人民幣。2020年,嘉楠耘智公司內部出了問(wèn)題,財報很難看。
另:Knowledge Processing Unit這個(gè)詞并不是嘉楠耘智第一個(gè)提出來(lái)的,早在10年前就已經(jīng)有論文和書(shū)籍講到這個(gè)詞匯了。只是,現在嘉楠耘智將KPU申請了注冊商標。
12、LPU
暫無(wú)
13、MPU
Micro Processing Unit
微處理器。MPU,CPU,MCU,這三個(gè)概念差不多,知道就行了。
題外話(huà):并不是所有的xPU都是處理器,比如有個(gè)MPU,是Memory Protection Unit的縮寫(xiě),是內存保護單元,是ARM核中配備的具有內存區域保護功能的模塊。
14、NPU
Neural-Network Processing Unit
與GPU類(lèi)似,神經(jīng)網(wǎng)絡(luò )處理器NPU已經(jīng)成為了一個(gè)通用名詞,而非某家公司的專(zhuān)用縮寫(xiě)。由于神經(jīng)網(wǎng)絡(luò )計算的類(lèi)型和計算量與傳統計算的區別,導致在進(jìn)行NN計算的時(shí)候,傳統CPU、DSP甚至GPU都有算力、性能、能效等方面的不足,所以激發(fā)了專(zhuān)為NN計算而設計NPU的需求。這里羅列幾個(gè)以NPU名義發(fā)布過(guò)產(chǎn)品的公司,以及幾個(gè)學(xué)術(shù)圈的神經(jīng)網(wǎng)絡(luò )加速器。
中星微電子(Vimicro)的星光智能一號。中星微于2016年搶先發(fā)布了“星光智能一號”NPU。但是,這不是一個(gè)專(zhuān)為加速Neural Network而開(kāi)發(fā)的處理器。業(yè)內都知道其內部集成了多個(gè)DSP核(其稱(chēng)為NPU core),通過(guò)SIMD指令的調度來(lái)實(shí)現對CNN、DNN的支持。以這個(gè)邏輯,似乎很多芯片都可以叫NPU,其他以DSP為計算核心的SOC芯片的命名和宣傳都相對保守了。

Kneron。這是一家位于San Diego的start-up公司,針對IOT應用領(lǐng)域做deep learning IP開(kāi)發(fā)。Kneron開(kāi)發(fā)的NPU實(shí)現了39層CNN,28nm下的功耗為0.3W,能效200GFLOPs/W。其主頁(yè)上給出的另一個(gè)能效數據是600GOPs/W。此外,Kneron同時(shí)也在FPGA開(kāi)發(fā)云端的硬件IP。據可靠消息,Kneron也要在中國大陸建立研發(fā)部門(mén)了,地點(diǎn)涉及北京、上海、深圳。

VeriSilicon(芯原)的VIP8000。VSI創(chuàng )立于2001年。VSI于今年5月以神經(jīng)網(wǎng)絡(luò )處理器IP的名義發(fā)布了這款代號VIP8000的IP。從其公布的消息“VeriSilicon’s Vivante VIP8000 Neural Network Processor IP Delivers Over 3 Tera MACs Per Second”來(lái)看,這款芯片使用的并不是其DSP core,而是內置了其2015年收購的Vivante的GPU core。按照VSI的說(shuō)法,VIP8000在16nm FinFET工藝下的計算力超過(guò)3 TMAC/s,能效高于1.5 GMAC/s/mW。

DNPU-Deep Neural-Network Processing Unit。DNPU來(lái)自于KAIST在ISSCC2017上發(fā)表的一篇文章。我把DNPU當做是NPU的一種別名,畢竟現在業(yè)內做的支持神經(jīng)網(wǎng)絡(luò )計算的芯片沒(méi)有只支持“非深度”神經(jīng)網(wǎng)絡(luò )的。關(guān)于DNPU可以參考“從ISSCC Deep Learning處理器論文到人臉識別產(chǎn)品”。
Eyeriss。MIT的神經(jīng)網(wǎng)絡(luò )項目,針對CNN的進(jìn)行高能效的計算加速設計。
Thinker。清華微電子所設計的一款可重構多模態(tài)神經(jīng)計算芯片,可以平衡CNN和RNN在計算和帶寬之間的資源沖突。
Neural/Neuromorphic Processing Unit
神經(jīng)/神經(jīng)形態(tài)處理器。這和上面的神經(jīng)網(wǎng)絡(luò )處理器還有所不同。而且,一般也不以“處理器”的名字出現,更多的時(shí)候被稱(chēng)為“神經(jīng)形態(tài)芯片(Neuromorphic Chip)”或者是“類(lèi)腦芯片(Brain-Inspired Chip)”。這類(lèi)AI芯片不是用CNN、DNN等網(wǎng)絡(luò )形式來(lái)做計算,而是以更類(lèi)似于腦神經(jīng)組成結構的SNN(Spiking Neural Network)的形式來(lái)進(jìn)行計算。隨便列幾個(gè),都不是“xPU”的命名方式。
Qualcomm的Zeroth。高通幾年前將Zeroth定義為一款NPU,配合以軟件,可以方便的實(shí)現SNN的計算。但是,NPU似乎不見(jiàn)了蹤影,現在只剩下了同名的機器學(xué)習引擎Zeroth SDK。
IBM的TrueNorth。IBM2014年公布的TrueNorth。在一顆芯片上集成了4096個(gè)并行的core,每個(gè)core包含了256個(gè)可編程的神經(jīng)元neurons,一共1百萬(wàn)個(gè)神經(jīng)元。每個(gè)神經(jīng)元有256個(gè)突觸synapses,共256 Mlillion。TrueNorth使用了三星的28nm的工藝,共5.4 billion個(gè)晶體管。
BrainChip的SNAP(Spiking Neuron Adaptive Processor )。已經(jīng)有了賭場(chǎng)的應用。
GeneralVision的CM1K、NM500 chip,以及NeuroMem IP。這家公司的CM1K芯片有1k個(gè)神經(jīng)元,每個(gè)神經(jīng)元對應256Byte存儲。雖然無(wú)法和強大的TrueNorth相提并論,但是已有客戶(hù)應用。并且,提供BrainCard,上面有FPGA,并且可以直接和Arduino以及Raspberry Pi連接。
Knowm。這家start-up在憶阻器(memristor)技術(shù)基礎上做“processing in memory”的AI芯片研發(fā)。不過(guò),與前面提到的Mythic(IPU部分)不同的是,Known做的是類(lèi)腦芯片。Knowm所用的關(guān)鍵技術(shù)是一種稱(chēng)為熱力學(xué)內存(kT-RAM)的memory,是根據AHaH理論(Anti-Hebbian and Hebbian)發(fā)展而來(lái)。
Koniku。成立于2014年的start-up,要利用生物神經(jīng)元來(lái)做計算,”Biological neurons on a chip”。
15、OPU
Optical-Flow Processing Unit。光流處理器。有需要用專(zhuān)門(mén)的芯片來(lái)實(shí)現光流算法嗎?
不知道,但是,用ASIC IP來(lái)做加速應該是要的。
16、PPU
Physical Processing Unit
物理處理器。要先解釋一下物理運算,就知道物理處理器是做什么的了。物理計算,就是模擬一個(gè)物體在真實(shí)世界中應該符合的物理定律。具體的說(shuō),可以使虛擬世界中的物體運動(dòng)符合真實(shí)世界的物理定律,可以使游戲中的物體行為更加真實(shí),例如布料模擬、毛發(fā)模擬、碰撞偵測、流體力學(xué)模擬等。開(kāi)發(fā)物理計算引擎的公司有那么幾家,使用CPU來(lái)完成物理計算,支持多種平臺。
Ageia應該是唯一一個(gè)使用專(zhuān)用芯片來(lái)加速物理計算的公司。Ageia于2006年發(fā)布了PPU芯片PhysX,還發(fā)布了基于PPU的物理加速卡,同時(shí)提供SDK給游戲開(kāi)發(fā)者。2008年被NVIDIA收購后,PhysX加速卡產(chǎn)品被逐漸取消,現在物理計算的加速功能由NVIDIA的GPU實(shí)現,PhysX SDK被NVIDIA重新打造。
17、QPU
Quantum Processing Unit
量子處理器。量子計算機也是近幾年比較火的研究方向。作者承認在這方面所知甚少??梢躁P(guān)注這家成立于1999年的公司D-Wave System。DWave大概每?jì)赡昕梢詫⑵銺PU上的量子位個(gè)數翻倍一次。
18、RPU
Resistive Processing Unit
阻抗處理單元RPU。這是IBM Watson Research Center的研究人員提出的概念,真的是個(gè)處理單元,而不是處理器。RPU可以同時(shí)實(shí)現存儲和計算。利用RPU陣列,IBM研究人員可以實(shí)現80TOPS/s/W的性能。
Ray-tracing Processing Unit
光線(xiàn)追蹤處理器。Ray tracing是計算機圖形學(xué)中的一種渲染算法,RPU是為加速其中的數據計算而開(kāi)發(fā)的加速器?,F在這些計算都是GPU的事情了。
19、SPU
Streaming Processing Unit
流處理器。流處理器的概念比較早了,是用于處理視頻數據流的單元,一開(kāi)始出現在顯卡芯片的結構里??梢哉f(shuō),GPU就是一種流處理器。甚至,還曾經(jīng)存在過(guò)一家名字為“Streaming Processor Inc”的公司,2004年創(chuàng )立,2009年,隨著(zhù)創(chuàng )始人兼董事長(cháng)被挖去NVIDIA當首席科學(xué)家,SPI關(guān)閉。
Speech-Recognition Processing Unit
語(yǔ)音識別處理器,SPU或SRPU。這個(gè)縮寫(xiě)還沒(méi)有公司拿來(lái)使用?,F在的語(yǔ)音識別和語(yǔ)義理解主要是在云端實(shí)現的,比如科大訊飛??拼笥嶏w最近推出了一個(gè)翻譯機,可以將語(yǔ)音傳回云端,做實(shí)時(shí)翻譯,內部硬件沒(méi)有去專(zhuān)門(mén)了解。和語(yǔ)音識別相關(guān)的芯片如下:
啟英泰倫(chipintelli)。于2015年11月在成都成立。該公司的CI1006是一款集成了神經(jīng)網(wǎng)絡(luò )加速硬件來(lái)做語(yǔ)音識別的芯片,可實(shí)現單芯片本地離線(xiàn)大詞匯量識別。
MIT項目。今年年初媒體爆過(guò)MIT的一款黑科技芯片,其實(shí)就是MIT在ISSCC2017上發(fā)表的paper里的芯片,也是可以實(shí)現單芯片離線(xiàn)識別上k個(gè)單詞??梢詤⒖奸喿x“分析一下MIT的智能語(yǔ)音識別芯片”。
云知聲(UniSound)。云知聲是一家專(zhuān)攻智能語(yǔ)音識別技術(shù)的公司,成立于2012年6月,總部在北京。云知聲獲得了3億人民幣戰略投資,其中一部分將用來(lái)研發(fā)其稍早公布的AI芯片計劃,命名“UniOne”。據官方透漏,UniOne將內置DNN處理單元,兼容多麥克風(fēng)、多操作系統。并且,芯片將以模組的形式提供給客戶(hù),讓客戶(hù)直接擁有一整套云端芯的服務(wù)。
20、TPU
Tensor Processing Unit
Google的張量處理器。TPU項目開(kāi)始于2014年。2016年AlphaGo打敗李世石,2017年AlphaGo打敗柯潔,兩次人工智能催化事件給芯片行業(yè)帶來(lái)的沖擊無(wú)疑就是TPU的出現和解密。
Google在2017年5月的開(kāi)發(fā)者I/O大會(huì )上正式公布了TPU2,又稱(chēng)Cloud TPU。相比于TPU v1,TPU v2既可以用于training,又可以用于inference。TPU v3是在TPU v2的基礎上做了進(jìn)一步的性能提升,可參考下圖。
具體可以看這篇知乎文章淺談Google TPU。

21、UPU
暫無(wú)
22、VPU
Vision Processing Unit
視覺(jué)處理器VPU也有希望成為通用名詞。作為現今最火熱的AI應用領(lǐng)域,計算機視覺(jué)的發(fā)展的確能給用戶(hù)帶來(lái)前所未有的體驗。為了處理計算機視覺(jué)應用中遇到的超大計算量,多家公司正在為此設計專(zhuān)門(mén)的VPU。
Movidius(已被Intel收購)。Movidius成立于2006年,總部位于硅谷的San Mateo,創(chuàng )始人是兩個(gè)愛(ài)爾蘭人,所以在愛(ài)爾蘭有分部。Movidius早期做的是將舊電影轉為3D電影的業(yè)務(wù),后期開(kāi)始研發(fā)應用于3D渲染的芯片,并開(kāi)始應用于計算機視覺(jué)應用領(lǐng)域(這說(shuō)明:1,芯片行業(yè)才是高技術(shù)含量、高門(mén)檻、高價(jià)值的行業(yè);2,初創(chuàng )公司要隨著(zhù)發(fā)展調整自己的戰略)。Movidius開(kāi)發(fā)的Myriad系列VPU專(zhuān)門(mén)為計算機視覺(jué)進(jìn)行優(yōu)化,可以用于 3D 掃描建模、室內導航、360°全景視頻等更前沿的計算機視覺(jué)用途。例如,2014年,谷歌的Project Tango項目用 Myriad 1幫助打造室內三維地圖;2016年,大疆的“精靈4”和“御”都采用了Movidius 的 Myriad 2芯片。采用TSMC 28nm工藝的Myriad2中集成了12個(gè)向量處理器SHAVE (Streaming Hybrid Architecture Vector Engine)。按照Movidius的說(shuō)法,SHAVE是一種混合型流處理器,集成了GPU、 DSP和RISC的優(yōu)點(diǎn),支持8/16/32 bit定點(diǎn)和16/32 bit浮點(diǎn)計算,而且硬件上支持稀疏數據結構。此外,Myriad2中有兩個(gè)RISC核以及video硬件加速器,可以同時(shí)處理多個(gè)視頻流。2017年8月28日,Movidius宣布推出新一代VPU:Myriad X。與上一代Myriad2比,Myriad X將集成DNN加速器:神經(jīng)計算引擎(Neural Compute Engine),支持浮點(diǎn)16bit和定點(diǎn)8bit。據稱(chēng),DNN推理吞吐量能達到1TOPS,而理論運算量能達到4+ TOPS。Myriad X有四個(gè)128位VLIW矢量處理器,支持最新的LPDDR4,并且支持4K硬件編碼,支持USB3.1和PCIe3.0。工藝上,使用TSMC 16nm。

Inuitive。一家以色列公司,提供3D圖像和視覺(jué)處理方案,用于A(yíng)R/VR、無(wú)人機等應用場(chǎng)景。Inuitive的下一代視覺(jué)處理器NU4000采用28nm工藝,選擇使用CEVA的XM4 DSP,并集成了深度學(xué)習處理器和深度處理引擎等硬件加速器。

DeepVision。一家總部位于Palo Alto的start-up,為嵌入式設備設計和開(kāi)發(fā)低功耗VPU,以支持深度學(xué)習、CNN以及傳統的視覺(jué)算法,同時(shí)提供實(shí)時(shí)處理軟件。
Visual Processing Unit
這里是visual,不是vision。ATI一開(kāi)始稱(chēng)自家顯卡上的芯片為VPU,后來(lái)見(jiàn)賢思齊,都改叫GPU了。
Video Processing Unit
視頻處理器。處理動(dòng)態(tài)視頻而不是圖像,例如進(jìn)行實(shí)時(shí)編解碼。
Vector Processing Unit
向量處理器。標量處理器、向量處理器、張量處理器,這是以處理器處理的數據類(lèi)型進(jìn)行的劃分?,F在的CPU已經(jīng)不再是單純的標量處理器,很多CPU都集成了向量指令,最典型的就是SIMD。向量處理器在超級計算機和高性能計算中,扮演著(zhù)重要角色?;谙蛄刻幚砥餮邪l(fā)AI領(lǐng)域的專(zhuān)用芯片,也是很多公司的選項。例如,前面剛提到Movidius的Myriad2中,就包含了12個(gè)向量處理器。
Vision DSP
針對AI中的計算機視覺(jué)應用,各家DSP公司都發(fā)布了DSP的Vision系列IP。簡(jiǎn)單羅列如下:
CEVA的XM4,最新的XM6 DSP。除了可以連接支持自家的硬件加速器HWA(CEVA Deep Neural Network Hardware Accelerator ),也可以支持第三方開(kāi)發(fā)的HWA。前面提到的Inuitive使用了XM4??梢詤⒖肌疤幚砥鱅P廠(chǎng)商的機器學(xué)習方案 – CEVA”。
Tensilica(2013年被Cadence以3.8億美元收購)的P5、P6,以及最新的C5 DSP。一個(gè)最大的特色就是可以用TIE語(yǔ)言來(lái)定制指令。前面微軟的HPU中使用他家的DSP??梢詤⒖肌吧窠?jīng)網(wǎng)絡(luò )DSP核的一桌麻將終于湊齊了”。
Synopsys的EV5x和EV6x系列DSP??梢詤⒖肌疤幚砥鱅P廠(chǎng)商的機器學(xué)習方案 – Synopsys”。
Videantis的v-MP4系列。Videantis成立于1997年,總部位于德國漢諾頓。v-MP4雖然能做很多機器視覺(jué)的任務(wù),但還是傳統DSP增強設計,并沒(méi)有針對神經(jīng)網(wǎng)絡(luò )做特殊設計。
23、WPU
Wearable Processing Unit
一家印度公司Ineda Systems在2014年大肆宣傳了一下他們針對IOT市場(chǎng)推出的WPU概念,獲得了高通和三星的注資。Ineda Systems研發(fā)的這款“Dhanush WPU”分為四個(gè)級別,可適應普通級別到高端級別的可穿戴設備的運算需求,可以讓可穿戴設備的電池達到30天的持續續航、減少10x倍的能耗。但是,一切似乎在2015年戛然而止,沒(méi)有了任何消息。只在主頁(yè)的最下端有文字顯示,Ineda將WPU申請了注冊商標。有關(guān)WPU的信息只有大概結構,哦,對了,還有一個(gè)美國專(zhuān)利。

Wisdom Processing Unit
智慧處理器。這個(gè)WPU聽(tīng)起來(lái)比較高大上,拿去用,不謝。不過(guò),有點(diǎn)“腦白金”的味道。
24、XPU
2017年,在加州Hot Chips大會(huì )上,百度發(fā)布了XPU,這是一款256核、基于FPGA的云計算加速芯片。百度自研了AI芯片“昆侖”,瞄準云計算和邊緣用例。該芯片采用三星的14nm制程,內存帶寬為512GBps,每秒可運行260Tops,功率為100瓦,是百度為云計算、邊緣計算和人工智能的設計的神經(jīng)處理器架構XPU,它支持處理自然語(yǔ)言的預訓練模型Ernie,相對傳統的GPU/FPGA模型,推理速度可以加快3倍。
百度在自研深度學(xué)習平臺Paddle(飛槳)上下了血本。目前Paddle Lite已支持百度XPU在x86和arm服務(wù)器(例如飛騰 FT-2000+/64)上進(jìn)行預測部署。詳情可查看Paddle Lite使用百度XPU預測部署。

25、YPU
暫無(wú)
26、ZPU
Zylin CPU
挪威公司Zylin的CPU的名字。為了在資源有限的FPGA上能擁有一個(gè)靈活的微處理器,Zylin開(kāi)發(fā)了ZPU。ZPU是一種stack machine(堆棧結構機器),指令沒(méi)有操作數,代碼量很小,并有GCC工具鏈支持,被稱(chēng)為“The worlds smallest 32 bit CPU with GCC toolchain”。Zylin在2008年將ZPU在opencores上開(kāi)源。有組織還將Arduino的開(kāi)發(fā)環(huán)境進(jìn)行了修改給ZPU用。
結束語(yǔ)
AI芯片廠(chǎng)商雖然推出了各式各樣的自家產(chǎn)品,但是大廠(chǎng)的資金實(shí)力和技術(shù)積淀還是更勝一籌,所謂的獨角獸也只是在融資上站穩腳跟,能否扭轉盈虧還是要靠實(shí)際的產(chǎn)品說(shuō)話(huà)。再過(guò)若干年,上述“xPU”還能存活多少都猶未可知。
評論