千億美金市場(chǎng),人工智能芯片競賽正式開(kāi)啟
現在的深度學(xué)習系統依賴(lài)于軟件定義網(wǎng)絡(luò )和大數據學(xué)習產(chǎn)生的超大型運算能力,并靠此來(lái)實(shí)現目標。但很遺憾的是,這類(lèi)型的運算配置是很難嵌入到那些運算能力、存儲大小、和帶寬都有限制的系統中(例如汽車(chē)、無(wú)人機和物聯(lián)網(wǎng)設備)。
這就給業(yè)界提出了一個(gè)新的挑戰,如何通過(guò)創(chuàng )新,把深度神經(jīng)網(wǎng)絡(luò )的運算能力嵌入到終端設備中去。
Movidius公司的CEORemiEl-Ouazzane在幾個(gè)月前說(shuō)過(guò),將人工智能擺在網(wǎng)絡(luò )的邊緣將會(huì )是一個(gè)大趨勢。
RemiEl-Ouazzane
在問(wèn)到為什么人工智能會(huì )被“趕”到網(wǎng)絡(luò )邊緣的時(shí)候,CEAArchitectureFellowMarcDuranton給出了三個(gè)原因:分別是安全、隱私和經(jīng)濟。他認為這三點(diǎn)是驅動(dòng)業(yè)界在終端處理數據的重要因素。他指出,未來(lái)將會(huì )衍生更多“將數據轉化為信息”的需求。并且這些數據越早處理越好,他補充說(shuō)。
CEAArchitectureFellowMarcDuranton
攝像一下,假如你的無(wú)人駕駛汽車(chē)是安全的,那么這些無(wú)人駕駛功能就不需要長(cháng)時(shí)間依賴(lài)于聯(lián)盟處理;假設老人在家里跌倒了,那么這種情況當場(chǎng)就應該檢測到并判斷出來(lái)??紤]到隱私原因,這些是非常重要的,Duranton強調。
但這并不意味著(zhù)收集家里十個(gè)攝像頭的所有圖片,并傳送給我,就稱(chēng)作一個(gè)號的提醒。這也并不能降低“能耗、成本和數據大小”,Duranton補充說(shuō)。
競賽正式開(kāi)啟
從現在的情景看來(lái),芯片供應商已經(jīng)意識到推理機的增長(cháng)需求。包括Movidus(Myriad2),Mobileye(EyeQ4&5)和Nvidia(DrivePX)在內的眾多半導體公司正在角逐低功耗、高性能的硬件加速器。幫助開(kāi)發(fā)者更好的在嵌入式系統中執行“學(xué)習”。
從這些廠(chǎng)商的動(dòng)作和SoC的發(fā)展方向看來(lái),在后智能手機時(shí)代,推理機已經(jīng)逐漸成為半導體廠(chǎng)商追逐的下一個(gè)目標市場(chǎng)。
在今年早些時(shí)候,Google的TPU橫空出世,昭示著(zhù)業(yè)界意圖在機器學(xué)習芯片中推動(dòng)創(chuàng )新的的意圖。在發(fā)布這個(gè)芯片的時(shí)候,搜索巨人表示,TPU每瓦性能較之傳統的FPGA和GPU將會(huì )高一個(gè)數量級。Google還表示,這個(gè)加速器還被應用到了今年年初風(fēng)靡全球的AlphaGo系統里面。
但是從發(fā)布到現在,Google也從未披露過(guò)TPU的具體細節,更別說(shuō)把這個(gè)產(chǎn)品對外出售。
很多SoC從業(yè)者從谷歌的TPU中得出了一個(gè)結論,他們認為,機器學(xué)習需要定制化的架構。但在他們針對機器學(xué)習做芯片設計的時(shí)候,他們又會(huì )對芯片的架構感到懷疑和好奇。同時(shí)他們想知道業(yè)界是否已經(jīng)有了一種衡量不同形態(tài)下深度神經(jīng)網(wǎng)絡(luò )(DNN)性能的工具。
工具已經(jīng)到來(lái)
CEA聲稱(chēng),他們已經(jīng)為幫推理機探索不同的硬件架構做好了準備,他們已經(jīng)開(kāi)發(fā)出了一個(gè)叫做N2D2,的軟件架構。他們夠幫助設計者探索和聲稱(chēng)DNN架構?!拔覀冮_(kāi)發(fā)這個(gè)工具的目的是為了幫助DNN選擇適合的硬件”,Duranton說(shuō)。到2017年第一季度,這個(gè)N2D2會(huì )開(kāi)源。Duranton承諾。
N2D2的特點(diǎn)在于不僅僅是在識別精度的基礎上對比硬件,它還能從處理時(shí)間、硬件成本和能源損耗的多個(gè)方面執行對比。因為針對不同的深度學(xué)習應用,其所需求的硬件配置參數都是不一樣的,所以說(shuō)以上幾點(diǎn)才是最重要的,Duranton表示。
N2D2的工作原理
N2D2為現存的CPU、GPU和FPGA提供了一個(gè)參考標準。
邊緣計算的障礙
作為一個(gè)資深的研究組織,CEA已經(jīng)在如何把DNN完美的推廣到邊緣計算領(lǐng)域進(jìn)行了長(cháng)時(shí)間的深入研究。在問(wèn)到執行這種推進(jìn)的障礙時(shí),Duranton指出,由于功耗、尺寸和延遲的限制,這些“浮點(diǎn)”服務(wù)器方案不能應用。這就是最大的障礙。而其他的障礙包括了“大量的Mac、帶寬和芯片上存儲的尺寸”,Duranton補充說(shuō)。
那就是說(shuō)如何整合這種“浮點(diǎn)”方式,是最先應該被解決的問(wèn)題。
Duranton認為,一些新的架構是在所難免的,隨之而來(lái)的一些類(lèi)似“spikecode”的新coding也是必然的。
經(jīng)過(guò)CEA的研究指出,甚至二進(jìn)制編碼都不是必須的。他們認為類(lèi)似spikecoding這類(lèi)的時(shí)間編碼在邊緣能夠迸發(fā)出更強大的能量。
Spikecoding之所以受歡迎,是因為它能明確展示神經(jīng)系統內的數據解碼。往深里講,就是說(shuō)這些基于事件的的編碼能夠兼容專(zhuān)用的傳感器和預處理。
這種和神經(jīng)系統極度相似的編碼方式使得混合模擬和數字信號更容易實(shí)現,這也能夠幫助研究者打造低功耗的硬件加速器。
CEA也正在思考把神經(jīng)網(wǎng)絡(luò )架構調整到邊緣計算的潛在可能。Duranton指出,現在人們正在推動(dòng)使用‘SqueezeNet取替AlexNet。據報道,為達到同等精度,使用前者比后者少花50倍的參數。這類(lèi)的簡(jiǎn)單配置對于邊緣計算、拓撲學(xué)和降低Mac的數量來(lái)說(shuō),都是很重要的。
Duranton認為,從經(jīng)典的DNN轉向嵌入式網(wǎng)絡(luò )是一種自發(fā)的行為。
P-Neuro,一個(gè)臨時(shí)的芯片
CEA的野心是去開(kāi)發(fā)一個(gè)神經(jīng)形態(tài)的電路。研究機構認為,在深度學(xué)習中,這樣的一個(gè)芯片是推動(dòng)把數據提取放在傳感器端的一個(gè)有效補充。
但在達到這個(gè)目標之前,CEA相處了很多權宜之計。例如開(kāi)發(fā)出D2N2這樣的工具,幫助芯片開(kāi)發(fā)者開(kāi)發(fā)出高TOPS的DNN解決方案。
而對于那些想把DNN轉移到邊緣計算的玩家來(lái)說(shuō),他們也有相對應的硬件去實(shí)現。這就是CEA提供的低功耗可編程加速器——P-Neuro?,F行的P-Neuro芯片是基于FPGA開(kāi)發(fā)的。但Duranton表示,他們已經(jīng)把這個(gè)FPAG變成了一個(gè)ASIC。
和嵌入式CPU對比的P-Neurodemo
在CEA的實(shí)驗室,Duranton他們已經(jīng)在這個(gè)基于FPAG的P-Neuro搭建了一個(gè)面部識別的卷積神經(jīng)網(wǎng)絡(luò )(CNN)。這個(gè)基于P-Neuro的Demo和嵌入式CPU做了對比。(樹(shù)莓派、帶有三星Exynos處理器的安卓設備)。他們同樣都運行相同的CNN應用。他們都安排去從18000個(gè)圖片的數據庫中去執行“人臉特征提取”。
根據示例展示,P-Neuro的速度是6942張圖片每秒,而功耗也只是2776張圖每瓦。
P-Neuro和GPU、CPU的對比
如圖所示,和TegraK1相比,基于FPGA的P-Neuro在100Mhz工作頻率的時(shí)候,工作更快,且功耗更低。
P-Neuro是基于集群的SIMD架構打造,這個(gè)架構是以?xún)?yōu)化的分級存儲器體系和內部連接被大家熟知的。
P-Neuro的框圖
對于CEA的研究者來(lái)說(shuō),P-Neuro只是一個(gè)短期方案?,F行的P-Neuro是在一個(gè)CMOS設備上打造的,使用的是二進(jìn)制編碼。他們團隊正在打造一個(gè)全CMOS方案,并打算用spikecoding。
為了充分利用先進(jìn)設備的優(yōu)勢,并且打破密度和功率的問(wèn)題,他們團隊設立了一個(gè)更高的目標。他們考慮過(guò)把RRAM當做突觸元素,還考慮過(guò)FDSOI和納米線(xiàn)這樣的制程。
在一個(gè)“EUHorizon2020”的計劃里面,他們希望做出一個(gè)神經(jīng)形態(tài)架構的芯片,能夠支持最先進(jìn)的機器學(xué)習。同時(shí)還是一個(gè)基于spike的學(xué)習機制。
Neuromorphic處理器
這就是一個(gè)叫做NeuRAM3的項目。屆時(shí),他們的芯片會(huì )擁有超低功耗、尺寸和高度可配置的神經(jīng)架構。他們的目標是較之傳統方案,打造一個(gè)能將功耗降低50倍的產(chǎn)品。
Neuromorphic處理器
Neuromorphic處理器的基本參數
據介紹,這個(gè)方案包含了基于FD-SOI工藝的整體集成的3D技術(shù),另外還用到的RRAM來(lái)做突觸元素。在NeuRAM3項目之下,這個(gè)新型的混合信號多核神經(jīng)形態(tài)芯片設備較之IBM的TrueNorth,能明顯降低功耗。
與IBM的TrueNorth對比
而NeuRAM3項目的參與者包括了IMEC,IBMZurich,STMicroelectronics,CNR(TheNationalResearchCouncilinItaly),IMSE(ElInstitutodeMicroelectrónicadeSevillainSpain),蘇黎世大學(xué)和德國的雅各布大學(xué)。
更多AI芯片角逐
其實(shí)AI芯片這個(gè)市場(chǎng),已經(jīng)吸引了很多玩家,無(wú)論是傳統的半導體業(yè)者,還是所謂的初創(chuàng )企業(yè),都開(kāi)始投奔這個(gè)下一個(gè)金礦。除了上面說(shuō)的CEA這個(gè)。我們不妨來(lái)看一下市場(chǎng)上還有哪些AI芯片。
一、傳統廠(chǎng)商的跟進(jìn)
(1)Nvidia
英偉達是GPU霸主,雖然錯過(guò)了移動(dòng)時(shí)代,但他們似乎在A(yíng)I時(shí)代,重獲榮光,從其過(guò)去一年內的股票走勢,就可以看到市場(chǎng)對他們的信心。我們來(lái)看一下他有什么計劃,在這個(gè)領(lǐng)域。
在今年四月,Nvidia發(fā)布了一個(gè)先進(jìn)的機器學(xué)習芯片——TeslaP100GPU。按照英偉達CEO黃仁勛所說(shuō),這個(gè)產(chǎn)品較之英偉達的前代產(chǎn)品,任務(wù)處理速度提高了12倍。這個(gè)耗費了20億美元開(kāi)發(fā)的芯片上面集成了1500億個(gè)晶體管。據介紹,全新的NVIDIAPascal?架構讓TeslaP100能夠為HPC和超大規模工作負載提供超高的性能。憑借每秒超過(guò)20萬(wàn)億次的FP16浮點(diǎn)運算性能,經(jīng)過(guò)優(yōu)化的Pascal為深度學(xué)習應用程序帶來(lái)了令人興奮的新可能。
而通過(guò)加入采用HBM2的CoWoS(晶圓基底芯片)技術(shù),TeslaP100將計算和數據緊密集成在同一個(gè)程序包內,其內存性能是上一代解決方案的3倍以上。這讓數據密集型應用程序的問(wèn)題解決時(shí)間實(shí)現了跨時(shí)代的飛躍。
再者,因為搭載了NVIDIANVLink?技術(shù),TeslaP100的快速節點(diǎn)可以顯著(zhù)縮短為具備強擴展能力的應用程序提供解決方案的時(shí)間。采用NVLink技術(shù)的服務(wù)器節點(diǎn)可以5倍的PCIe帶寬互聯(lián)多達八個(gè)TeslaP100。這種設計旨在幫助解決擁有極大計算需求的HPC和深度學(xué)習領(lǐng)域的全球超級重大挑戰。
(2)Intel
在今年十一月。Intel公司發(fā)布了一個(gè)叫做Nervana的AI處理器,他們宣稱(chēng)會(huì )在明年年中測試這個(gè)原型。如果一切進(jìn)展順利,Nervana芯片的最終形態(tài)會(huì )在2017年底面世。這個(gè)芯片是基于Intel早前購買(mǎi)的一個(gè)叫做Nervana的公司。按照Intel的人所說(shuō),這家公司是地球上第一家專(zhuān)門(mén)為AI打造芯片的公司。
Intel公司披露了一些關(guān)于這個(gè)芯片的一些細節,按照他們所說(shuō),這個(gè)項目代碼為“LakeCrest”,將會(huì )用到NervanaEngine和NeonDNN相關(guān)軟件。。這款芯片可以加速各類(lèi)神經(jīng)網(wǎng)絡(luò ),例如谷歌TensorFlow框架。芯片由所謂的“處理集群”陣列構成,處理被稱(chēng)作“活動(dòng)點(diǎn)”的簡(jiǎn)化數學(xué)運算。相對于浮點(diǎn)運算,這種方法所需的數據量更少,因此帶來(lái)了10倍的性能提升。
LakeCrest利用私有的數據連接創(chuàng )造了規模更大、速度更快的集群,其拓撲結構為圓環(huán)形或其他形式。這幫助用戶(hù)創(chuàng )造更大、更多元化的神經(jīng)網(wǎng)絡(luò )模型。這一數據連接中包含12個(gè)100Gbps的雙向連接,其物理層基于28G的串并轉換。
這一2.5D芯片搭載了32GB的HBM2內存,內存帶寬為8Tbps。芯片中沒(méi)有緩存,完全通過(guò)軟件去管理片上存儲。
英特爾并未透露這款產(chǎn)品的未來(lái)路線(xiàn)圖,僅僅表示計劃發(fā)布一個(gè)名為KnightsCrest的版本。該版本將集成未來(lái)的至強處理器和Nervana加速處理器。預計這將會(huì )支持Nervana的集群。不過(guò)英特爾沒(méi)有透露,這兩大類(lèi)型的芯片將如何以及何時(shí)實(shí)現整合。
至于整合的版本將會(huì )有更強的性能,同時(shí)更易于編程。目前基于圖形處理芯片(GPU)的加速處理器使編程變得更復雜,因為開(kāi)發(fā)者要維護單獨的GPU和CPU內存。
據透露,到2020年,英特爾將推出芯片,使神經(jīng)網(wǎng)絡(luò )訓練的性能提高100倍。一名分析師表示,這一目標“極為激進(jìn)”。毫無(wú)疑問(wèn),英特爾將迅速把這一架構轉向更先進(jìn)的制造工藝,與已經(jīng)采用14納米或16納米FinFET工藝的GPU展開(kāi)競爭。
(3)IBM
百年巨人IBM,在很早以前就發(fā)布過(guò)wtson,現在他的人工智能機器早就投入了很多的研制和研發(fā)中去。而在去年,他也按捺不住,投入到類(lèi)人腦芯片的研發(fā),那就是TrueNorth。
TrueNorth是IBM參與DARPA的研究項目SyNapse的最新成果。SyNapse全稱(chēng)是SystemsofNeuromorphicAdaptivePlasticScalableElectronics(自適應可塑可伸縮電子神經(jīng)系統,而SyNapse正好是突觸的意思),其終極目標是開(kāi)發(fā)出打破馮?諾依曼體系的硬件。
這種芯片把數字處理器當作神經(jīng)元,把內存作為突觸,跟傳統馮諾依曼結構不一樣,它的內存、CPU和通信部件是完全集成在一起。因此信息的處理完全在本地進(jìn)行,而且由于本地處理的數據量并不大,傳統計算機內存與CPU之間的瓶頸不復存在了。同時(shí)神經(jīng)元之間可以方便快捷地相互溝通,只要接收到其他神經(jīng)元發(fā)過(guò)來(lái)的脈沖(動(dòng)作電位),這些神經(jīng)元就會(huì )同時(shí)做動(dòng)作。
2011年的時(shí)候,IBM首先推出了單核含256個(gè)神經(jīng)元,256×256個(gè)突觸和256個(gè)軸突的芯片原型。當時(shí)的原型已經(jīng)可以處理像玩Pong游戲這樣復雜的任務(wù)。不過(guò)相對來(lái)說(shuō)還是比較簡(jiǎn)單,從規模上來(lái)說(shuō),這樣的單核腦容量?jì)H相當于蟲(chóng)腦的水平。
不過(guò),經(jīng)過(guò)3年的努力,IBM終于在復雜性和使用性方面取得了突破。4096個(gè)內核,100萬(wàn)個(gè)“神經(jīng)元”、2.56億個(gè)“突觸”集成在直徑只有幾厘米的方寸(是2011年原型大小的1/16)之間,而且能耗只有不到70毫瓦,IBM的集成的確令人印象深刻。
這樣的芯片能夠做什么事情呢?IBM研究小組曾經(jīng)利用做過(guò)DARPA的NeoVision2Tower數據集做過(guò)演示。它能夠實(shí)時(shí)識別出用30幀每秒的正常速度拍攝自斯坦福大學(xué)胡佛塔的十字路口視頻中的人、自行車(chē)、公交車(chē)、卡車(chē)等,準確率達到了80%。相比之下,一臺筆記本編程完成同樣的任務(wù)用時(shí)要慢100倍,能耗卻是IBM芯片的1萬(wàn)倍。
跟傳統計算機用FLOPS(每秒浮點(diǎn)運算次數)衡量計算能力一樣,IBM使用SOP(每秒突觸運算數)來(lái)衡量這種計算機的能力和能效。其完成460億SOP所需的能耗僅為1瓦—正如文章開(kāi)頭所述,這樣的能力一臺超級計算機,但是一塊小小的助聽(tīng)器電池即可驅動(dòng)。
通信效率極高,從而大大降低能耗這是這款芯片最大的賣(mài)點(diǎn)。TrueNorth的每一內核均有256個(gè)神經(jīng)元,每一個(gè)神經(jīng)有分別都跟內外部的256個(gè)神經(jīng)元連接。
(4)Google
其實(shí)在Google上面,我是很糾結的,這究竟是個(gè)新興勢力,還是傳統公司。但考慮到Google已經(jīng)那么多年了,我就把他放在傳統里面吧。雖然傳統也是很新的。而谷歌的人工智能相關(guān)芯片就是TPU。也就是TensorProcessingUnit。
TPU是專(zhuān)門(mén)為機器學(xué)習應用而設計的專(zhuān)用芯片。通過(guò)降低芯片的計算精度,減少實(shí)現每個(gè)計算操作所需的晶體管數量,從而能讓芯片的每秒運行的操作個(gè)數更高,這樣經(jīng)過(guò)精細調優(yōu)的機器學(xué)習模型就能在芯片上運行的更快,進(jìn)而更快的讓用戶(hù)得到更智能的結果。Google將TPU加速器芯片嵌入電路板中,利用已有的硬盤(pán)PCI-E接口接入數據中心服務(wù)器中。
據Google資深副總UrsHolzle透露,當前GoogleTPU、GPU并用,這種情況仍會(huì )維持一段時(shí)間,但也語(yǔ)帶玄機表示,GPU過(guò)于通用,Google偏好專(zhuān)為機器學(xué)習設計的芯片。GPU可執行繪圖運算工作,用途多元;TPU屬于A(yíng)SIC,也就是專(zhuān)為特定用途設計的特殊規格邏輯IC,由于只執行單一工作,速度更快,但缺點(diǎn)是成本較高。至于CPU,Holzle表示,TPU不會(huì )取代CPU,研發(fā)TPU只是為了處理尚未解決的問(wèn)題。但是他也指出,希望芯片市場(chǎng)能有更多競爭。
如果AI算法改變了(從邏輯上講隨著(zhù)時(shí)間的推移算法應該會(huì )改變),你是不是想要一款可以重新編程的芯片,以適應這些改變?如果情況是這樣的,另一種芯片適合,它就是FPGA(現場(chǎng)可編程門(mén)陣列)。FPGA可以編程,和ASIC不同。微軟用一些FPGA芯片來(lái)增強必應搜索引擎的AI功能。我們很自然會(huì )問(wèn):為什么不使用FPGA呢?
谷歌的回答是:FPGA的計算效率比ASIC低得多,因為它可以編程。TPU擁有一個(gè)指令集,當TensorFlow程序改變時(shí),或者新的算法出現時(shí),它們可以在TPU上運行。
現在問(wèn)題的答案開(kāi)始浮現。在谷歌看來(lái),能耗是一個(gè)重要的考量標準,數據中心相當巨大,建設在世界各地,包括芬蘭和臺灣。能耗越高,運營(yíng)的成本就越高,隨著(zhù)時(shí)間的推移實(shí)際消耗的金錢(qián)會(huì )成倍增長(cháng)。谷歌工程師對比了FPGA和ASIC的效率,最終決定選擇ASIC。
問(wèn)題的第二部分與TPU的指令集有關(guān)。這是一套基本的命令,它以硬編碼形式存在于芯片中,能夠識別、執行;在芯片世界,指令集是計算機運行的基礎。
在開(kāi)發(fā)TPU指令集時(shí),它是專(zhuān)門(mén)用來(lái)運行TensorFlow的,TensorFlow是一個(gè)開(kāi)源軟件庫,針對的是AI應用的開(kāi)發(fā)。谷歌認為,如果AI有必要在底層進(jìn)行改變,極可能發(fā)生在軟件上,芯片應該具備彈性,以適應這種改變。
TPU架構的技術(shù)細節讓許多了解芯片的人驚奇。Anandtech的JoshuaHo有一個(gè)有趣的理論:TPU更加類(lèi)似于第三類(lèi)芯片,也就是所謂的數字信號處理器(DigitalSignalProcessor)。
(5)微軟
這是又一個(gè)由軟轉硬的代表,微軟蟄伏六年,打造出了一個(gè)迎接AI世代的芯片。那就是ProjectCatapult。
據介紹,這個(gè)FPGA目前已支持微軟Bing,未來(lái)它們將會(huì )驅動(dòng)基于深度神經(jīng)網(wǎng)絡(luò )——以人類(lèi)大腦結構為基礎建模的人工智能——的新搜索算法,在執行這個(gè)人工智能的幾個(gè)命令時(shí),速度比普通芯片快上幾個(gè)數量級。有了它,你的計算機屏幕只會(huì )空屏23毫秒而不是4秒。
在第三代原型中,芯片位于每個(gè)服務(wù)器的邊緣,直接插入到網(wǎng)絡(luò ),但仍舊創(chuàng )造任何機器都可接入的FPGA池。這開(kāi)始看起來(lái)是Office365可用的東西了。最終,ProjectCatapult準備好上線(xiàn)了。另外,Catapult硬件的成本只占了服務(wù)器中所有其他的配件總成本的30%,需要的運轉能量也只有不到10%,但其卻帶來(lái)了2倍原先的處理速度。
另外還有賽靈思、高通、中國寒武紀等一系列芯片投入到AI的研發(fā)。我們暫且按下。先看一下新興的AI芯片勢力。
二、新興勢力
(1)KnuEdge
KnuEdge實(shí)際上并不是一個(gè)初創(chuàng )公司,它由NASA的前任負責人創(chuàng )立,已經(jīng)在一個(gè)隱形模式下運營(yíng)了10年。KnuEdge最近從隱形的模式中走出,并讓全世界知道他們從一個(gè)匿名的投資人獲取1億美元的投資用來(lái)開(kāi)發(fā)一個(gè)新的“神經(jīng)元芯片”。
KUNPATH提供基于LambaFabric的芯片技術(shù),LambaFabric將會(huì )通過(guò)與現在市場(chǎng)上的GPUs、CPUs和FPGAs完全不同的架構進(jìn)行神經(jīng)網(wǎng)絡(luò )的計算。
LambdaFabric本質(zhì)上是為在高要求的運算環(huán)境下向上拓展至512000臺設備而設計,機架至機架延遲時(shí)間只有400毫微秒,低功耗的256核處理器。
KNUPATH技術(shù)以生物學(xué)原理為基礎,將會(huì )重新定義數據中心和消費設備市場(chǎng)中的芯片級/系統級計算。
對比其他相似的芯片,這個(gè)芯片技術(shù)應提供2倍到6倍的性能優(yōu)勢,并且公司已經(jīng)通過(guò)銷(xiāo)售他們的樣機系統獲得了收入。在“KnuEdge傘形結構”下,KnuEdge由3個(gè)單獨的公司組成,KnuPath提供他們的芯片,KnuVerse提供通過(guò)驗證的軍事級的語(yǔ)音識別和驗證技術(shù),Knurld.io是一個(gè)允許開(kāi)發(fā)者們去簡(jiǎn)單地融合語(yǔ)音驗證到他們的專(zhuān)利產(chǎn)品的公共云API服務(wù)(PubliccloudAPIservice)。KnuEdge宣稱(chēng),現在只需要對著(zhù)麥克風(fēng)說(shuō)幾個(gè)詞就可以做到驗證電腦、網(wǎng)絡(luò )、移動(dòng)應用和物聯(lián)網(wǎng)設備。以后再也不用記住密碼將會(huì )是一件多棒的事情?
(2)Nervana
這個(gè)公司已經(jīng)被英特爾收購了,但我覺(jué)得我還是有必要介紹一下這個(gè)公司。Nervana創(chuàng )立于2014年,位于圣地亞哥的初創(chuàng )公司NervanaSystems已經(jīng)從20家不同的投資機構那里獲得了2440萬(wàn)美元資金,而其中一家是十分受人尊敬的德豐杰風(fēng)險投資公司(DraperFisherJurvetson,DFJ)。
在·TheNervanaEngine(將于2017年問(wèn)世)是一個(gè)為深度學(xué)習專(zhuān)門(mén)定做和優(yōu)化的ASIC芯片。這個(gè)方案的實(shí)現得益于一項叫做HighBandwidthMemory的新型內存技術(shù),同時(shí)擁有高容量和高速度,提供32GB的片上儲存和8TB每秒的內存訪(fǎng)問(wèn)速度。該公司目前提供一個(gè)人工智能服務(wù)“inthecloud”,他們聲稱(chēng)這是世界上最快的且目前已被金融服務(wù)機構、醫療保健提供者和政府機構所使用的服務(wù),他們的新型芯片將會(huì )保證Nervana云平臺在未來(lái)的幾年內仍保持最快的速度。
(3)地平線(xiàn)機器人
由余凱創(chuàng )立于2015年的初創(chuàng )企業(yè)HorizonRobotics(地平線(xiàn)機器人)已經(jīng)從包括Sequoia和傳奇的風(fēng)險資本家YuriMilner等投資人獲得了未透露金額的種子基金。后來(lái)更是獲得了已經(jīng)獲得了晨興、高瓴、紅杉、金沙江、線(xiàn)性資本、創(chuàng )新工場(chǎng)和真格基金的聯(lián)合投資。他們正在著(zhù)手于建立一個(gè)一站式人工智能解決方案,定義“萬(wàn)物智能”,讓生活更便捷、更有趣、更安全。
地平線(xiàn)致力于打造基于深度神經(jīng)網(wǎng)絡(luò )的人工智能“大腦”平臺-包括軟件和芯片,可以做到低功耗、本地化的解決環(huán)境感知、人機交互、決策控制等問(wèn)題。
其中,軟件方面,地平線(xiàn)做了一套基于神經(jīng)網(wǎng)絡(luò )的OS,已經(jīng)研發(fā)出分別面向自動(dòng)駕駛的的“雨果”平臺和智能家居的“安徒生”平臺,并開(kāi)始逐步落地。硬件方面,未來(lái)地平線(xiàn)機器人還會(huì )為這個(gè)平臺設計一個(gè)芯片——NPU(NeuralProcessingUnit),支撐自家的OS,到那時(shí)效能會(huì )提升2-3個(gè)數量級(100-1000倍)。
安徒生平臺方面,今年3月上海的家博會(huì )上,地平線(xiàn)機器人展示了與家電大廠(chǎng)合作的智能家電,近期還會(huì )推出其他新品。雨果平臺方面,今年3月9日奇點(diǎn)汽車(chē)發(fā)布會(huì )上,地平線(xiàn)機器人首次展示了基于雨果平臺的ADAS(先機輔助駕駛系統)原型系統。據悉,世界某知名tier-1汽車(chē)零部件供應商的ADAS系統也確定將采用地平線(xiàn)研發(fā)的單目感知技術(shù)。
(4)krtkl
創(chuàng )立于2015年的krtkl致力于創(chuàng )造“一個(gè)微小的無(wú)線(xiàn)電腦用來(lái)創(chuàng )造一些完全不同的東西”。技術(shù)人將會(huì )迷戀Snickerdoodle,一個(gè)雙核ARM處理器、FPGA、WIFI、藍牙,起價(jià)于65美元,“以最小、最難做、最實(shí)惠賦能機器人、無(wú)人機和計算機視覺(jué)等的平臺”。這個(gè)產(chǎn)品事實(shí)上是通過(guò)眾籌獲得了超過(guò)16萬(wàn)美金的資金。最新的信息是說(shuō)他們已經(jīng)收到了Snickerdoodle初級版本,并且很快就會(huì )出貨。這款開(kāi)拓板是基于XilinxZynqSoC,集成了ARM處置器和可編程FPGA。用戶(hù)甚至可以經(jīng)過(guò)手機上的專(zhuān)用APP對其舉行編程,供230個(gè)用戶(hù)可用的I/O接口,應用靈巧兼容很多擴展板卡,其特征如次:
選擇Zynq7010SoCchip,集成雙核ARMCortex-A9@667Mhz處置器和430KLUT的FPGA資源(可晉級為Zynq7020@866Mhz1.3MLUT)
這款開(kāi)拓板的一大亮點(diǎn)是不僅支援傳統的MicroUSB程序燒寫(xiě),終端調試等效能,還支援手機終端操控,應用官方供的Apps,經(jīng)過(guò)Wi-Fi連接開(kāi)拓板,用戶(hù)可以下載程序,管腳把持,管腳復用以及體系把持能效能。
(5)Eyeriss
Eyeriss事實(shí)上還不是一個(gè)初創(chuàng )公司,但是因為它是由MIT開(kāi)發(fā)并且獲得了大量的媒體報道,所以我們不能從這個(gè)名單中排除它。Eyeriss是一個(gè)高效能的深度卷積神經(jīng)網(wǎng)絡(luò )(CNN)加速器硬件,架構圖如下:
MIT表示,該芯片內建168個(gè)核心,專(zhuān)門(mén)用來(lái)部署神經(jīng)網(wǎng)路(neuralnetwork),效能為一般行動(dòng)GPU的10倍,也因其效能高,不需透過(guò)網(wǎng)路處理資料,就能在行動(dòng)裝置上直接執行人工智慧演算法。其具有辨識人臉、語(yǔ)言的能力,可應用在智慧型手機、穿戴式裝置、機器人、自動(dòng)駕駛車(chē)與其他物聯(lián)網(wǎng)應用裝置上。
而MIT研究出的Eyeriss芯片之所以能大量提升效能,關(guān)鍵便在于最小化GPU核心和記憶體之間交換資料的頻率(此運作過(guò)程通常會(huì )消耗大量的時(shí)間與能量),且一般GPU內的核心通常共享單一記憶體,但Eyeriss的每個(gè)核心擁有屬于自己的記憶體。
此外,Eyeriss芯片還能在將資料傳送到每一個(gè)核心之前,先進(jìn)行資料壓縮,且每一個(gè)核心都能立即與鄰近的核心直接溝通,因此若需要共享資料,核心們不需要透過(guò)主要記憶體就能傳遞。
寫(xiě)在最后
由于小編見(jiàn)解有限,文章體現的不會(huì )是所有的AI芯片,有哪些被遺漏了或者錯過(guò)了,請大家留言補上。
評論