<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 嵌入式系統 > 業(yè)界動(dòng)態(tài) > 大數據重塑新芯片架構 AI處理器尋求突破

大數據重塑新芯片架構 AI處理器尋求突破

作者: 時(shí)間:2017-06-05 來(lái)源:eettaiwan 收藏

  業(yè)界共同的愿景是開(kāi)發(fā)一款人工智能(),它可為神經(jīng)網(wǎng)絡(luò )處理訓練與推理等任務(wù),甚至可能出現一些新的自我學(xué)習技術(shù);這種還必須能透過(guò)大規模的平行化方式提供強大的性能,同時(shí)具有高功效且易于編程...

本文引用地址:http://dyxdggzs.com/article/201706/360057.htm

  由亞馬遜(Amazon)、Google和Facebook等網(wǎng)絡(luò )巨擘所收集的大量數據集,正推動(dòng)處理這些巨量數據的新芯片復興。預計在六月底的年度計算機架構大會(huì )上將亮相其中兩項最新成果。

  史丹佛大學(xué)(StanfordUniversity)的研究人員將介紹一種可重配置——Plasticine,它可支持比FPGA更高近100倍的每瓦特性能,同時(shí)也更易于編程。此外,Nvidia的兩名資深設計人員定義了一款推理處理器,可提供較現有組件更高2倍性能與能源效率。

  這些芯片象征著(zhù)這項任務(wù)的冰山一角。過(guò)去一年來(lái),英特爾(Intel)收購了三家機器學(xué)習創(chuàng )業(yè)公司。而其競爭對手——三星(Samsung)則連手DellEMC投資英國公司Graphcore,這是該領(lǐng)域的六家獨立新創(chuàng )公司之一。

  Nvidia正致力于推動(dòng)其GPU作為神經(jīng)網(wǎng)絡(luò )訓練引擎的銷(xiāo)售。同時(shí),該公司也正調整其芯片架構,使其得以更有效地處理這些任務(wù)。

  Google則聲稱(chēng)其龐大的x86CPU叢集以及Nvidia的GPU均不足以勝任這項處理任務(wù)。因此,Google推出了自家的兩款加速器版本——Tensor處理器(TPU)。

  Graphcore執行長(cháng)NigelToon說(shuō):“如今正是“運算2.0”(Compute2.0)的時(shí)代,它象征著(zhù)一個(gè)全新的運算世界。Google最終將使用以TPU為基礎的機架結構,幾乎不使用任何CPU,因為它有98%的營(yíng)收都來(lái)自搜尋——這正是機器學(xué)習的理想應用。”

  最終,機器學(xué)習芯片將出現在廣泛的嵌入式系統中。以汽車(chē)每年賣(mài)出1,800萬(wàn)輛和服務(wù)器約1,000萬(wàn)套的年銷(xiāo)售量來(lái)看,Toon說(shuō):“自動(dòng)駕駛車(chē)應用可望為這項技術(shù)帶來(lái)一個(gè)比云端更大的市場(chǎng),而且是一個(gè)以往從未存在過(guò)的市場(chǎng)。”

  如今業(yè)界共同的愿景是開(kāi)發(fā)一款人工智能()處理器,它可為神經(jīng)網(wǎng)絡(luò )處理訓練與推理等任務(wù),甚至可能出現一些新的自我學(xué)習技術(shù)。這種AI處理器還必須能透過(guò)大規模的平行化方式提供強大的性能,同時(shí)具有高功效且易于編程。

  即使是這項開(kāi)發(fā)任務(wù)的基本數學(xué)也引發(fā)熱烈討論。Toon認為,16位浮點(diǎn)乘法與32位累加運算的組合,能夠帶來(lái)優(yōu)化精確度以及最小誤差。

  這正是NvidiaVolta架構導入的Tensor核心所使用的途徑,同時(shí)也是Graphcore將在今年10月出樣給早期合作伙伴的高階芯片。該新創(chuàng )公司正專(zhuān)注于開(kāi)發(fā)一款采用新內存與互連的大型芯片,該芯片并可外接至各種單元與叢集。

  后多核心時(shí)代的靈活性

  由KunleOlukotun帶領(lǐng)的史丹佛大學(xué)研究團隊也有類(lèi)似的目標,不過(guò),他們采取了一條與Plasticine不一樣的道路。

  Olukotun說(shuō):“多核心時(shí)代即將結束……我們正處于一個(gè)現代應用程序(app)改變運算模式的時(shí)代。”Olukotun曾經(jīng)協(xié)助一家新創(chuàng )公司率先打造出多核心設計,該技術(shù)最終成為Oracle基于Sparc處理器的一部份。

  “對于機器學(xué)習的統計模型,真正需要的運算方式與古典的確定性運算途徑截然不同,所以這將帶來(lái)一個(gè)真正的機會(huì )。”

  如同英國布里斯托的競爭對手Graphcore一樣,史丹佛大學(xué)研究團隊摒棄了共享一致的快取等傳統思維。史丹佛大學(xué)數據科學(xué)計劃執行總監StephenEglash認為,Plasticine“最令人興奮之處在于硬件可在運行時(shí)重新配置,為特定計算方式實(shí)現優(yōu)化。”

  Olukotun說(shuō):“我們的目標在于讓擁有專(zhuān)業(yè)知識的任何人都能建立可生產(chǎn)的機器學(xué)習系統,而不一定得由機器學(xué)習或硬件領(lǐng)域的專(zhuān)家來(lái)做。”

  為了實(shí)現這一目標,史丹佛大學(xué)定義了一種新的語(yǔ)言Spatial,可將算法的各部份映像至平行處理器的各部份。Olukotun說(shuō):“我們擁有完整的編譯程序流程,從高層級的TensorFlow架構到硬件呈現。..。..事實(shí)上,它具有比FPGA更高10倍每瓦特性能,也更易于編程100倍。”

  Spatial類(lèi)似于Nvidia的CudaGPU編程語(yǔ)言,但應該更易于使用。它能將諸如分散/收集或MapReduce等功能映像至硬件中的外顯內存階層架構,經(jīng)由DRAM和SRAM實(shí)現串流數據集。

  因此,Pasticine處理器“是一項軟件至上的計劃,”Olukotun說(shuō)。

  Eglash認為在物聯(lián)網(wǎng)的邊緣節點(diǎn)正需要這樣的技術(shù)。“我們所產(chǎn)生的數據將會(huì )比傳送至云端的更龐大,所以必須采用一些分布式的本地運算。”

  短期來(lái)看,機器學(xué)習將為智能型手機帶來(lái)“超級個(gè)性化”,針對用戶(hù)的喜好自動(dòng)量身打造。別再為密碼和指紋傷腦筋了。Eglash說(shuō):“你的手機可能在幾秒內就知道你是不是本尊。”

  在工業(yè)物聯(lián)網(wǎng)(IIoT),推理任務(wù)已經(jīng)被分配至網(wǎng)關(guān)了。GEDigital云端工程主管DarrenHaas說(shuō),“我們所打造的一切都可以被劃分成較小的裝置,甚至是RaspberryPi。..我們在云端建立了大規模的模型,并使其得以在邊緣執行于輕量級硬件上。”

  史丹佛大學(xué)的Plasticine架構

  史丹佛大學(xué)的Plasticine是一種全新的架構,可能是Graphcore等新創(chuàng )公司將會(huì )采用的技術(shù)。它充份利用了平行模式和高層級抽象,以擷取有關(guān)數據位置、內存存取模式和控制流程等細節,從而在“一系列的密集與稀疏應用上進(jìn)行操作”。

  在該芯片核心采用16×8的交錯式圖形運算單元(PCU)數組與圖形內存單元(PMU),透過(guò)3個(gè)互連信道利用3種控制協(xié)議進(jìn)行連接。這款尺寸為113mm2的芯片采用Spatial將應用映像至數組上;相較于采用類(lèi)似28nm制程打造的FPGA,該芯片可提供更高95倍的性能以及高達77倍的每瓦性能。

  Plasticine在1GHz頻率頻率下的功耗高達49W,支持12.3TFlops的峰值浮點(diǎn)運算性能,以及16MB的芯片容量。

  PCU是執行巢狀模式之可重配置SIMD功能單元的多級管線(xiàn)。PMU使用庫存的緩存器內存和專(zhuān)用尋址邏輯與地址譯碼器。

  這些主單元和其他周邊組件透過(guò)字級純量、多字符向量和位級控制互連進(jìn)行連接,且全部都采用相同的拓撲結構。各個(gè)連接都采用分布式的分層控制機制,以盡可能減少使用同步單元,從而實(shí)現序列、流水線(xiàn)或串流的執行。

  該途徑簡(jiǎn)化了編譯程序映像并可提高執行效率。“每個(gè)Plasticine組件均用于映像應用的特定部份:本地地址計算在PMU中完成,DRAM地址運算發(fā)生在DRAM地址管理單元,其余的數據運算則在PCU中進(jìn)行。”

  Olukotun解釋說(shuō):“本質(zhì)上,它是一組高度庫存的內存,支持專(zhuān)用地址單元產(chǎn)生附近的地址。只需執行計算,即可讓內存在正確的時(shí)間將數據串流至運算單元,而無(wú)需解譯指令。”

  該芯片采用四個(gè)DDR信道外接DRAM,并進(jìn)行緩沖和管理,以盡可能減少芯片外處理。

  Olukotun說(shuō):“許多機器學(xué)習都專(zhuān)注于建置卷積神經(jīng)網(wǎng)絡(luò )(CNN),但我們的目標是打造更靈活且涵蓋稀不斷變化中的疏密集算法,讓開(kāi)發(fā)人員可以將其設計想法傳達給硬件。”

  研究人員采用周期精確仿真來(lái)合成設計的RTL,為線(xiàn)性代數、機器學(xué)習、數據分析與圖形分析等任務(wù)產(chǎn)生基準。他說(shuō):“我們希望這些設計概念能直接用于芯片上,并計劃在6到18個(gè)月內進(jìn)行芯片設計。”

  Nvidia研究人員打造稀疏推理引擎

  另一組由9名研究人員組成的研究團隊(其中有7人來(lái)自Nvidia)將介紹稀疏卷積神經(jīng)網(wǎng)絡(luò )(SCNN)推理加速器。該研究團隊包括資深的微處理器設計人員JoelEmer(曾協(xié)助定義同步多線(xiàn)程),以及Nvdia首席科學(xué)家WilliamDally。

  相較于同級配置的密集CNN加速器,SCNN可提供更高2.7倍的性能和2.3倍的能源效率。該芯片采取較以往的研究更先進(jìn)的途徑,可消除無(wú)關(guān)緊要的數學(xué)運算,并專(zhuān)注于以最高效的方法處理CNN權重與啟動(dòng)。

  此外,它采用了一種新的數據流,可在壓縮編碼過(guò)程中保持稀疏權重與啟動(dòng),從而避免不必要的數據傳輸以及減少儲存的需求。此外,“SCNN數據流有助于將這些權重與啟動(dòng)有效地傳遞到乘法器數組,并在此廣泛重復使用。”

  該途徑可讓“較大CNN的所有操作量保留在各層間的芯片緩沖區,完全不必使用大規模網(wǎng)絡(luò )所需的高成本跨層DRAM參考資源。”

  該芯片的處理元素(PE)采用支持權重和啟動(dòng)向量的乘法器數組。該芯片采用16nm制程技術(shù),將64個(gè)PE與16個(gè)乘法器封裝于7.4mm2模塊中,使其尺寸略大于類(lèi)似的密集CNN加速器。

  該論文并比較了SCNN與其他研究中的芯片。然而,Dally猜測這款芯片“比商用推理加速器的效率更高,因為它利用的是稀疏設計途徑。”

  如同Plasticine一樣,目前的研究成果是以仿真為基礎,尚未制造芯片。Dally說(shuō):“我們正為這款設計進(jìn)行布局以及時(shí)序收斂。”

  Nvidia尚未宣布商用化SCNN技術(shù)的任何計劃,但在研究論中指出,“我們正持續在這個(gè)領(lǐng)域的研發(fā)工作。”



關(guān)鍵詞: AI 處理器

評論


相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>