<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 智能計算 > 業(yè)界動(dòng)態(tài) > 清華AI芯片報告:人才技術(shù)趨勢都在這里

清華AI芯片報告:人才技術(shù)趨勢都在這里

作者: 時(shí)間:2018-11-26 來(lái)源:智東西 收藏

  2010 年以來(lái), 由于大數據產(chǎn)業(yè)的發(fā)展, 數據量呈現爆炸性增長(cháng)態(tài)勢,而傳統的計算架構又無(wú)法支撐深度學(xué)習的大規模并行計算需求, 于是研究界對 進(jìn)行了新一輪的技術(shù)研發(fā)與應用研究。 是人工智能時(shí)代的技術(shù)核心之一,決定了平臺的基礎架構和發(fā)展生態(tài)。

本文引用地址:http://dyxdggzs.com/article/201811/394833.htm

  本期的智能內參,我們推薦清華大學(xué)的報告《 人工智能研究報告》,全面講解人工智能芯片,系統梳理人工智能芯片的發(fā)展現狀及趨勢。如果想收藏本文的報告全文(人工智能芯片研究報告),可以在智東西公眾號:(zhidxcom)回復關(guān)鍵詞“nc303”獲取。

  以下為智能內參整理呈現的干貨:

  芯片基本知識及現狀

  從廣義上講只要能夠運行人工智能算法的芯片都叫作 AI 芯片。但是通常意義上的 AI 芯片指的是針對人工智能算法做了特殊加速設計的芯片, 現階段, 這些人工智能算法一般以深度學(xué)習算法為主,也可以包括其它機器學(xué)習算法。 人工智能與深度學(xué)習的關(guān)系如圖所示。

  

  ▲人工智能與深度學(xué)習

  深度學(xué)習算法,通常是基于接收到的連續數值, 通過(guò)學(xué)習處理, 并輸出連續數值的過(guò)程,實(shí)質(zhì)上并不能完全模仿生物大腦的運作機制。 基于這一現實(shí), 研究界還提出了SNN(Spiking Neural Network,脈沖神經(jīng)網(wǎng)絡(luò )) 模型。 作為第三代神經(jīng)網(wǎng)絡(luò )模型, SNN 更貼近生物神經(jīng)網(wǎng)絡(luò )——除了神經(jīng)元和突觸模型更貼近生物神經(jīng)元與突觸之外, SNN 還將時(shí)域信息引入了計算模型。目前基于 SNN 的 AI 芯片主要以 IBM 的 TrueNorth、 Intel 的 Loihi 以及國內的清華大學(xué)天機芯為代表。

  1、AI 芯片發(fā)展歷程

  從圖靈的論文《計算機器與智能》 和圖靈測試, 到最初級的神經(jīng)元模擬單元——感知機, 再到現在多達上百層的深度神經(jīng)網(wǎng)絡(luò ),人類(lèi)對人工智能的探索從來(lái)就沒(méi)有停止過(guò)。 上世紀八十年代,多層神經(jīng)網(wǎng)絡(luò )和反向傳播算法的出現給人工智能行業(yè)點(diǎn)燃了新的火花。反向傳播的主要創(chuàng )新在于能將信息輸出和目標輸出之間的誤差通過(guò)多層網(wǎng)絡(luò )往前一級迭代反饋,將最終的輸出收斂到某一個(gè)目標范圍之內。 1989 年貝爾實(shí)驗室成功利用反向傳播算法,在多層神經(jīng)網(wǎng)絡(luò )開(kāi)發(fā)了一個(gè)手寫(xiě)郵編識別器。 1998 年 Yann LeCun 和 Yoshua Bengio 發(fā)表了手寫(xiě)識別神經(jīng)網(wǎng)絡(luò )和反向傳播優(yōu)化相關(guān)的論文《Gradient-based learning applied to documentrecognition》,開(kāi)創(chuàng )了卷積神經(jīng)網(wǎng)絡(luò )的時(shí)代。

  此后, 人工智能陷入了長(cháng)時(shí)間的發(fā)展沉寂階段,直到 1997年 IBM的深藍戰勝?lài)H象棋大師和 2011年 IBM的沃森智能系統在 Jeopardy節目中勝出,人工智能才又一次為人們所關(guān)注。 2016 年 Alpha Go 擊敗韓國圍棋九段職業(yè)選手,則標志著(zhù)人工智能的又一波高潮。從基礎算法、 底層硬件、 工具框架到實(shí)際應用場(chǎng)景, 現階段的人工智能領(lǐng)域已經(jīng)全面開(kāi)花。

  作為人工智能核心的底層硬件 AI 芯片,也同樣經(jīng)歷了多次的起伏和波折,總體看來(lái),AI 芯片的發(fā)展前后經(jīng)歷了四次大的變化,其發(fā)展歷程如圖所示。

  

  ▲AI 芯片發(fā)展歷程

  (1) 2007 年以前, AI 芯片產(chǎn)業(yè)一直沒(méi)有發(fā)展成為成熟的產(chǎn)業(yè); 同時(shí)由于當時(shí)算法、數據量等因素, 這個(gè)階段 AI 芯片并沒(méi)有特別強烈的市場(chǎng)需求,通用的 CPU 芯片即可滿(mǎn)足應用需要。

  (2) 隨著(zhù)高清視頻、 VR、 AR游戲等行業(yè)的發(fā)展, GPU產(chǎn)品取得快速的突破; 同時(shí)人們發(fā)現 GPU 的并行計算特性恰好適應人工智能算法及大數據并行計算的需求,如 GPU 比之前傳統的 CPU在深度學(xué)習算法的運算上可以提高幾十倍的效率,因此開(kāi)始嘗試使用 GPU進(jìn)行人工智能計算。

  (3) 進(jìn)入 2010 年后,云計算廣泛推廣,人工智能的研究人員可以通過(guò)云計算借助大量 CPU 和 GPU 進(jìn)行混合運算,進(jìn)一步推進(jìn)了 AI 芯片的深入應用,從而催生了各類(lèi) AI 芯片的研發(fā)與應用。

  (4) 人工智能對于計算能力的要求不斷快速地提升,進(jìn)入 2015 年后, GPU 性能功耗比不高的特點(diǎn)使其在工作適用場(chǎng)合受到多種限制, 業(yè)界開(kāi)始研發(fā)針對人工智能的專(zhuān)用芯片,以期通過(guò)更好的硬件和芯片架構,在計算效率、能耗比等性能上得到進(jìn)一步提升。

  2、我國 AI 芯片發(fā)展情況

  目前,我國的人工智能芯片行業(yè)發(fā)展尚處于起步階段。 長(cháng)期以來(lái),中國在 CPU、 GPU、DSP 處理器設計上一直處于追趕地位,絕大部分芯片設計企業(yè)依靠國外的 IP 核設計芯片,在自主創(chuàng )新上受到了極大的限制。 然而,人工智能的興起,無(wú)疑為中國在處理器領(lǐng)域實(shí)現彎道超車(chē)提供了絕佳的機遇。 人工智能領(lǐng)域的應用目前還處于面向行業(yè)應用階段,生態(tài)上尚未形成壟斷,國產(chǎn)處理器廠(chǎng)商與國外競爭對手在人工智能這一全新賽場(chǎng)上處在同一起跑線(xiàn)上,因此, 基于新興技術(shù)和應用市場(chǎng),中國在建立人工智能生態(tài)圈方面將大有可為。

  由于我國特殊的環(huán)境和市場(chǎng),國內 AI 芯片的發(fā)展目前呈現出百花齊放、百家爭鳴的態(tài)勢, AI 芯片的應用領(lǐng)域也遍布股票交易、金融、商品推薦、安防、早教機器人以及無(wú)人駕駛等眾多領(lǐng)域,催生了大量的人工智能芯片創(chuàng )業(yè)公司,如地平線(xiàn)、深鑒科技、中科寒武紀等。

  盡管如此, 國內公司卻并未如國外大公司一樣形成市場(chǎng)規模, 反而出現各自為政的散裂發(fā)展現狀。除了新興創(chuàng )業(yè)公司,國內研究機構如北京大學(xué)、清華大學(xué)、中國科學(xué)院等在A(yíng)I 芯片領(lǐng)域都有深入研究;而其他公司如百度和比特大陸等, 2017 年也有一些成果發(fā)布??梢灶A見(jiàn),未來(lái)誰(shuí)先在人工智能領(lǐng)域掌握了生態(tài)系統,誰(shuí)就掌握住了這個(gè)產(chǎn)業(yè)的主動(dòng)權。

  3、AI學(xué)者概況

  基于來(lái)自清華大學(xué)AMiner人才庫數據,全球人工智能芯片領(lǐng)域學(xué)者分布如圖所示,從圖中可以看到, 人工智能芯片領(lǐng)域的學(xué)者主要分布在北美洲,其次是歐洲。 中國對人工智能芯片的研究緊跟其后,南美洲、非洲和大洋洲人才相對比較匱乏。

  

  ▲ 人工智能芯片領(lǐng)域研究學(xué)者全球分布


  按國家進(jìn)行統計來(lái)看美國是人工智能芯片領(lǐng)域科技發(fā)展的核心。 英國的人數緊排在美國之后。其他的專(zhuān)家主要分布在中國、 德國、 加拿大、意大利和日本。

  

  ▲人工智能芯片領(lǐng)域研究學(xué)者全球分布

  對全球人工智能芯片領(lǐng)域最具影響力的 1000 人的遷徙路徑進(jìn)行了統計分析,得出下圖所示的各國人才逆順差對比。

  

  ▲各國人才逆順差

  可以看出,各國人才的流失和引進(jìn)是相對比較均衡的,其中美國為人才流動(dòng)大國,人才輸入和輸出幅度都大幅度領(lǐng)先。英國、 中國、 德國和瑞士等國次于美國,但各國之間人才流動(dòng)相差并不明顯。

  AI 芯片的分類(lèi)及技術(shù)

  人工智能芯片目前有兩種發(fā)展路徑:一種是延續傳統計算架構,加速硬件計算能力,主要以 3 種類(lèi)型的芯片為代表,即 GPU、 FPGA、 ASIC,但 CPU依舊發(fā)揮著(zhù)不可替代的作用;另一種是顛覆經(jīng)典的馮·諾依曼計算架構,采用類(lèi)腦神經(jīng)結構來(lái)提升計算能力, 以 IBM TrueNorth 芯片為代表。

  1、傳統 CPU

  計算機工業(yè)從 1960 年代早期開(kāi)始使用 CPU 這個(gè)術(shù)語(yǔ)。迄今為止, CPU 從形態(tài)、設計到實(shí)現都已發(fā)生了巨大的變化,但是其基本工作原理卻一直沒(méi)有大的改變。 通常 CPU 由控制器和運算器這兩個(gè)主要部件組成。 傳統的 CPU 內部結構圖如圖 3 所示, 從圖中我們可以看到:實(shí)質(zhì)上僅單獨的 ALU 模塊(邏輯運算單元)是用來(lái)完成數據計算的,其他各個(gè)模塊的存在都是為了保證指令能夠一條接一條的有序執行。這種通用性結構對于傳統的編程計算模式非常適合,同時(shí)可以通過(guò)提升 CPU 主頻(提升單位時(shí)間內執行指令的條數)來(lái)提升計算速度。 但對于深度學(xué)習中的并不需要太多的程序指令、 卻需要海量數據運算的計算需求, 這種結構就顯得有些力不從心。尤其是在功耗限制下, 無(wú)法通過(guò)無(wú)限制的提升 CPU 和內存的工作頻率來(lái)加快指令執行速度, 這種情況導致 CPU 系統的發(fā)展遇到不可逾越的瓶頸。

  

  ▲傳統 CPU 內部結構圖(僅 ALU 為主要計算模塊)


  2、并行加速計算的 GPU

  GPU 作為最早從事并行加速計算的處理器,相比 CPU 速度快, 同時(shí)比其他加速器芯片編程靈活簡(jiǎn)單。

  傳統的 CPU 之所以不適合人工智能算法的執行,主要原因在于其計算指令遵循串行執行的方式,沒(méi)能發(fā)揮出芯片的全部潛力。與之不同的是, GPU 具有高并行結構,在處理圖形數據和復雜算法方面擁有比 CPU 更高的效率。對比 GPU 和 CPU 在結構上的差異, CPU大部分面積為控制器和寄存器,而 GPU 擁有更ALU(ARITHMETIC LOGIC UNIT,邏輯運算單元)用于數據處理,這樣的結構適合對密集型數據進(jìn)行并行處理, CPU 與 GPU 的結構對比如圖 所示。程序在 GPU系統上的運行速度相較于單核 CPU往往提升幾十倍乃至上千倍。隨著(zhù)英偉達、 AMD 等公司不斷推進(jìn)其對 GPU 大規模并行架構的支持,面向通用計算的 GPU(即GPGPU, GENERAL PURPOSE GPU,通用計算圖形處理器)已成為加速可并行應用程序的重要手段。

  

  ▲CPU 及 GPU 結構對比圖(引用自 NVIDIA CUDA 文檔)

  GPU 的發(fā)展歷程可分為 3 個(gè)階段, 發(fā)展歷程如圖所示:

  第 一 代 GPU(1999 年 以 前 ) , 部 分 功 能 從 CPU 分 離 , 實(shí) 現 硬 件 加 速 , 以GE(GEOMETRY ENGINE)為代表,只能起到 3D 圖像處理的加速作用,不具有軟件編程特性。

  第二代 GPU(1999-2005 年), 實(shí)現進(jìn)一步的硬件加速和有限的編程性。 1999 年,英偉達發(fā)布了“專(zhuān)為執行復雜的數學(xué)和幾何計算的” GeForce256 圖像處理芯片,將更多的晶體管用作執行單元, 而不是像 CPU 那樣用作復雜的控制單元和緩存,將 T&L(TRANSFORM AND LIGHTING)等功能從 CPU 分離出來(lái),實(shí)現了快速變換,這成為 GPU 真正出現的標志。之后幾年, GPU 技術(shù)快速發(fā)展,運算速度迅速超過(guò) CPU。 2001 年英偉達和 ATI 分別推出的GEFORCE3 和 RADEON 8500,圖形硬件的流水線(xiàn)被定義為流處理器,出現了頂點(diǎn)級可編程性,同時(shí)像素級也具有有限的編程性,但 GPU 的整體編程性仍然比較有限。

  第三代 GPU(2006年以后), GPU實(shí)現方便的編程環(huán)境創(chuàng )建, 可以直接編寫(xiě)程序。 2006年英偉達與 ATI分別推出了 CUDA(Compute United Device Architecture,計算統一設備架構)編程環(huán)境和 CTM(CLOSE TO THE METAL)編程環(huán)境, 使得 GPU 打破圖形語(yǔ)言的局限成為真正的并行數據處理超級加速器。

  2008 年,蘋(píng)果公司提出一個(gè)通用的并行計算編程平臺 OPENCL(OPEN COMPUTING LANGUAGE,開(kāi)放運算語(yǔ)言),與 CUDA 綁定在英偉達的顯卡上不同,OPENCL 和具體的計算設備無(wú)關(guān)。

  

  ▲GPU 芯片的發(fā)展階段

  目前, GPU 已經(jīng)發(fā)展到較為成熟的階段。谷歌、 FACEBOOK、微軟、 TWITTER 和百度等公司都在使用 GPU 分析圖片、視頻和音頻文件,以改進(jìn)搜索和圖像標簽等應用功能。此外,很多汽車(chē)生產(chǎn)商也在使用 GPU 芯片發(fā)展無(wú)人駕駛。 不僅如此, GPU 也被應用于VR/AR 相關(guān)的產(chǎn)業(yè)。

  但是 GPU也有一定的局限性。 深度學(xué)習算法分為訓練和推斷兩部分, GPU 平臺在算法訓練上非常高效。但在推斷中對于單項輸入進(jìn)行處理的時(shí)候,并行計算的優(yōu)勢不能完全發(fā)揮出來(lái)。

  3、半定制化的 FPGA

  FPGA 是在 PAL、 GAL、 CPLD 等可編程器件基礎上進(jìn)一步發(fā)展的產(chǎn)物。用戶(hù)可以通過(guò)燒入 FPGA 配置文件來(lái)定義這些門(mén)電路以及存儲器之間的連線(xiàn)。這種燒入不是一次性的,比如用戶(hù)可以把 FPGA 配置成一個(gè)微控制器 MCU,使用完畢后可以編輯配置文件把同一個(gè)FPGA 配置成一個(gè)音頻編解碼器。因此, 它既解決了定制電路靈活性的不足,又克服了原有可編程器件門(mén)電路數有限的缺點(diǎn)。

  FPGA 可同時(shí)進(jìn)行數據并行和任務(wù)并行計算,在處理特定應用時(shí)有更加明顯的效率提升。對于某個(gè)特定運算,通用 CPU 可能需要多個(gè)時(shí)鐘周期; 而 FPGA 可以通過(guò)編程重組電路,直接生成專(zhuān)用電路,僅消耗少量甚至一次時(shí)鐘周期就可完成運算。

  此外,由于 FPGA的靈活性,很多使用通用處理器或 ASIC難以實(shí)現的底層硬件控制操作技術(shù), 利用 FPGA 可以很方便的實(shí)現。這個(gè)特性為算法的功能實(shí)現和優(yōu)化留出了更大空間。同時(shí) FPGA 一次性成本(光刻掩模制作成本)遠低于 ASIC,在芯片需求還未成規模、深度學(xué)習算法暫未穩定, 需要不斷迭代改進(jìn)的情況下,利用 FPGA 芯片具備可重構的特性來(lái)實(shí)現半定制的人工智能芯片是最佳選擇之一。

  功耗方面,從體系結構而言, FPGA 也具有天生的優(yōu)勢。傳統的馮氏結構中,執行單元(如 CPU 核)執行任意指令,都需要有指令存儲器、譯碼器、各種指令的運算器及分支跳轉處理邏輯參與運行, 而 FPGA 每個(gè)邏輯單元的功能在重編程(即燒入)時(shí)就已經(jīng)確定,不需要指令,無(wú)需共享內存,從而可以極大的降低單位執行的功耗,提高整體的能耗比。

  由于 FPGA 具備靈活快速的特點(diǎn), 因此在眾多領(lǐng)域都有替代 ASIC 的趨勢。 FPGA 在人工智能領(lǐng)域的應用如圖所示。

  

  ▲FPGA 在人工智能領(lǐng)域的應用

  4、全定制化的 ASIC

  目前以深度學(xué)習為代表的人工智能計算需求,主要采用 GPU、 FPGA 等已有的適合并行計算的通用芯片來(lái)實(shí)現加速。在產(chǎn)業(yè)應用沒(méi)有大規模興起之時(shí),使用這類(lèi)已有的通用芯片可以避免專(zhuān)門(mén)研發(fā)定制芯片(ASIC) 的高投入和高風(fēng)險。但是,由于這類(lèi)通用芯片設計初衷并非專(zhuān)門(mén)針對深度學(xué)習,因而天然存在性能、 功耗等方面的局限性。隨著(zhù)人工智能應用規模的擴大,這類(lèi)問(wèn)題日益突顯。

  GPU 作為圖像處理器, 設計初衷是為了應對圖像處理中的大規模并行計算。因此,在應用于深度學(xué)習算法時(shí),有三個(gè)方面的局限性:第一,應用過(guò)程中無(wú)法充分發(fā)揮并行計算優(yōu)勢。 深度學(xué)習包含訓練和推斷兩個(gè)計算環(huán)節, GPU 在深度學(xué)習算法訓練上非常高效, 但對于單一輸入進(jìn)行推斷的場(chǎng)合, 并行度的優(yōu)勢不能完全發(fā)揮。 第二, 無(wú)法靈活配置硬件結構。 GPU 采用 SIMT 計算模式, 硬件結構相對固定。 目前深度學(xué)習算法還未完全穩定,若深度學(xué)習算法發(fā)生大的變化, GPU 無(wú)法像 FPGA 一樣可以靈活的配制硬件結構。 第三,運行深度學(xué)習算法能效低于 FPGA。

  盡管 FPGA 倍受看好,甚至新一代百度大腦也是基于 FPGA 平臺研發(fā),但其畢竟不是專(zhuān)門(mén)為了適用深度學(xué)習算法而研發(fā),實(shí)際應用中也存在諸多局限:第一,基本單元的計算能力有限。為了實(shí)現可重構特性, FPGA 內部有大量極細粒度的基本單元,但是每個(gè)單元的計算能力(主要依靠 LUT 查找表)都遠遠低于 CPU 和 GPU 中的 ALU 模塊; 第二、 計算資源占比相對較低。 為實(shí)現可重構特性, FPGA 內部大量資源被用于可配置的片上路由與連線(xiàn); 第三,速度和功耗相對專(zhuān)用定制芯片(ASIC)仍然存在不小差距; 第四, FPGA 價(jià)格較為昂貴,在規模放量的情況下單塊 FPGA 的成本要遠高于專(zhuān)用定制芯片。

  因此,隨著(zhù)人工智能算法和應用技術(shù)的日益發(fā)展,以及人工智能專(zhuān)用芯片 ASIC產(chǎn)業(yè)環(huán)境的逐漸成熟, 全定制化人工智能 ASIC也逐步體現出自身的優(yōu)勢,從事此類(lèi)芯片研發(fā)與應用的國內外比較有代表性的公司如圖所示。

  

  ▲人工智能專(zhuān)用芯片(包括類(lèi)腦芯片) 研發(fā)情況一覽

  深度學(xué)習算法穩定后, AI 芯片可采用 ASIC 設計方法進(jìn)行全定制, 使性能、功耗和面積等指標面向深度學(xué)習算法做到最優(yōu)。

  5、類(lèi)腦芯片

  類(lèi)腦芯片不采用經(jīng)典的馮·諾依曼架構, 而是基于神經(jīng)形態(tài)架構設計,以 IBM Truenorth為代表。 IBM 研究人員將存儲單元作為突觸、計算單元作為神經(jīng)元、傳輸單元作為軸突搭建了神經(jīng)芯片的原型。目前, Truenorth 用三星 28nm 功耗工藝技術(shù),由 54 億個(gè)晶體管組成的芯片構成的片上網(wǎng)絡(luò )有 4096 個(gè)神經(jīng)突觸核心,實(shí)時(shí)作業(yè)功耗僅為 70mW。由于神經(jīng)突觸要求權重可變且要有記憶功能, IBM 采用與 CMOS 工藝兼容的相變非揮發(fā)存儲器(PCM)的技術(shù)實(shí)驗性的實(shí)現了新型突觸,加快了商業(yè)化進(jìn)程。


  AI芯片產(chǎn)業(yè)及趨勢

  1、AI芯片應用領(lǐng)域

  隨著(zhù)人工智能芯片的持續發(fā)展,應用領(lǐng)域會(huì )隨時(shí)間推移而不斷向多維方向發(fā)展,這里我們選擇目前發(fā)展比較集中的幾個(gè)行業(yè)做相關(guān)的介紹。

  

  ▲AI芯片目前比較集中的應用領(lǐng)域

  (1)智能手機

  2017 年 9 月,華為在德國柏林消費電子展發(fā)布了麒麟 970 芯片,該芯片搭載了寒武紀的 NPU,成為“全球首款智能手機移動(dòng)端 AI 芯片” ; 2017 年 10 月中旬 Mate10 系列新品(該系列手機的處理器為麒麟 970)上市。搭載了 NPU 的華為 Mate10 系列智能手機具備了較強的深度學(xué)習、本地端推斷能力,讓各類(lèi)基于深度神經(jīng)網(wǎng)絡(luò )的攝影、圖像處理應用能夠為用戶(hù)提供更加完美的體驗。

  而蘋(píng)果發(fā)布以 iPhone X 為代表的手機及它們內置的 A11 Bionic 芯片。A11 Bionic 中自主研發(fā)的雙核架構 Neural Engine(神經(jīng)網(wǎng)絡(luò )處理引擎),它每秒處理相應神經(jīng)網(wǎng)絡(luò )計算需求的次數可達 6000 億次。這個(gè) Neural Engine 的出現,讓 A11 Bionic 成為一塊真正的 AI 芯片。 A11 Bionic 大大提升了 iPhone X 在拍照方面的使用體驗,并提供了一些富有創(chuàng )意的新用法。

  (2)ADAS(高級輔助駕駛系統)

  ADAS 是最吸引大眾眼球的人工智能應用之一, 它需要處理海量的由激光雷達、毫米波雷達、攝像頭等傳感器采集的實(shí)時(shí)數據。相對于傳統的車(chē)輛控制方法,智能控制方法主要體現在對控制對象模型的運用和綜合信息學(xué)習運用上,包括神經(jīng)網(wǎng)絡(luò )控制和深度學(xué)習方法等,得益于 AI 芯片的飛速發(fā)展, 這些算法已逐步在車(chē)輛控制中得到應用。

  (3)CV(計算機視覺(jué)(Computer Vision) 設備

  需要使用計算機視覺(jué)技術(shù)的設備,如智能攝像頭、無(wú)人機、 行車(chē)記錄儀、人臉識別迎賓機器人以及智能手寫(xiě)板等設備, 往往都具有本地端推斷的需要,如果僅能在聯(lián)網(wǎng)下工作,無(wú)疑將帶來(lái)糟糕的體驗。而計算機視覺(jué)技術(shù)目前看來(lái)將會(huì )成為人工智能應用的沃土之一,計算機視覺(jué)芯片將擁有廣闊的市場(chǎng)前景。

  (4) VR 設備

  VR 設備芯片的代表為 HPU 芯片, 是微軟為自身 VR 設備 Hololens 研發(fā)定制的。 這顆由臺積電代工的芯片能同時(shí)處理來(lái)自 5個(gè)攝像頭、 1個(gè)深度傳感器以及運動(dòng)傳感器的數據,并具備計算機視覺(jué)的矩陣運算和 CNN 運算的加速功能。這使得 VR 設備可重建高質(zhì)量的人像 3D 影像,并實(shí)時(shí)傳送到任何地方。

  (5)語(yǔ)音交互設備

  語(yǔ)音交互設備芯片方面,國內有啟英泰倫以及云知聲兩家公司,其提供的芯片方案均內置了為語(yǔ)音識別而優(yōu)化的深度神經(jīng)網(wǎng)絡(luò )加速方案,實(shí)現設備的語(yǔ)音離線(xiàn)識別。穩定的識別能力為語(yǔ)音技術(shù)的落地提供了可能; 與此同時(shí),語(yǔ)音交互的核心環(huán)節也取得重大突破。語(yǔ)音識別環(huán)節突破了單點(diǎn)能力,從遠場(chǎng)識別,到語(yǔ)音分析和語(yǔ)義理解有了重大突破,呈現出一種整體的交互方案。

  (6)機器人

  無(wú)論是家居機器人還是商用服務(wù)機器人均需要專(zhuān)用軟件+芯片的人工智能解決方案,這方面典型公司有由前百度深度學(xué)習實(shí)驗室負責人余凱創(chuàng )辦的地平線(xiàn)機器人,當然地平線(xiàn)機器人除此之外,還提供 ADAS、智能家居等其他嵌入式人工智能解決方案。

  2、AI芯片國內外代表性企業(yè)

  本篇將介紹目前人工智能芯片技術(shù)領(lǐng)域的國內外代表性企業(yè)。文中排名不分先后。人工智能芯片技術(shù)領(lǐng)域的國內代表性企業(yè)包括中科寒武紀、中星微、地平線(xiàn)機器人、深鑒科技、 靈汐科技、 啟英泰倫、百度、華為等,國外包括英偉達、 AMD、 Google、高通、Nervana Systems、 Movidius、 IBM、 ARM、 CEVA、 MIT/Eyeriss、蘋(píng)果、三星等。

  中科寒武紀。寒武紀科技成立于 2016 年,總部在北京,創(chuàng )始人是中科院計算所的陳天石、陳云霽兄弟,公司致力于打造各類(lèi)智能云服務(wù)器、智能終端以及智能機器人的核心處理器芯片。阿里巴巴創(chuàng )投、聯(lián)想創(chuàng )投、國科投資、中科圖靈、元禾原點(diǎn)、涌鏵投資聯(lián)合投資,為全球 AI芯片領(lǐng)域第一個(gè)獨角獸初創(chuàng )公司。

  寒武紀是全球第一個(gè)成功流片并擁有成熟產(chǎn)品的 AI 芯片公司,擁有終端 AI 處理器 IP和云端高性能 AI 芯片兩條產(chǎn)品線(xiàn)。 2016 年發(fā)布的寒武紀 1A 處理器(Cambricon-1A) 是世界首款商用深度學(xué)習專(zhuān)用處理器,面向智能手機、安防監控、無(wú)人機、可穿戴設備以及智能駕駛等各類(lèi)終端設備,在運行主流智能算法時(shí)性能功耗比全面超越傳統處理器。

  中星微。1999 年, 由多位來(lái)自硅谷的博士企業(yè)家在北京中關(guān)村科技園區創(chuàng )建了中星微電子有限公司, 啟動(dòng)并承擔了國家戰略項目——“星光中國芯工程”,致力于數字多媒體芯片的開(kāi)發(fā)、設計和產(chǎn)業(yè)化。

  2016 年初,中星微推出了全球首款集成了神經(jīng)網(wǎng)絡(luò )處理器(NPU)的 SVAC 視頻編解碼 SoC,使得智能分析結果可以與視頻數據同時(shí)編碼,形成結構化的視頻碼流。該技術(shù)被廣泛應用于視頻監控攝像頭,開(kāi)啟了安防監控智能化的新時(shí)代。自主設計的嵌入式神經(jīng)網(wǎng)絡(luò )處理器(NPU)采用了“數據驅動(dòng)并行計算” 架構,專(zhuān)門(mén)針對深度學(xué)習算法進(jìn)行了優(yōu)化,具備高性能、低功耗、高集成度、小尺寸等特點(diǎn),特別適合物聯(lián)網(wǎng)前端智能的需求。

  

  ▲集成了 NPU 的神經(jīng)網(wǎng)絡(luò )處理器 VC0616 的內部結構

  地平線(xiàn)機器人(Horizon Robotics)。地平線(xiàn)機器人成立于 2015 年,總部在北京,創(chuàng )始人是前百度深度學(xué)習研究院負責人余凱。BPU(BrainProcessing Unit) 是地平線(xiàn)機器人自主設計研發(fā)的高效人工智能處理器架構IP,支持 ARM/GPU/FPGA/ASIC 實(shí)現,專(zhuān)注于自動(dòng)駕駛、人臉圖像辨識等專(zhuān)用領(lǐng)域。 2017年,地平線(xiàn)發(fā)布基于高斯架構的嵌入式人工智能解決方案,將在智能駕駛、智能生活、公共安防三個(gè)領(lǐng)域進(jìn)行應用,第一代 BPU芯片“盤(pán)古” 目前已進(jìn)入流片階段,預計在 2018年下半年推出,能支持 1080P 的高清圖像輸入,每秒鐘處理 30 幀,檢測跟蹤數百個(gè)目標。地平線(xiàn)的第一代 BPU 采用 TSMC 的 40nm工藝,相對于傳統 CPU/GPU, 能效可以提升 2~3 個(gè)數量級(100~1,000 倍左右)。


上一頁(yè) 1 2 下一頁(yè)

關(guān)鍵詞: AI 芯片

評論


相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>