<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 自主造芯新突破:256TOPS算力刷新國產(chǎn)性能榜,功耗低至35W,首個(gè)存算一體智駕芯片兩年交卷

自主造芯新突破:256TOPS算力刷新國產(chǎn)性能榜,功耗低至35W,首個(gè)存算一體智駕芯片兩年交卷

發(fā)布人:傳感器技術(shù) 時(shí)間:2023-05-13 來(lái)源:工程師 發(fā)布文章
金磊 發(fā)自  量子位

中國芯片,再添一股新勢力——

國內首款存算一體智駕芯片,正式發(fā)布!

圖片

這款12nm芯片名叫鴻途?H30,從性能表現上來(lái)看,在功耗僅為35W的情況下,最高物理算力可達256TOPS。

概括來(lái)說(shuō),就是芯片性能提升了2倍以上,但功耗卻減少了超50%。

這一點(diǎn),以Resnet50性能功耗為例,與國際芯片巨頭英偉達主流產(chǎn)品做對比即可一目了然。

圖片

不過(guò)有一說(shuō)一,除了“國內首款存算一體智駕芯片”之外,圍繞鴻途?H30所體現的“業(yè)界第一”還不僅于此。

它的問(wèn)世也成為了存算一體大算力芯片在國內的首次工程化落地。

而打造鴻途?H30背后的公司后摩智能(下文簡(jiǎn)稱(chēng)后摩),其自身也擁有著(zhù)一個(gè)“業(yè)界第一”的標簽——

國內首家存算一體大算力AI芯片公司。

更重要的是,以上種種的成績(jì),后摩是從自2020年底成立至今,僅僅花費2年多的時(shí)間“解鎖”。

如此速度和效能之下,也令活動(dòng)現場(chǎng)掌聲不斷。

不只是一顆芯片這么簡(jiǎn)單

我們進(jìn)一步再來(lái)深入了解一下這款存算一體架構芯片。

許多了解芯片的小伙伴在看到“256TOPS”時(shí),就會(huì )產(chǎn)生疑問(wèn):市面上不是已經(jīng)有很多能夠達到這個(gè)算力值的芯片了嗎?

我們需要注意的是,鴻途?H30亮出來(lái)的是物理算力,并非是市面上常說(shuō)的稀疏虛擬算力。

這也就意味著(zhù)它一舉成為了國產(chǎn)智駕芯片里物理算力最大的那一個(gè)。

更難能可貴的是,在拿下最大算力的同時(shí),功耗正如我們剛才提到的,僅為35W。

如此看下來(lái),芯片的能效比便是幾倍于同類(lèi)的產(chǎn)品了。

圖片

除此之外,在活動(dòng)現場(chǎng),后摩對鴻途?H30更多的細節參數做了展示:

  • 12nm工藝

  • 支持外擴Memory,寬帶達128GB/s

  • 支持16路FHD Encoder/Decoder

  • 支持PCIe 4.0,x8,x4,x2,RC&EP mode

  • ……


性能指標方面,鴻途?H30與英偉達產(chǎn)品相比,在Resnet50 Batch=1和Batch=8上,分別達到了5.7倍和2.3倍。

圖片

計算效率方面,鴻途?H30更是拿下了11.3倍和4.6倍的成績(jì)!

圖片

那么具備如此高性能存算IP,如何能將其利用到位,便涉及到AI處理器架構和設計的問(wèn)題了。

而在活動(dòng)現場(chǎng),后摩也是將其背后的架構設計毫無(wú)保留地展示了出來(lái)——IPU(Intelligence Processing Unit)。


從整體來(lái)看,后摩在架構設計上的規劃采用了“三步走”的策略。

首先便是第一代IPU天樞架構,這是專(zhuān)門(mén)為自動(dòng)駕駛所打造的IPU,而剛才我們提到的鴻途?H30正是基于此。

談到這個(gè)架構是如何設計出來(lái)的,就不得不先提一下以往芯片的設計架構。

例如特斯拉FSD的集中式計算,就是非常典型的通過(guò)堆積大量計算資源來(lái)提高性能。

它就像是一個(gè)四合院,院子里啥都有,主人們在院子里可以盡情溝通交流,但問(wèn)題也非常明顯,就是四合院的面積就只有那么大,居住者數量就是有限的。

后來(lái)也有人提出了分布式計算的方法,把算力很大的核拆分成若干個(gè)小核;這些小核可以獨立完成小任務(wù),也可以共同完成大任務(wù)。

這種方式像是現代高層公寓,每層樓都有獨立的基礎生活功能,也可以方便復制和擴展;但問(wèn)題是每層樓之間的溝通比較困難。


因此,后摩智能的天樞架構所采用的便是二合一的思路——結合古典中式建筑和現代高層建筑。

簡(jiǎn)單來(lái)說(shuō),每個(gè)芯片都包含4個(gè)IPU核;每個(gè)IPU核又有4個(gè)Tile;而每個(gè)Tile內部還有CPU、張量引擎、特殊功能單元、矢量處理器和多通道DMA等。

這樣的架構使得AI計算不但不用在多個(gè)處理器(例如CPU,GPU,DSP)之間分配任務(wù),甚至不用出AI核,就可以高效的完成全部端到端的計算。

這種架構還可以說(shuō)是像一個(gè)綜合辦事大樓,走進(jìn)去,一站式完成各種業(yè)務(wù),大幅提高了效率。

圖片

總結來(lái)說(shuō),天樞架構的特點(diǎn)之一就是多核/多硬件線(xiàn)程實(shí)現計算效率與算力靈活擴展的平衡。

除此之外,它還可以擺脫系統總線(xiàn)的桎梏,其雙環(huán)拓撲專(zhuān)用總線(xiàn)可以實(shí)現靈活的數據直傳。

就像在多層空中四合院之間,建了個(gè)直接入戶(hù)的電梯,可以快速做到傳輸。


至于后摩在未來(lái)要進(jìn)一步研發(fā)的天璇架構和天璣架構,則將聚焦在擴大模型應用邊界和通用人工智能。

在現場(chǎng),后摩也展示了搭載鴻途?H30后無(wú)人小車(chē)上路的實(shí)測。

但如果你覺(jué)得后摩僅僅是拿出來(lái)了一塊芯片,那就有點(diǎn)too simple了些。

在如此短促的研發(fā)時(shí)間里,它還一口氣發(fā)布了力馭?域控制器和后摩大道?軟件平臺。

力馭是后摩面向智能駕駛市場(chǎng)的大算力域控制器產(chǎn)品,據悉,只需要搭載單顆鴻途?H30,便可以滿(mǎn)足智能駕駛多種傳感器、從L2到L4所有AI計算的需求。


最后,還有一個(gè)后摩大道?軟件平臺,是為鴻途?H30芯片產(chǎn)品開(kāi)發(fā)的AI軟件開(kāi)發(fā)平臺。

它的作用便是可以讓客戶(hù)在使用后摩存算一體架構產(chǎn)品時(shí),能夠將開(kāi)發(fā)、調試和部署應用的效率大幅提高。

注:后摩智能BEV模型實(shí)測

以上便是后摩第一次正式亮相所給出的主要“作業(yè)”了。

通過(guò)各種數據和效果的對比展示,其在大算力國產(chǎn)智駕芯片的實(shí)力可見(jiàn)一斑。

但更令人驚嘆的,還應當屬“后摩速度”——一切都在2年多時(shí)間完成。

如何在2年時(shí)間“煉”成的?

不同于美國創(chuàng )業(yè)公司從車(chē)庫、大學(xué)宿舍開(kāi)始的那般浪漫與理想,后摩的創(chuàng )業(yè)起點(diǎn)非常出乎人們的意料——沙縣小吃。

沒(méi)錯,正是在這種享受餛飩與熱湯之際,幾個(gè)人一拍即合,決定創(chuàng )業(yè)搞AI芯片。

不過(guò)賽道鎖定在芯片,除了大環(huán)境的因素之外,也與小伙伴們每個(gè)人都向往“萬(wàn)物智能”的生活相關(guān)。

例如有人家住得特別遠,若是自動(dòng)駕駛成熟了,便可以邊通勤邊辦公;還有人非常顧家,希望有個(gè)機器人把家務(wù)全包了……

那么問(wèn)題來(lái)了,到底什么樣的芯片才能做到無(wú)處不在、讓萬(wàn)物實(shí)現智能?

極致的效率,毋庸置疑是非常關(guān)鍵的因素之一。

然而當時(shí)后摩的初創(chuàng )團隊從科技發(fā)展歷史看清的一個(gè)事實(shí)是,每1000倍的效率提升將造就一個(gè)計算時(shí)代。


若是想要達到他們理想的萬(wàn)物智能世界,那么算力起碼也得是現今芯片計算效能的1000倍。

加之摩爾定律的逐步失效,他們便將目光聚焦到了另一種打法——換架構,搞存算一體。

團隊堅定認為,這就是后摩爾時(shí)代下的破局之道:

算力得大,功耗要低,面積要小,成本還得廉。

以至于CEO吳強在現場(chǎng)這般回憶道:

我們太喜歡這個(gè)方向了,連公司名字都是從這而來(lái)——后摩智能。

(雖然也有人會(huì )打電話(huà)問(wèn)是不是做摩托車(chē)的……)

不過(guò)講真,存算一體這個(gè)技術(shù)在兩三年前并沒(méi)有像現在這般火爆。

可以說(shuō)后摩成為了最早一批嘗到紅利的公司,也順理成章地使其成了國內第一個(gè)搞存算一體大算力AI芯片的公司。

而之所以會(huì )將第一個(gè)落地場(chǎng)景放到自動(dòng)駕駛,用吳強的話(huà)來(lái)說(shuō)就是,“自動(dòng)駕駛是萬(wàn)物智能美好生活的重要組成部分,人們幾乎在花1/8清醒時(shí)間在開(kāi)車(chē)”。

并且自動(dòng)駕駛作為“集AI技術(shù)大成者”的領(lǐng)域,能啃下這塊硬骨頭,那么再拓展到其它領(lǐng)域也就會(huì )輕松很多。

賽道、方向、技術(shù),在創(chuàng )業(yè)初期三大最重要的關(guān)鍵因素定下來(lái)之后,接下來(lái)就是進(jìn)入更煎熬的研發(fā)階段了。

雖說(shuō)是煎熬階段,但有一說(shuō)一,對于后摩團隊來(lái)說(shuō),或許都已經(jīng)是駕輕就熟的事情,因為公司聚集了一幫芯片“老手”。

例如創(chuàng )始人吳強,博士畢業(yè)于普林斯頓大學(xué)計算機博士學(xué)位,研究方向正是高能效比計算芯片及編譯器。

畢業(yè)之后,他還先后工作于Intel、AMD、Facebook等國外知名企業(yè);值得一提的是,在A(yíng)MD期間曾擔任GPGPU/OpenCL創(chuàng )始團隊核心成員。

吳強不僅擁有國外的工作經(jīng)驗,在2017年回國之后,也是在國內AI知名獨角獸企業(yè)擔任技術(shù)副總裁和CTO等職務(wù)。

在學(xué)術(shù)方面,吳強曾獲第38屆計算機體系架構頂會(huì )MICRO-38 唯一的一個(gè)最佳論文獎;科研成果被美國業(yè)內雜志IEEE Micro 評選為年度最有影響的12 個(gè)科技成果之一。

后摩智能創(chuàng )始人兼CEO,吳強

再如后摩智能聯(lián)合創(chuàng )始人、芯片研發(fā)副總裁陳亮,本碩博畢業(yè)于清華大學(xué),曾任海思CPU芯片資深架構師、地平線(xiàn)AI芯片首席架構師。

在做產(chǎn)品上,后摩聯(lián)合創(chuàng )始人、產(chǎn)品副總裁信曉旭,具有15年以上計算芯片產(chǎn)品、市場(chǎng)和銷(xiāo)售經(jīng)驗,曾任海思計算芯片產(chǎn)品總監。

左:陳亮;右:信曉旭

而從后摩整體研發(fā)團隊構成來(lái)看,碩、博士占比70%以上;核心成員均主導過(guò)多顆世界級芯片的設計量產(chǎn),類(lèi)別涵蓋GPU、CPU、高性能車(chē)規級AI芯片等。

更重要的是,用吳強自己的話(huà)來(lái)說(shuō),后摩的研發(fā)團隊人員都是非常純粹的人,肯吃苦、夠努力。

如此來(lái)看,也就不難理解為什么能夠在2年多的時(shí)間里,將存算一體芯片從0到1開(kāi)花結果了。

芯片的“后摩時(shí)刻”已至

雖然芯片產(chǎn)品已經(jīng)發(fā)布、量產(chǎn),但最后我們還需要對一個(gè)問(wèn)題做深入的探討——存算一體,是否真的是正確的方向。

要回答這個(gè)問(wèn)題,我們還需先得知道芯片算力的發(fā)展出了什么問(wèn)題。

無(wú)論是計算機、手機,還是智能手環(huán)等產(chǎn)品,它們內部程序運行機制都繞不開(kāi)一個(gè)著(zhù)名的計算體系,馮·諾依曼體系結構。


它的一個(gè)特點(diǎn),就是計算和存儲是分離的。

若是通俗一點(diǎn)理解,我們可以將這個(gè)過(guò)程視為在廚房炒菜:

  • 存儲器:相當于廚房里的冰箱;

  • 數據:相當于冰箱里的菜;

  • 計算器:相當于洗菜、切菜和炒菜。

那么要完成一道菜,就需要先從冰箱里把菜取出來(lái),再去廚房里洗、切、炒。


那么問(wèn)題來(lái)了,這些菜需要在存儲器和計算器之間瘋狂地做搬運工作,這就無(wú)形之間產(chǎn)生了巨大的時(shí)間開(kāi)銷(xiāo),

若是對于較低的計算量來(lái)說(shuō),馮·諾依曼體系結構尚且還可處理,但誰(shuí)能想到,在信息數據量爆炸的當下,人們對算力的需求會(huì )變得如此之大。

舉個(gè)例子,若是用全卷積網(wǎng)絡(luò )處理一張分辨率為224x224大約5萬(wàn)像素的圖片,需要的計算量為5x109次的計算。

這個(gè)任務(wù)若是放在一個(gè)CPU核心上處理,需要足足3秒鐘的時(shí)間,慢,著(zhù)實(shí)太慢!

單單是這么簡(jiǎn)單的任務(wù)尚是如此,近年來(lái)隨著(zhù)AIGC熱潮的到來(lái),大模型成為了產(chǎn)學(xué)界的香餑餑,而動(dòng)輒需要對上千億參數做訓練推理,需要的算力之大可見(jiàn)一斑。

即便現代很多芯片開(kāi)始設計更復雜的多級存儲結構,例如把SRAM(靜態(tài)隨機存儲器)作為距離計算單元最近的緩存,保證最高的讀寫(xiě)速度,但容量還是非常的有限。

例如在下圖英偉達GA102 GPU中,藍色方塊區域便是緩存區域,即便看上去占了不少空間,但其實(shí)容量也就6MB而已。

這在當今主流AI任務(wù)面前,簡(jiǎn)直是大巫見(jiàn)小巫了。


這,就是當下算力發(fā)展所遇到的致命瓶頸。

而且就過(guò)去二十年的發(fā)展來(lái)看,處理器性能以每年大約55%的速度提升,但內存性能的提升速度每年只有10%左右。

存儲速度長(cháng)期滯后于計算速度,因此就導致了芯片性能難以滿(mǎn)足AI需求的情況。

不僅如此,近年來(lái)“摩爾定律即將失效”的聲音也是此起彼伏,很多人認為傳統的芯片無(wú)法再勝任新的大算力任務(wù)了。

雖然業(yè)界在后來(lái)提出了GPU、多核CPU等解決方案,但依舊是無(wú)法繞開(kāi)馮·諾依曼體系結構最為致命的瓶頸問(wèn)題。

在如此情況之下,業(yè)界便提出了更為大膽的想法——干脆把冰箱和廚房搞到一起,讓取菜、洗菜、切菜和炒菜都在一個(gè)空間里完成——即,存算一體。


對應到芯片設計,就意味著(zhù)把分開(kāi)的計算單元和SRAM單元重新設計,把乘加單元打散并插入到SRAM陣列當中,以此形成新的存算單元。

如此一來(lái),每個(gè)存算單元既保留了SRAM本身的規則性,便于高速讀寫(xiě);又擴充了并行計算功能,實(shí)現高能效計算。

以后摩發(fā)布的鴻途?H30為例,在存算一體架構之下,便可以在每秒計算超過(guò)4x1012次。


和其它AI芯片相比,后摩存算一體的宏單元在同樣能耗下提供的算力,可以直接飆升10倍!


但其實(shí)存算一體技術(shù)早在2011年就引起學(xué)術(shù)界關(guān)注,而后在2016-2017年成為學(xué)術(shù)界熱議的話(huà)題。

到2019年逐漸開(kāi)始受到工業(yè)界和資本的關(guān)注,彼時(shí)大家的討論主要集中在這項技術(shù)的可靠性上。

從2020年開(kāi)始,越來(lái)越多的玩家進(jìn)入這個(gè)市場(chǎng),并且大公司都開(kāi)始在存內計算上發(fā)力,此時(shí)的存內計算已成為產(chǎn)業(yè)界“不得不跟進(jìn)”的技術(shù)之一,大家的討論聚焦在存內計算未來(lái)的市場(chǎng)空間上。

再從市場(chǎng)規模角度來(lái)看,量子位在《存算一體芯片深度產(chǎn)業(yè)報告》中曾經(jīng)預測:

2030年,基于存算一體技術(shù)的大算力芯片市場(chǎng)規模約為67億人民幣。

由此可見(jiàn),不論是從技術(shù)亦或是市場(chǎng)的發(fā)展和預測來(lái)看,存算一體確實(shí)是解決算力瓶頸的一大利器。

而作為率先入局的后摩智能,也給出了自己的觀(guān)點(diǎn):

存算一體的價(jià)值在于,它是一種比傳統架構更接近人腦的計算方式,能達到遠超傳統方式的高計算效率,和智能駕駛終局的需求天然吻合。

2023年,會(huì )是存算一體商業(yè)落地的元年。

至此,對于芯片算力的瓶頸,后摩智能已經(jīng)給出了自己的一套打法,并且已經(jīng)交出了一份高分作業(yè)。

站在現今后摩爾時(shí)代的當下,或許芯片的“后摩時(shí)刻”已經(jīng)到來(lái)。 



*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。



關(guān)鍵詞: 自主造芯

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>