壁仞科技首款GPU亮點(diǎn)劇透!獨家對話(huà)CTO洪洲
作者 | 心緣
編輯 | 漠影
成立18個(gè)月,累計融資逾47億元,兩個(gè)月前的上海壁仞科技,因為“吸金”能力大刷一把存在感。GPU(Graphics processing unit)圖形處理器,又被稱(chēng)作顯示芯片,是擅長(cháng)做圖像圖形相關(guān)運算工作的微處理器。進(jìn)入后摩爾時(shí)代,GPU應用能力愈發(fā)超出圖形渲染,被用到通用計算領(lǐng)域。尤其伴隨著(zhù)人工智能(AI)應用趨火,一批主攻云端通用智能計算的GPGPU創(chuàng )企誕生。壁仞科技即是國內GPGPU創(chuàng )業(yè)潮中的新秀之一。自2019年9月成立以來(lái),壁仞科技的融資一輪接著(zhù)一輪,動(dòng)輒單筆逾十億人民幣,雖然相較于英偉達單款芯片數十億美元的研發(fā)投入仍有較大差距,但這樣密集而強大的融資能力,令不少看客訝異。繼新融資后,它又馬不停蹄地國內頂尖高校簽訂新的合作協(xié)議,包括合作清華大學(xué),推進(jìn)“通用圖形處理架構與應用創(chuàng )新研究專(zhuān)項”;合作復旦大學(xué),共建“智能計算芯片聯(lián)合實(shí)驗室”。在獲得多家知名投資機構青睞的背后,這家神秘創(chuàng )企有怎樣一支強大的創(chuàng )始團隊坐鎮?在技術(shù)和落地方面有什么差異化打法?它所押注的GPGPU賽道,會(huì )是催火國內云端AI芯片的好生意嗎?針對這些問(wèn)題,近日,壁仞科技CTO兼首席架構師洪洲(Mike Hong)接受芯東西的獨家專(zhuān)訪(fǎng),講述從擔任海思自研GPU負責人和首席架構師,到進(jìn)入壁仞科技創(chuàng )業(yè)的幕后故事,并分享了在GPU芯片設計及人才培養方面的一些心得體會(huì )。洪洲告訴芯東西,壁仞科技同時(shí)支持AI訓練和推理的首款7nm芯片開(kāi)發(fā)進(jìn)展順利,預計今年正式流片,性能將對標英偉達下一代GPU計算芯片。壁仞科技的第二款芯片也已經(jīng)啟動(dòng)架構設計。
“吸金”創(chuàng )始團:華為高通GPU架構大神帶隊
壁仞科技給外界留下的第一印象是“吸金猛獸”。成立不到一年,壁仞科技接連在2020年6到8月拿下多輪融資,不僅以11億人民幣刷新業(yè)界A輪融資記錄,而且去年累計融資已接近20億元。今年3月底,壁仞科技又宣布累計融資已增至47億元。從投資方陣營(yíng)來(lái)看,其中不乏啟明創(chuàng )投、IDG資本、華登國際、高瓴資本、格力創(chuàng )投、中芯聚源等知名投資機構。選擇押注在這樣一家初出茅廬的創(chuàng )企,他們究竟看中了壁仞科技的什么特質(zhì)?洪洲給出的答案是:“人”。壁仞科技創(chuàng )始團隊,在創(chuàng )業(yè)之初,已經(jīng)展現出匯集人才的能力、團隊執行能力,以及整合多方資源的能力:創(chuàng )立壁仞科技前,創(chuàng )始人、董事長(cháng)張文曾任AI獨角獸商湯科技的總裁,并主導了商湯在上海、成都等地的大規模合作落地項目。他還曾與中芯國際創(chuàng )始人張汝京博士共同創(chuàng )辦LED產(chǎn)業(yè)園以及LED芯片企業(yè)映瑞光電。硬件架構負責人洪洲擁有近30年GPU架構設計經(jīng)驗,在GPU架構設計、渲染算法、光線(xiàn)跟蹤算法、并行計算、GPGPU、X86和Arm SoC的架構設計等方面有50多項已獲批準的專(zhuān)利。軟件生態(tài)負責人焦國方曾是華為Futurewei公司GPU技術(shù)首席科學(xué)家,負責GPU相關(guān)的所有軟件生態(tài);還曾在高通工作11年,成功領(lǐng)導和研發(fā)了5代高通Adreno移動(dòng)GPU架構。此前他亦在老牌圖形芯片供應商Trident、S3 Graphics工作數年。壁仞科技的另外兩位聯(lián)合創(chuàng )始人徐凌杰、張凌嵐,均是產(chǎn)業(yè)界的資深人士,擁有豐富的從業(yè)經(jīng)驗。“壁仞科技匯聚了大部分最頂尖的華人GPU架構師?!庇腥诉@樣評價(jià)。對于這一說(shuō)法,洪洲認為非常貼切:“從90年代開(kāi)始的20多年內成長(cháng)起來(lái)的(華人)架構師,基本上都在我們這邊?!?/span>
27年經(jīng)驗積累,曾組建海思GPU研發(fā)團隊
洪洲本科畢業(yè)于北大“王牌專(zhuān)業(yè)”數學(xué)系,繼而選擇在清華經(jīng)管學(xué)院攻讀當時(shí)很火的數量經(jīng)濟學(xué)碩士。20世紀90年代初,正是圖形芯片的黃金期,還在紐約州立大學(xué)攻讀計算機科學(xué)專(zhuān)業(yè)的洪洲,碩士畢業(yè)即開(kāi)始研發(fā)計算機圖形芯片,一做就是27年。GPU亦是在那個(gè)時(shí)期誕生,最初僅作為圖形顯示芯片。21世紀前后,圖形芯片市場(chǎng)經(jīng)過(guò)一輪蕩氣回腸的廝殺較量,英偉達與ATI兩家巨頭脫穎而出,將其他競爭者或吞并或逼至絕境。到2003年左右,GPU開(kāi)始被用于通用加速計算。洪洲在那時(shí)負責設計英偉達Tesla架構和性能調優(yōu),英偉達第一版CUDA即基于該架構開(kāi)發(fā)。他還分別在S3 Graphics、兆芯等知名企業(yè)領(lǐng)導和管理GPU研發(fā)項目多年。在積累了足夠的GPU研發(fā)經(jīng)驗后,2016年,洪洲入職華為美研所,組建了一個(gè)遍及全球數百人的海思自研GPU團隊,推進(jìn)全球領(lǐng)先且擁有自主IP的GPU芯片研發(fā)。焦國方也是同年進(jìn)入華為在美國的業(yè)務(wù)主體Futurewei,任GPU首席科學(xué)家。
對標英偉達下一代產(chǎn)品,首款芯片今年流片
洪洲與張文是在2019年上海世界人工智能大會(huì )上遇見(jiàn)的。當時(shí)兩人深聊之后一拍即合,發(fā)現在通用計算、國產(chǎn)大算力方面的很多共通的理念。同年9月,壁仞科技在上海創(chuàng )立,致力于開(kāi)發(fā)基于原創(chuàng )性的高性能GPGPU產(chǎn)品的通用計算軟硬件體系。洪洲也在不久之后正式加入壁仞科技。公司一成立,其第一款通用算力芯片研發(fā)隨即開(kāi)始全方位啟動(dòng)。▲壁仞科技通過(guò)采用高端封裝技術(shù),壁仞科技的第一款GPU芯片定位高端通用智能計算,具備高性能、可擴展性、可虛擬化等特性,支持云端訓練和推理,目前已經(jīng)到了收尾階段,預計將在今年流片。這顆芯片對標的,是國際GPU霸主英偉達還在醞釀之中的下一代5nm GPU計算芯片。當然,一家初創(chuàng )公司如果剛起步就全面對標英偉達,無(wú)異于以卵擊石。對此壁仞科技的策略是,先聚焦幾個(gè)點(diǎn)上,打一場(chǎng)“不對稱(chēng)的戰爭”。英偉達GPU并非面向AI訓練和推理的最優(yōu)芯片,而是一個(gè)多能力芯片。以A100為例,其雙精度對HPC很重要,但對AI加速來(lái)說(shuō),其在能效比、算力等方面并非最優(yōu)解。因此壁仞科技選擇首先專(zhuān)攻通用AI訓練和推理能力,將圖形渲染等與AI加速無(wú)關(guān)的設計剝離掉,更聚焦于在自家芯片上如何合理安排更多的運算和存儲單元。“如果純粹從硬件來(lái)說(shuō),我們是有比較大的勝算的?!焙橹拚f(shuō),不過(guò)畢竟英偉達在軟件、生態(tài)方面積累深厚,因此壁仞科技面臨的關(guān)鍵問(wèn)題,是如何補足這些缺口?!拔覀円仓?,我們不可能很快補足它,但我們有信心?!?/span>從研發(fā)伊始,壁仞科技就做好了前瞻性規劃,與供應商、生態(tài)合作伙伴及客戶(hù)早早開(kāi)始溝通,已對客戶(hù)需求分析地非常清楚。等芯片流片后,壁仞科技下一步將重點(diǎn)推進(jìn)加速芯片商用落地的軟件工作。壁仞科技的另一個(gè)勝算是“天時(shí)、地利、人和”。如今很多英偉達用戶(hù)愿意看到另一個(gè)選擇,無(wú)論是商業(yè)用戶(hù),還是國家層面數據中心,對國產(chǎn)化的需求都與日俱增。這些對于包括壁仞科技在內的國內企業(yè),無(wú)疑是難得的契機。隨著(zhù)首款芯片進(jìn)入收尾,壁仞科技的第二款芯片已經(jīng)開(kāi)始啟動(dòng)架構設計,之后壁仞科技還將逐步推出面向智算中心、云游戲、邊緣計算的GPU芯片。
解析壁仞科技GPGPU三大亮點(diǎn)特性
除了對標英偉達,壁仞科技也面臨著(zhù)與多家國內云端AI芯片及GPGPU創(chuàng )企的競爭。在壁仞科技團隊看來(lái),客戶(hù)習慣是芯片研發(fā)的至上準則。正如開(kāi)慣了法拉利的人不愿騎三輪車(chē),用慣了英偉達V100、A100等國際主流芯片的客戶(hù)也不會(huì )樂(lè )意用算力一般、不好用的芯片。這一背景下,壁仞科技著(zhù)重優(yōu)化其芯片的3個(gè)亮點(diǎn)特性:通用性、高算力、芯粒(chiplet)技術(shù)。1、通用性:從兼容CUDA到取代CUDA“我們要做一個(gè)真正能落地的、能兼容現在的生態(tài)的、真正能大規模量產(chǎn)的通用架構?!焙橹拚f(shuō)。在洪洲看來(lái),新的GPU板卡要無(wú)縫地支持CUDA生態(tài),這比更高的算力,更好的能效比更重要。因此,目前階段必須保證用CUDA寫(xiě)的程序能無(wú)縫運行在壁仞科技的異構計算開(kāi)發(fā)平臺上,不應當為了追求所謂的極致能效,而打破對通用編程模型的兼容性。當前壁仞科技的第一要務(wù)是在打造自有編程模型的同時(shí),兼容CUDA當前版本,并會(huì )面向未來(lái)的設計,新增很多東西,使程序能跑得更快更好。這只是第一步,壁仞科技的終極目標,是提供比CUDA更好的自研編程模型。
2、高算力:融合多種架構的優(yōu)點(diǎn)“高算力對我們來(lái)說(shuō)極端重要?!焙橹拚f(shuō),壁仞科技芯片的單位瓦算力非常高,并且有信心打敗英偉達下一代產(chǎn)品。達到這一性能表現,離不開(kāi)其芯片架構的優(yōu)化——以通用性為根本的同時(shí),在專(zhuān)用領(lǐng)域做深耕、優(yōu)化,融入多種架構的優(yōu)點(diǎn)。傳統GPGPU主要做向量運算,但對于A(yíng)I加速來(lái)說(shuō),矩陣運算對數據的帶寬需求比向量操作低。考慮到這些問(wèn)題,壁仞科技不拘泥于傳統的向量流處理架構,而會(huì )在其理念中加入數據流處理單元、近存儲計算架構等其他元素,并對重點(diǎn)場(chǎng)景進(jìn)行特殊優(yōu)化,使其能處理各種數據類(lèi)型,從而在同等能耗上,獲得比英偉達高好幾倍的算力。單顆芯片算力的提升只是一個(gè)點(diǎn),壁仞科技還在其芯片中引入非常高的互連帶寬,能做到數百數千的芯片大規模拓展,從而實(shí)現集群化大算力。對于數據中心而言,未來(lái)“算力”將是王道。如果能將單卡算力提高2倍,其他條件不變時(shí),綜合性?xún)r(jià)比則有望提高2倍,相應地,數據中心服務(wù)器的總擁有成本(TCO)就會(huì )降低約一半。3、芯粒(chiplet):提高性?xún)r(jià)比的必備技術(shù)當先進(jìn)芯片制程走向7nm、5nm、3nm,芯粒(chiplet)成為一種愈發(fā)熱門(mén)的技術(shù)方向。一顆芯片上有不同功能的組件,如果這些組件全部用最先進(jìn)的技術(shù)節點(diǎn)來(lái)制造,成本將非常高。而芯粒技術(shù)的價(jià)值在于,允許不同組件分別選擇其合適的技術(shù)節點(diǎn)來(lái)生產(chǎn),然后再像拼樂(lè )高一樣堆疊封裝在一起,不僅提高芯片整體性?xún)r(jià)比,也能通過(guò)更有序的配置來(lái)提升芯片處理能力。英特爾、AMD等大公司均在積極探索芯粒技術(shù)。該技術(shù)對小公司同樣有價(jià)值,如果不走芯粒方向,無(wú)論是產(chǎn)品性?xún)r(jià)比,還是能接觸到的市場(chǎng)空間,都會(huì )有很多局限性。“我們的芯片已經(jīng)采用chiplet技術(shù),可以說(shuō)比英偉達走得快?!焙橹拚f(shuō)。
團隊擴至400余人,三招解決人才困境
在洪洲看來(lái),缺少原創(chuàng )的芯片架構是中國現存的一個(gè)短板,當前國內真正做原創(chuàng )性GPU的團隊非常稀缺。兩大國際GPU巨頭中,英偉達在國內沒(méi)有核心IP研發(fā)團隊,AMD在上海只有一小部分研發(fā)團隊。國內真正從GPU底層架構和軟件做起來(lái)的,只有原來(lái)的兆芯團隊和現在的海思團隊。但原創(chuàng )性不是照著(zhù)別家的架構比葫蘆畫(huà)瓢,而是真正解決整個(gè)通用計算問(wèn)題。這需要組建一支有多年積累的、全面性的團隊,除了硬件人才外,軟件人才、編譯器人才也極為關(guān)鍵。壁仞科技團隊有很多成員來(lái)自產(chǎn)業(yè)鏈各環(huán)節的領(lǐng)先企業(yè),覆蓋架構、設計、驗證、后端、封裝、系統、軟件等環(huán)節。洪洲總結該團隊“非常強大,是一個(gè)成建制團隊”。如何解決國內GPGPU人才稀缺、優(yōu)質(zhì)人才招募難度升級的問(wèn)題?壁仞科技思考了三條路徑:持續吸納國內人才、招募海外人才、培養新鮮血液。“壁仞科技團隊的凝聚力極強,也在不斷吸引海內外的人才加入?!焙橹拚J為,頂尖高校的優(yōu)秀畢業(yè)生如果能被培養好,可能會(huì )比國內一些有經(jīng)驗的GPU工程師更具戰斗力。截至目前,壁仞科技的團隊已擴張至超400人,其中約有4/5在上海,其他團隊則分布在北京、珠海和北美,未來(lái)也計劃拓展到更多其他城市。據他透露,已經(jīng)有不少在海外招募的GPU高端人才回到國內做全職。
結語(yǔ):云端算力爭奪戰方興未艾
在去年GTIC 2020全球AI芯片創(chuàng )新峰會(huì )上,壁仞科技聯(lián)合創(chuàng )始人徐凌杰談道,壁仞科技與其他芯片企業(yè)的關(guān)系并非是“競爭”,而是“競合”。“壁仞科技需要更多人才加入到這個(gè)行業(yè)中,有了這樣的硬件生態(tài)和商業(yè)生態(tài),才能打造好基礎設施,”他期盼這個(gè)生態(tài)能更加繁榮,“越來(lái)越多的人看到基礎設施和算力間的矛盾,看到基礎設施的不足,才能夯實(shí)我國的信息高速公路?!?/span>看到機會(huì )的不止是壁仞科技,除了早先入局的寒武紀、比特大陸、燧原科技等云端芯片創(chuàng )企外,過(guò)去一年間,陸續有新玩家現身,大量資本也正積極地涌入這一賽道。對于高額融資帶來(lái)的名氣和質(zhì)疑,洪洲并不關(guān)心,“這個(gè)產(chǎn)業(yè)向來(lái)是用產(chǎn)品說(shuō)話(huà),我們只關(guān)注自己(的研發(fā)),把我們自己(的產(chǎn)品)做好?!?/span>而從已有進(jìn)展來(lái)看,國內云端AI芯片及GPU賽道的硝煙才剛剛開(kāi)始彌漫,入局者變多,但規?;涞爻晒胁幻黠@,這場(chǎng)圍繞云端算力的資金、人才、市場(chǎng)爭奪戰顯然還未到高潮。
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。
三相異步電動(dòng)機相關(guān)文章:三相異步電動(dòng)機原理