靠譜嗎?這家新公司在做“存算一體AI芯片”
做AI(人工智能)芯片已經(jīng)很了不起,拓寬計算、存儲之間的狹路也很不易,二者都是世界性的熱點(diǎn)課題。沒(méi)想到,今年3月才開(kāi)始運營(yíng)的這家公司聲稱(chēng)要做“存算一體化”AI芯片,目前研發(fā)人員只有十幾名!
本文引用地址:http://dyxdggzs.com/article/201807/382812.htm這家公司究竟有何高招?

近日在京舉辦的“安創(chuàng )成長(cháng)營(yíng)”第五期路演上,北京知存科技有限公司CEO王紹迪博士介紹了他們做的存算一體化的AI芯片,特點(diǎn)是低成本、低功耗,目標是讓AI設備無(wú)所不在。
AI潛力巨大
AI目前還處于發(fā)展階段,當前落地的應用場(chǎng)景較少,沒(méi)有達到社會(huì )的期望。隨著(zhù)AI算法的進(jìn)步以及芯片算力的提升,未來(lái)將會(huì )出現一個(gè)更大的爆發(fā)點(diǎn),會(huì )涌現更多的應用落地。
AI芯片作為AI的載體,被大家寄予厚望。據有關(guān)預測, 2020年AI芯片市場(chǎng)預計達到千億量級。傳統芯片巨頭諸如arm、Intel、NVIDIA都通過(guò)自研和收購推出了數款芯片,互聯(lián)網(wǎng)巨頭諸如Google、亞馬遜和微軟等也都正推出和開(kāi)發(fā)AI芯片。這個(gè)領(lǐng)域的創(chuàng )業(yè)公司就更多了,中國的幾家頭部公司就做得非常好。
AI適合“存算一體”

AI依賴(lài)的算法是一個(gè)龐大和復雜的網(wǎng)絡(luò ),有很多參數要存儲,也需要完成大量的計算,這些計算中又會(huì )產(chǎn)生大量數據。在完成大量計算的過(guò)程中,一般芯片的設計思路是將大量增加并行的運算單元,例如上千個(gè)卷積單元,需要調用的存儲資源也在增大,然而存儲資源一直是有限的。隨著(zhù)運算單元的增加,每個(gè)運算單元能夠使用的存儲器的帶寬和大小在逐漸減小,可見(jiàn)存儲器是AI芯片的瓶頸。
在很多AI推理運算中,90%以上的運算資源都消耗在數據搬運的過(guò)程。芯片內部到外部的帶寬以及片上緩存空間限制了運算的效率?,F在工業(yè)界和學(xué)術(shù)界很多人認為存算一體化是未來(lái)的趨勢。
存算一體的分類(lèi)
存算一體化分為幾種:DRAM和SSD中植入計算芯片或者邏輯計算單元,可以被叫做存內處理或者近數據計算,這種方式非常適合云端的大數據和神經(jīng)網(wǎng)絡(luò )訓練等應用;另一種就是存儲和計算完全結合在一起,使用存儲的器件單元直接完成計算,比較適合神經(jīng)網(wǎng)絡(luò )推理類(lèi)應用。
知存研發(fā)的是后者,即將存儲和計算結合到閃存單元中的存算一體。閃存技術(shù)的該技術(shù)已經(jīng)非常成熟,商用幾十年了,成本很低。
知存的獨特技術(shù)
具體地,當前商用的神經(jīng)網(wǎng)絡(luò )非常龐大,擁有數百萬(wàn)至數千萬(wàn)的權重參數,或者推理過(guò)程中需要完成幾百萬(wàn)到上千萬(wàn)個(gè)乘加法運算。傳統的計算系統需要將網(wǎng)絡(luò )權重參數存在片外的非易失性存儲器中,例如NAND Flash或NOR Flash。

運算過(guò)程中,需要把部分需要的權重參數搬運到DRAM,再把小部分參數傳入到芯片中的SRAM和eDRAM中,之后導入寄存器和運算單元完成運算。神經(jīng)網(wǎng)絡(luò )運算需要大面積SRAM和eDRAM來(lái)減少片內外數據搬運和提高運算效率,但是由于片上存儲成本的限制,也需要高成本、高速度的DRAM來(lái)緩存片上無(wú)法容納的權重參數和臨時(shí)數據。
知存科技的存算一體化原理是:知存科技的Flash存儲單元本身就可以存儲神經(jīng)網(wǎng)絡(luò )的權重參數,同時(shí)又可以完成和此權重相關(guān)的乘加法運算,就是將乘加法運算和存儲全部融合到一個(gè)Flash單元里。
例如,只需要100萬(wàn)個(gè)Flash單元,就可以存儲100萬(wàn)個(gè)權重參數,同時(shí)并行完成100萬(wàn)次乘加法運算。
知存做的是這樣一款芯片:深度學(xué)習網(wǎng)絡(luò )被映射到多個(gè)Flash陣列,這些Flash陣列不僅存儲,還和深度學(xué)習網(wǎng)絡(luò )同時(shí)完成網(wǎng)絡(luò )的推理,這個(gè)過(guò)程不需要邏輯計算電路。
這種方式的運算效率非常高,成本很低,單個(gè)Flash單元能夠完成7、8 bit的乘加法運算。
前文提到知存科技的芯片有兩個(gè)特點(diǎn):1.運算效率高,相比于現在基于馮?諾依曼架構的深度學(xué)習芯片,大概能夠提高運算效率10~50倍;2.產(chǎn)品成本低,節省了DRAM、SRAM、片上并行計算單元的面積消耗,簡(jiǎn)化了系統的設計,同時(shí)無(wú)需采用先進(jìn)的芯片加工工藝,可以數倍地降低生產(chǎn)成本,幾十倍地降低流片和研發(fā)成本。
當前階段,知存科技主攻的是對成本和運算效率(功耗)敏感的應用,例如終端的低功耗、低成本的語(yǔ)音識別應用。未來(lái),隨著(zhù)AI和物聯(lián)網(wǎng)的發(fā)展,知存科技會(huì )拓展更多的應用場(chǎng)景,例如低成本、低功耗的感知應用和人機交互。
知存的人力資源
2014年,知存科技的創(chuàng )始人開(kāi)始在美國加州大學(xué)圣芭芭拉分校的實(shí)驗室做這項技術(shù)的研發(fā),完成過(guò)6次流片和技術(shù)驗證。2017年底在北京注冊了公司,2018年3月正式開(kāi)始運營(yíng),僅5個(gè)月就把設計送去流片。如果進(jìn)展順利,三四個(gè)月后就會(huì )完成芯片測試,爭取2019年量產(chǎn)。
知存科技的團隊成員畢業(yè)于北京大學(xué)、北京航空航天大學(xué)、美國加州大學(xué)洛杉磯分校、加州大學(xué)圣芭芭拉分校等學(xué)校。核心團隊成員大部分都有十年以上的行業(yè)經(jīng)驗。團隊目前有11個(gè)人,2018年年末會(huì )擴大團隊規模。
如何看待XPoint存儲技術(shù)?
Intel與美光2015年共同研制了3D XPoint技術(shù),去年Intel推出了傲騰內存模組,特點(diǎn)也是提速AI和數據中心等的計算與存儲之間的連接速度。知存如何評價(jià)它們?
王紹迪博士稱(chēng):這是一項很新的技術(shù),這項技術(shù)的selector做得很好。但目前主要問(wèn)題是成本和系統支持度的問(wèn)題。不過(guò),隨著(zhù)產(chǎn)業(yè)鏈的發(fā)展,成本會(huì )越來(lái)越低,速度也會(huì )更快,系統也會(huì )更好地支持XPoint兼有的高速和非易失性的特性。
可見(jiàn),作為存儲器、內存或者他們的統一體(存算一體化)類(lèi)應用,未來(lái)成本降低之后,會(huì )有非常大的優(yōu)勢。Intel在這個(gè)技術(shù)的市場(chǎng)推廣上也投入很多精力,其他后來(lái)者可能會(huì )坐享其成。
評論:靠譜嗎?
具體的技術(shù)細節,知存很少透露。但至少該公司的想象力很靠譜!
當下正如火如荼地舉行“世界杯”足球賽,很多人買(mǎi)了彩票。筆者認為,知存能否成功,這有點(diǎn)像投資人買(mǎi)了彩票,興許賭一把能贏(yíng)呢?
評論