一文抓住AI芯片趨勢 發(fā)布人:旺材芯片 時(shí)間:2024-04-07 來(lái)源:工程師 加入技術(shù)交流群 掃碼加入和技術(shù)大咖面對面交流海量資料庫查詢(xún) 發(fā)布文章 目前AI芯片的發(fā)展依然受到制約:第一個(gè)是深度學(xué)習需要海量數據進(jìn)行計算,內存帶寬的制約,已經(jīng)成為整個(gè)系統的性能瓶頸。第二個(gè)就是海量?jì)却婧陀嬎銌卧?,訪(fǎng)問(wèn)頻繁切換,導致整體功耗很難降下去。最后便是隨著(zhù)AI產(chǎn)業(yè)的快速變化,硬件如何適配算法是個(gè)難題。這里預測一下AI芯片的4****展趨勢。未來(lái)10年是加速計算架構變革的新十年。在計算存儲一體化方面,也就是把計算單元和存儲單元放在一起,使得AI系統的計算和數據吞吐量增大,還能顯著(zhù)地降低功耗。會(huì )不會(huì )出現一種新型非易失性存儲器件,就是在存儲陣列里面加上AI計算功能,從而節省數據搬移操作呢?現在硬件計算能力大于數據讀取和訪(fǎng)問(wèn)性能,當計算單元不在是瓶頸,如何減少存儲器的訪(fǎng)問(wèn)延時(shí),將會(huì )成為下一個(gè)研究方向。通常,離計算越近的存儲器速度越快,每字節的成本也越高,同時(shí)容量也越受限,因此新型的存儲結構也將應運而生。第二個(gè)趨勢就是,稀疏化計算。隨著(zhù)千億、到萬(wàn)億網(wǎng)絡(luò )模型提出,模型越來(lái)越大,但實(shí)際不是每個(gè)神經(jīng)元,都能有效激活,這個(gè)時(shí)候稀疏計算,可以高效減少無(wú)用能效。特別是在推薦場(chǎng)景和圖神經(jīng)網(wǎng)絡(luò )的應用,稀疏已經(jīng)成為常態(tài)。例如,哈佛大學(xué)提出了優(yōu)化的五級流水線(xiàn)結構, 在最后一級輸出了觸發(fā)信號。在Activation層后對下一次計算的必要性進(jìn)行預先判斷,如果發(fā)現這是一個(gè)稀疏節點(diǎn),則觸發(fā) SKIP信號,避免乘法運算的功耗,以達到減少無(wú)用功耗的目的。第三個(gè)趨勢是支持更加復雜的AI算子。在標準的SIMD基礎上,CNN的特殊結構復用,可以減少總線(xiàn)的數據通訊,Transformer結構對大數據在計算和存儲之間切換,或者是在NLP和語(yǔ)音領(lǐng)域經(jīng)常需要支持的動(dòng)態(tài)shape,合理地分解、映射這些不同復雜結構的算子,到有效的硬件上成為了一個(gè)值得研究的方向。最后一個(gè)是更快的推理時(shí)延和存儲位寬。隨著(zhù)蘋(píng)果、高通、華為都在手機芯片SoC上面推出AI推理硬件IP,近年來(lái)在手機SoC上,又引入可學(xué)習功能。未來(lái)如何在手機SoC上執行更快是業(yè)界很關(guān)注的一個(gè)點(diǎn),包括經(jīng)??匆曨l的抖音、bilibili,都需要對視頻進(jìn)行AI編解碼,基于ISP進(jìn)行AI影像處理。另外在理論計算領(lǐng)域,神經(jīng)網(wǎng)絡(luò )計算的位寬從32bit到16bit,出現了混合精度到目前8bit,甚至更低的比特數,都開(kāi)始慢慢進(jìn)入實(shí)踐領(lǐng)域。來(lái)源:芯生代 *博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。