摩爾線(xiàn)程新方法優(yōu)化AI交互:顯存節省最多82%
摩爾線(xiàn)程科研團隊近日發(fā)布了一項新的研究成果《Round Attention:以輪次塊稀疏性開(kāi)辟多輪對話(huà)優(yōu)化新范式》,使得端到端延遲低于現在主流的Flash Attention推理引擎,kv-cache顯存占用節省最多82%。
本文引用地址:http://dyxdggzs.com/article/202503/467631.htm近年來(lái),AI大型語(yǔ)言模型的進(jìn)步,推動(dòng)了語(yǔ)言模型服務(wù)在日常問(wèn)題解決任務(wù)中的廣泛應用。
然而,長(cháng)時(shí)間的交互暴露出兩大顯著(zhù)問(wèn)題:
首先,上下文長(cháng)度的快速擴張因自注意力機制的平方級復雜度而導致巨大的計算開(kāi)銷(xiāo);
其次,盡管鍵值(KV)緩存技術(shù)能緩解冗余計算,但顯著(zhù)增加的GPU內存需求,導致推理批處理規模受限,同時(shí)GPU利用率低下。
為此,摩爾線(xiàn)程提出了Round Attention,以解決這些問(wèn)題。
首先,摩爾線(xiàn)程提出以輪次為分析單元研究Attention規律:
Round Attention專(zhuān)為多輪對話(huà)場(chǎng)景推理需求設計,以輪次為自然邊界劃分KV緩存。研究發(fā)現,輪次粒度的Attention分布存在兩個(gè)重要規律。
其次,摩爾線(xiàn)程提出了Round Attention推理流水線(xiàn);
基于發(fā)現的兩個(gè)規律,將稀疏性從Token級提升至塊級,選取最相關(guān)的塊參與attention計算,減少attention計算耗時(shí),并將不相關(guān)的塊卸載到CPU內存,以節省顯存占用。
這在保持推理精度的情況下,減少了推理耗時(shí),降低了顯存占用。
摩爾線(xiàn)程認為,輪次塊稀疏性有三大優(yōu)勢:自然邊界的語(yǔ)義完整性、分水嶺層的注意力穩定性、端到端的存儲與傳輸優(yōu)化。
測試顯示,Round Attention的端到端延遲低于現在主流的Flash Attention推理引擎, kv-cache顯存占用則節省55-82%,并且在主觀(guān)評測和客觀(guān)評測兩個(gè)數據集上,模型推理準確率基本未受影響。
評論