<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 智能計算 > 業(yè)界動(dòng)態(tài) > 摩爾線(xiàn)程新方法優(yōu)化AI交互:顯存節省最多82%

摩爾線(xiàn)程新方法優(yōu)化AI交互:顯存節省最多82%

作者: 時(shí)間:2025-03-05 來(lái)源:快科技 收藏

科研團隊近日發(fā)布了一項新的研究成果《Round Attention:以輪次塊稀疏性開(kāi)辟多輪對話(huà)優(yōu)化新范式》,使得端到端延遲低于現在主流的Flash Attention推理引擎,kv-cache占用節省最多82%。

本文引用地址:http://dyxdggzs.com/article/202503/467631.htm

摩爾線(xiàn)程新方法優(yōu)化AI交互:顯存節省最多82%

近年來(lái),大型語(yǔ)言模型的進(jìn)步,推動(dòng)了語(yǔ)言模型服務(wù)在日常問(wèn)題解決任務(wù)中的廣泛應用。

然而,長(cháng)時(shí)間的交互暴露出兩大顯著(zhù)問(wèn)題:

首先,上下文長(cháng)度的快速擴張因自注意力機制的平方級復雜度而導致巨大的計算開(kāi)銷(xiāo);

其次,盡管鍵值(KV)緩存技術(shù)能緩解冗余計算,但顯著(zhù)增加的GPU內存需求,導致推理批處理規模受限,同時(shí)GPU利用率低下。

摩爾線(xiàn)程新方法優(yōu)化AI交互:顯存節省最多82%

為此,提出了Round Attention,以解決這些問(wèn)題。

首先,提出以輪次為分析單元研究Attention規律:

Round Attention專(zhuān)為多輪對話(huà)場(chǎng)景推理需求設計,以輪次為自然邊界劃分KV緩存。研究發(fā)現,輪次粒度的Attention分布存在兩個(gè)重要規律。

其次,摩爾線(xiàn)程提出了Round Attention推理流水線(xiàn);

基于發(fā)現的兩個(gè)規律,將稀疏性從Token級提升至塊級,選取最相關(guān)的塊參與attention計算,減少attention計算耗時(shí),并將不相關(guān)的塊卸載到CPU內存,以節省占用。

這在保持推理精度的情況下,減少了推理耗時(shí),降低了占用。

摩爾線(xiàn)程認為,輪次塊稀疏性有三大優(yōu)勢:自然邊界的語(yǔ)義完整性、分水嶺層的注意力穩定性、端到端的存儲與傳輸優(yōu)化。

測試顯示,Round Attention的端到端延遲低于現在主流的Flash Attention推理引擎, kv-cache顯存占用則節省55-82%,并且在主觀(guān)評測和客觀(guān)評測兩個(gè)數據集上,模型推理準確率基本未受影響。

摩爾線(xiàn)程新方法優(yōu)化AI交互:顯存節省最多82%

摩爾線(xiàn)程新方法優(yōu)化AI交互:顯存節省最多82%



關(guān)鍵詞: 摩爾線(xiàn)程 顯存 AI

評論


相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>