<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 智能計算 > 業(yè)界動(dòng)態(tài) > 摩爾線(xiàn)程新方法優(yōu)化AI交互：顯存節省最多82％

摩爾線(xiàn)程新方法優(yōu)化AI交互：顯存節省最多82％

作者：時(shí)間：2025-03-05 來(lái)源：快科技

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢(xún)

收藏

摩爾線(xiàn)程科研團隊近日發(fā)布了一項新的研究成果《Round Attention：以輪次塊稀疏性開(kāi)辟多輪對話(huà)優(yōu)化新范式》，使得端到端延遲低于現在主流的Flash Attention推理引擎，kv-cache顯存占用節省最多82％。

本文引用地址：http://dyxdggzs.com/article/202503/467631.htm

摩爾線(xiàn)程新方法優(yōu)化AI交互：顯存節省最多82％

近年來(lái)，AI大型語(yǔ)言模型的進(jìn)步，推動(dòng)了語(yǔ)言模型服務(wù)在日常問(wèn)題解決任務(wù)中的廣泛應用。

然而，長(cháng)時(shí)間的交互暴露出兩大顯著(zhù)問(wèn)題：

首先，上下文長(cháng)度的快速擴張因自注意力機制的平方級復雜度而導致巨大的計算開(kāi)銷(xiāo)；

其次，盡管鍵值(KV)緩存技術(shù)能緩解冗余計算，但顯著(zhù)增加的GPU內存需求，導致推理批處理規模受限，同時(shí)GPU利用率低下。

摩爾線(xiàn)程新方法優(yōu)化AI交互：顯存節省最多82％

為此，摩爾線(xiàn)程提出了Round Attention，以解決這些問(wèn)題。

首先，摩爾線(xiàn)程提出以輪次為分析單元研究Attention規律：

Round Attention專(zhuān)為多輪對話(huà)場(chǎng)景推理需求設計，以輪次為自然邊界劃分KV緩存。研究發(fā)現，輪次粒度的Attention分布存在兩個(gè)重要規律。

其次，摩爾線(xiàn)程提出了Round Attention推理流水線(xiàn)；

基于發(fā)現的兩個(gè)規律，將稀疏性從Token級提升至塊級，選取最相關(guān)的塊參與attention計算，減少attention計算耗時(shí)，并將不相關(guān)的塊卸載到CPU內存，以節省顯存占用。

這在保持推理精度的情況下，減少了推理耗時(shí)，降低了顯存占用。

摩爾線(xiàn)程認為，輪次塊稀疏性有三大優(yōu)勢：自然邊界的語(yǔ)義完整性、分水嶺層的注意力穩定性、端到端的存儲與傳輸優(yōu)化。

測試顯示，Round Attention的端到端延遲低于現在主流的Flash Attention推理引擎， kv-cache顯存占用則節省55-82％，并且在主觀(guān)評測和客觀(guān)評測兩個(gè)數據集上，模型推理準確率基本未受影響。

摩爾線(xiàn)程新方法優(yōu)化AI交互：顯存節省最多82％

摩爾線(xiàn)程新方法優(yōu)化AI交互：顯存節省最多82％

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： 摩爾線(xiàn)程 顯存 AI

評論

相關(guān)推薦

CSR8670CSR8675智能語(yǔ)音Alexa藍牙方案開(kāi)發(fā)

資源下載 AI 智能語(yǔ)音 | 2017-12-14

萬(wàn)家樂(lè )JSYZ5-AI燃氣熱水器電路圖

設計方案電路圖熱水器燃氣 JSYZ5-AI 萬(wàn)家樂(lè ) | 2013-01-17

摩爾線(xiàn)程新方法優(yōu)化AI交互：顯存節省最多82％

智能計算摩爾線(xiàn)程顯存 AI | 2025-03-05

“英偉達親兒子”CoreWeave提交IPO申請，去年收入暴漲8倍

智能計算微軟 AI 云計算 IPO CoreWeave | 2025-03-04

微軟總裁警告特朗普政府：你要送中國AI一份大禮？

智能計算微軟特朗普 AI | 2025-03-03

電子元件培訓教材

資源下載 NBA 電子元件識別電阻識別電容識別 AI MI SMT DIP 靜電防護 | 2008-09-20

橋水基金創(chuàng )始人：這輩子美國都別想贏(yíng)過(guò)中國制造業(yè)

智能計算橋水基金中國制造芯片制造 AI 機器人 | 2025-03-05

AI重構人的價(jià)值：當機器卷走中低端產(chǎn)能，優(yōu)秀程序員更稀缺

智能計算 AI 機器卷中低端產(chǎn)能優(yōu)秀程序員稀缺 | 2025-03-05

人工智能是如何幫助阻止造假者的？

謝丫丫 | 2018-08-14

WTC-AI太陽(yáng)能熱水器電路圖

設計方案 WTC-AI 太陽(yáng)能熱水器電路圖 | 2012-07-24

請教關(guān)于顯存芯片的選型

husanxi | 2006-11-27

WTC-AI型太陽(yáng)能熱水器電路圖

設計方案電子電路圖，WTC-AI 太陽(yáng)能熱水器電路熱水器 | 2012-07-30

中國首個(gè)AI原生IDE！字節跳動(dòng)發(fā)布AI編程工具Trae

智能計算 AI IDE 編譯工具 | 2025-03-03

世界移動(dòng)通信大會(huì )開(kāi)幕聚焦5G與人工智能融合

手機與無(wú)線(xiàn)通信 MWC25 世界移動(dòng)通信大會(huì ) 5G AI | 2025-03-04

快人一步！2 分鐘看完 MWC2025 參展廠(chǎng)商

手機與無(wú)線(xiàn)通信 MWC 5G-A IoT AI | 2025-03-03

[轉帖] 術(shù)語(yǔ) 顯卡知識

yzlhccdec | 2007-03-31

海聯(lián)達（Aigale）Ai-HD1 無(wú)線(xiàn)全高清套件拆解

zhuwei0710 | 2013-04-28

EEPW2018年6月刊(5G)

資源下載 5G AI | 2018-06-11

繼上次海聯(lián)達Ai-ap100拆機之電源改造

zhuwei0710 | 2013-04-03

EEPW2018年3月刊(工業(yè)物聯(lián)網(wǎng))

資源下載工業(yè)物聯(lián)網(wǎng) AI | 2018-03-12

Microchip推出MPLAB? AI編碼助手，推動(dòng)人工智能與嵌入式開(kāi)發(fā)相結合

智能計算 Microchip MPLAB AI 編碼助手人工智能嵌入式 | 2025-03-04

消息稱(chēng) vivo OS 部門(mén)新成立 AI 領(lǐng)域，大模型訓練重心向端側轉移

手機與無(wú)線(xiàn)通信 vivo OS AI 大模型訓練端側 | 2025-03-05

iCAN-4017 AI功能模塊

資源下載周立功單片機功能模塊 iCAN-4017 AI | 2007-03-30

焦點(diǎn)

推薦視頻

技術(shù)專(zhuān)區

国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放

<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>