<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 為多模態(tài)LLM指明方向，邱錫鵬團隊提出具有內生跨模態(tài)能力的SpeechGPT

為多模態(tài)LLM指明方向，邱錫鵬團隊提出具有內生跨模態(tài)能力的SpeechGPT

發(fā)布人：機器之心時(shí)間：2023-05-20 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢(xún)

發(fā)布文章

「 SpeechGPT 為打造真正的多模態(tài)大語(yǔ)言模型指明了方向：將不同模態(tài)的數據（視覺(jué)，語(yǔ)音等）統一表示為離散單元集成在 LLM 之中，在跨模態(tài)數據集上經(jīng)過(guò)預訓練和指令微調，來(lái)使得模型具有多模態(tài)理解和生成的能力，從而離 AGI 更進(jìn)一步?！埂?復旦大學(xué)計算機學(xué)院教授邱錫鵬

大型語(yǔ)言模型（LLM）在各種自然語(yǔ)言處理任務(wù)上表現出驚人的能力。與此同時(shí)，多模態(tài)大型語(yǔ)言模型，如 GPT-4、PALM-E 和 LLaVA，已經(jīng)探索了 LLM 理解多模態(tài)信息的能力。然而，當前 LLM 與通用人工智能（AGI）之間仍存在顯著(zhù)差距。首先，大多數當前 LLM 只能感知和理解多模態(tài)內容，而不能自然而然地生成多模態(tài)內容。其次，像圖像和語(yǔ)音這樣的連續信號不能直接適應接收離散 token 的 LLM。
當前的語(yǔ)音 - 語(yǔ)言（speech-language）模型主要采用級聯(lián)模式，即 LLM 與自動(dòng)語(yǔ)音識別（ASR）模型或文本到語(yǔ)音（TTS）模型串聯(lián)連接，或者 LLM 作為控制中心，與多個(gè)語(yǔ)音處理模型集成以涵蓋多個(gè)音頻或語(yǔ)音任務(wù)。一些關(guān)于生成式口語(yǔ)語(yǔ)言模型的先前工作涉及將語(yǔ)音信號編碼為離散表示，并使用語(yǔ)言模型對其進(jìn)行建模。
雖然現有的級聯(lián)方法或口語(yǔ)語(yǔ)言模型能夠感知和生成語(yǔ)音，但仍存在一些限制。首先，在級聯(lián)模型中，LLM 僅充當內容生成器。由于語(yǔ)音和文本的表示沒(méi)有對齊，LLM 的知識無(wú)法遷移到語(yǔ)音模態(tài)中。其次，級聯(lián)方法存在失去語(yǔ)音的附加語(yǔ)言信號（如情感和韻律）的問(wèn)題。第三，現有的口語(yǔ)語(yǔ)言模型只能合成語(yǔ)音，而無(wú)法理解其語(yǔ)義信息，因此無(wú)法實(shí)現真正的跨模態(tài)感知和生成。
在本文中，來(lái)自復旦大學(xué)的張棟、邱錫鵬等研究者提出了 SpeechGPT，這是一個(gè)具有內生跨模態(tài)對話(huà)能力的大型語(yǔ)言模型，能夠感知和生成多模態(tài)內容。他們通過(guò)自監督訓練的語(yǔ)音模型對語(yǔ)音進(jìn)行離散化處理，以統一語(yǔ)音和文本之間的模態(tài)。然后，他們將離散的語(yǔ)音 token 擴展到 LLM 的詞匯表中，從而賦予模型感知和生成語(yǔ)音的內生能力。

論文鏈接：https://arxiv.org/pdf/2305.11000.pdf
demo 地址：https://0nutation.github.io/SpeechGPT.github.io/
GitHub 地址：https://github.com/0nutation/SpeechGPT

為了為模型提供處理多模態(tài)指令的能力，研究者構建了第一個(gè)語(yǔ)音 - 文本跨模態(tài)指令遵循數據集 SpeechInstruct。具體而言，他們將語(yǔ)音離散化為離散單元（discrete unit），并基于現有的 ASR 數據集構建跨模態(tài)的單元 - 文本（unit-text）對。同時(shí)，他們使用 GPT-4 構建了針對多個(gè)任務(wù)的數百個(gè)指令，以模擬實(shí)際用戶(hù)的指令，具體見(jiàn)附錄 B。此外，為了進(jìn)一步增強模型的跨模態(tài)能力，他們設計了「Chain-of-Modality」指令數據，即模型接收語(yǔ)音命令，用文本思考過(guò)程，然后以語(yǔ)音形式輸出響應。
為了實(shí)現更好的跨模態(tài)遷移和高效的訓練，SpeechGPT 經(jīng)歷了三個(gè)階段的訓練過(guò)程：模態(tài)適應預訓練、跨模態(tài)指令微調和 chain-of-modality 指令微調。第一階段通過(guò)離散語(yǔ)音單元連續任務(wù)實(shí)現了 SpeechGPT 的語(yǔ)音理解能力。第二階段利用 SpeechInstruct 改進(jìn)了模型的跨模態(tài)能力。第三階段利用參數高效的 LoRA 微調進(jìn)行進(jìn)一步的模態(tài)對齊。
為了評估 SpeechGPT 的有效性，研究者進(jìn)行了廣泛的人工評估和案例分析，以評估 SpeechGPT 在文本任務(wù)、語(yǔ)音 - 文本跨模態(tài)任務(wù)和口語(yǔ)對話(huà)任務(wù)上的性能。結果表明，SpeechGPT 在單模態(tài)和跨模態(tài)指令遵循任務(wù)以及口語(yǔ)對話(huà)任務(wù)方面展現出強大的能力。

SpeechInstruct
由于公開(kāi)可用的語(yǔ)音數據的限制和語(yǔ)音 - 文本任務(wù)的多樣性不足，研究者構建了 SpeechInstruct，這是一個(gè)語(yǔ)音 - 文本跨模態(tài)指令遵循數據集。該數據集分為兩個(gè)部分，第一部分叫做跨模態(tài)指令，第二部分叫做 Chain-of-Modality 指令。SpeechInstruct 的構建過(guò)程如圖 2 所示。

SpeechGPT
研究者設計了一個(gè)統一的框架，以實(shí)現不同模態(tài)之間的架構兼容性。如圖 2 所示，他們的模型有三個(gè)主要組件：離散單元提取器、大型語(yǔ)言模型和單元聲碼器。在這個(gè)架構下，LLM 可以感知多模態(tài)輸入并生成多模態(tài)輸出。
離散單元提取器
離散單元提取器利用 Hidden-unit BERT（HuBERT）模型將連續的語(yǔ)音信號轉換為一系列離散單元的序列。
HuBERT 是一個(gè)自監督模型，它通過(guò)對模型的中間表示應用 k-means 聚類(lèi)來(lái)為掩蔽的音頻片段預測離散標簽進(jìn)行學(xué)習。它結合了 1-D 卷積層和一個(gè) Transformer 編碼器，將語(yǔ)音編碼為連續的中間表示，然后使用 k-means 模型將這些表示轉換為一系列聚類(lèi)索引的序列。隨后，相鄰的重復索引被移除，得到表示為的離散單元序列，K 表示聚類(lèi)總數。
大型語(yǔ)言模型
研究者采用 Meta AI 的 LLaMA 模型作為他們的大型語(yǔ)言模型。LLaMA 包括一個(gè)嵌入層、多個(gè) Transformer 塊和一個(gè)語(yǔ)言模型頭層。LLaMA 的參數總數范圍從 7B 到 65B 不等。通過(guò)使用包含 1.0 萬(wàn)億 token 的大規模訓練數據集，LLaMA 在各種自然語(yǔ)言處理基準測試中展現出與規模更大的 175B GPT-3 相當的性能。
單元聲碼器
由于 (Polyak et al., 2021) 中單個(gè)說(shuō)話(huà)人單元聲碼器的限制，研究者訓練了一個(gè)多說(shuō)話(huà)人單元的 HiFi-GAN，用于從離散表示中解碼語(yǔ)音信號。HiFi-GAN 的架構包括一個(gè)生成器 G 和多個(gè)判別器 D。生成器使用查找表（Look-Up Tables，LUT）來(lái)嵌入離散表示，并通過(guò)一系列由轉置卷積和具有擴張層的殘差塊組成的模塊對嵌入序列進(jìn)行上采樣。說(shuō)話(huà)人嵌入被連接到上采樣序列中的每個(gè)幀上。判別器包括一個(gè)多周期判別器（Multi-Period Discriminator，MPD）和一個(gè)多尺度判別器（Multi-Scale Discriminator，MSD），其架構與 (Polyak et al., 2021) 相同。
實(shí)驗
跨模態(tài)指令遵循
如表 1 所示，當提供不同的指令時(shí)，模型能夠執行相應的任務(wù)并根據這些輸入生成準確的輸出。

口語(yǔ)對話(huà)
表 2 展示了 SpeechGPT 的 10 個(gè)口語(yǔ)對話(huà)案例。對話(huà)表明，在與人類(lèi)的交互中，SpeechGPT 能夠理解語(yǔ)音指令并用語(yǔ)音作出相應回應，同時(shí)遵守「HHH」標準（無(wú)害、有幫助、誠實(shí)）。

局限性
盡管 SpeechGPT 展示出令人印象深刻的跨模態(tài)指令遵循和口語(yǔ)對話(huà)能力，但仍存在一些限制：

它不考慮語(yǔ)音中的語(yǔ)音外語(yǔ)言信息，例如無(wú)法以不同的情緒語(yǔ)調生成回應；
它在生成基于語(yǔ)音的回應之前需要生成基于文本的回應；
由于上下文長(cháng)度的限制，它無(wú)法支持多輪對話(huà)。

*博客內容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀(guān)點(diǎn)，如有侵權請聯(lián)系工作人員刪除。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： AI

相關(guān)推薦

電子元件培訓教材

資源下載 NBA 電子元件識別電阻識別電容識別 AI MI SMT DIP 靜電防護 | 2008-09-20

如何快速搭建手寫(xiě)體識別演示系統

視頻 digikey AI 手寫(xiě)體識別 | 2022-07-29

“破局AI開(kāi)發(fā)，釋放邊緣算力開(kāi)發(fā)者訪(fǎng)談”，干貨滿(mǎn)滿(mǎn)！

視頻 intel AI OpenVINO | 2021-06-10

EEPW2018年3月刊(工業(yè)物聯(lián)網(wǎng))

資源下載工業(yè)物聯(lián)網(wǎng) AI | 2018-03-12

國際奧委會(huì )：最大限度發(fā)揮 AI 工具影響力，體育人才選拔方式有望得到革新

智能計算 AI 奧運會(huì ) 體育 | 2024-07-26

釋說(shuō)芯語(yǔ)16：硬科技：構建企業(yè)未來(lái)之路（附PPT）

jackwang | 2018-10-22

蘋(píng)果承認：AI模型使用谷歌定制芯片訓練

智能計算蘋(píng)果 AI 谷歌定制芯片 | 2024-07-30

攻擊成功率從 3% 到接近 100%，利用空格鍵可繞過(guò) Meta AI 模型安全系統

智能計算 Meta AI | 2024-07-31

EEPW2018年6月刊(5G)

資源下載 5G AI | 2018-06-11

大嘴業(yè)話(huà)-AI目前市場(chǎng)分析

視頻人工智能，AI，ChatGPT，互聯(lián)網(wǎng)技術(shù) | 2023-04-25

萬(wàn)家樂(lè )JSYZ5-AI燃氣熱水器電路圖

設計方案電路圖熱水器燃氣 JSYZ5-AI 萬(wàn)家樂(lè ) | 2013-01-17

CSR8670CSR8675智能語(yǔ)音Alexa藍牙方案開(kāi)發(fā)

資源下載 AI 智能語(yǔ)音 | 2017-12-14

深圳加快打造 AI 先鋒城市，今年將建成 4000PFLOPS 算力智算中心

智能計算 AI 智能計算深圳 | 2024-07-30

繼上次海聯(lián)達Ai-ap100拆機之電源改造

zhuwei0710 | 2013-04-03

AI+機器視覺(jué)成趨勢，圖文詳解N大應用場(chǎng)景

智能計算安森美 AI 機器視覺(jué) | 2024-07-31

WTC-AI型太陽(yáng)能熱水器電路圖

設計方案電子電路圖，WTC-AI 太陽(yáng)能熱水器電路熱水器 | 2012-07-30

瑞薩電子AI單元解決方案成功提高GE醫療（日本）日野工廠(chǎng)的生產(chǎn)力

winni945 | 2018-09-12

蘋(píng)果表示其AI模型是在谷歌的定制芯片上訓練的

智能計算 AI | 2024-07-30

海聯(lián)達（Aigale）Ai-HD1 無(wú)線(xiàn)全高清套件拆解

zhuwei0710 | 2013-04-28

2021春晚黑科技，火爆全網(wǎng)的\"打工牛\"是什么來(lái)頭？

視頻 AI 機器人 | 2021-02-26

AI驅動(dòng)的嵌入式聲音和振動(dòng)識別

視頻 ADI AI 嵌入式 OtoSense | 2018-10-23

摩根士丹利：僅 GB200 AI 服務(wù)器業(yè)務(wù)，就為英偉達創(chuàng )造 2100 億美元年收入

智能計算 GB200 AI 英偉達 GPU | 2024-07-26

加大調整力度，教育部支持高校布局集成電路、AI 等專(zhuān)業(yè)

智能計算教育 AI 集成電路 | 2024-07-25

人工智能是如何幫助阻止造假者的？

謝丫丫 | 2018-08-14

WTC-AI太陽(yáng)能熱水器電路圖

設計方案 WTC-AI 太陽(yáng)能熱水器電路圖 | 2012-07-24

iPhone 16將不會(huì )預裝AI功能？計劃通過(guò)iOS 18.1發(fā)布

iPhone AI iOS | 2024-07-30

iCAN-4017 AI功能模塊

資源下載周立功單片機功能模塊 iCAN-4017 AI | 2007-03-30

Nvidia的CEO談AI的未來(lái)：“我們將需要三臺電腦... 一臺來(lái)創(chuàng )建AI... 一臺來(lái)模擬AI... 一臺來(lái)運行AI”

智能計算 AI | 2024-07-31

焦點(diǎn)

推薦視頻

更多>>

技術(shù)專(zhuān)區

国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放

<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>