<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 字節跳動(dòng)這項研究火了：基于殘差UNet架構，一鍵分離伴奏和人聲

字節跳動(dòng)這項研究火了：基于殘差UNet架構，一鍵分離伴奏和人聲

發(fā)布人：機器之心時(shí)間：2021-10-07 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢(xún)

發(fā)布文章

字節跳動(dòng)的這項研究，可以完美將混合音頻分離成單個(gè)源任務(wù)。

音樂(lè )源分離 (MSS) 是將混合音頻分離成單個(gè)源的任務(wù)，例如人聲、鼓、伴奏等。MSS 是音樂(lè )信息檢索 (MIR) 的重要內容，因為它可用于多個(gè)下游 MIR 任務(wù)，包括旋律提取、音高估計、音樂(lè )轉錄、音樂(lè )混音等。MSS 也有可以直接應用的程序，例如卡拉 OK 和音樂(lè )混音。

基于深度神經(jīng)網(wǎng)絡(luò )的方法已成功應用于音樂(lè )源分離。這些方法通常用于學(xué)習從混合聲譜（spectrogram）到一組源聲譜的映射，所有聲譜圖都只有幅度。但是，這種方法會(huì )受到一定的限制：

1）不正確的相位重構降低了性能；

2）將掩碼的幅度限制在 0 和 1 之間，而我們平時(shí)觀(guān)察到有 22% 的時(shí)頻 bin 的理想比率掩碼值超過(guò) 1；

3) 在深架構上的潛力尚未得到充分探索。

字節跳動(dòng)的研究者提出了解決了上述問(wèn)題的方案。這項研究在 Reddit 上引來(lái)眾多網(wǎng)友討論：

論文一作孔秋強本科和碩士都畢業(yè)于華南理工大學(xué)，于英國薩里大學(xué)獲得博士學(xué)位，主要研究領(lǐng)域包括機器學(xué)習、音頻信號處理等。此外，他還是 GiantMIDI-Piano（鋼琴轉譜）研究項目的牽頭人。

孔秋強于 2019 年加入字節跳動(dòng)的 Speech, Audio and Music Intelligence 研究小組，主要負責音頻信號處理和聲音事件檢測等的研究。

該研究的貢獻包括以下：

首先，該研究通過(guò)估計復數理想比率掩碼 (cIRM，complex ideal ratio masks) 來(lái)估計相位，其中他們將 cIRM 的估計解耦為幅度和相位估計；

其次，該研究擴展了分離方法，以有效地允許掩碼的幅度大于 1；

最后，該研究提出了一個(gè)高達 143 層的殘差 UNet 架構。他們提出的系統在 MUDB18 數據集上實(shí)現了 SOTA MSS 結果，尤其是人聲（vocals）的 SDR（signal-to-distortion ratio，信號失真率）為 8.98 dB，優(yōu)于之前 7.24 dB 的最佳性能。

論文地址：https://arxiv.org/pdf/2109.05418.pdf

Github 地址：https://github.com/bytedance/music_source_separation

試玩地址：https://huggingface.co/spaces/akhaliq/Music_Source_Separation

方法介紹

與之前直接預測掩碼的實(shí)部和虛部不同，該研究建議將 MSS 的幅度和相位估計進(jìn)行解耦，以便可以分別優(yōu)化它們的設計。研究者將要估計的復雜掩碼表示為。作為解決方案的一部分，系統輸出一個(gè)有界幅度掩碼，其值在 [0, 1] 之間。在實(shí)際應用中，它是通過(guò) sigmoid 函數來(lái)實(shí)現的。此外，該系統還輸出另外兩個(gè)張量，。這里，分別是實(shí)部和虛部。

然后，估計 cIRM 的實(shí)部和虛部：

殘差 UNet

在本節中，該研究為 MSS 引入了具有數百層的深度殘差 UNet，其深度至少是之前 UNet 模型的 4 倍。首先該研究引入了一個(gè)包含 33 層的基準 UNet。這個(gè) 33 層的 UNet 由 6 個(gè)編碼器和 6 個(gè)****層組成。每個(gè)編碼器層由兩個(gè)卷積層和一個(gè)下采樣層組成。每個(gè)****層由一個(gè)上采樣轉置卷積層和兩個(gè)卷積層組成。最后，在****層之后添加了三個(gè)額外的卷積層，總共有 33 個(gè)卷積層。

接下來(lái)，該研究介紹了一個(gè)具有 143 層的殘差 UNet。在構建具有數百層的殘差 UNet 時(shí)，他們使用殘差編碼器塊 (REB) 和殘差****塊 (RDB) 來(lái)增加網(wǎng)絡(luò )深度。圖 3 顯示了殘差 UNet 架構，其中使用了 6 個(gè) REB 和 6 個(gè) RDB。每個(gè) REB 由 4 個(gè)殘差卷積塊（RCB）組成，如圖 4（a）所示。每個(gè) RCB 由兩個(gè)卷積層組成，卷積核大小為 3×3，如圖 4（c）所示。在 RCB 的輸入和輸出之間添加了一個(gè)快捷連接（shortcut connection）。在遵循預作用殘差網(wǎng)絡(luò )配置的卷積層之前，應用批量歸一化和具有 0.01 負斜率的 leaky ReLU 非線(xiàn)性函數。在每個(gè) REB 之后應用 2 × 2 平均池化層以減小特征圖大小。每個(gè) REB 由 8 個(gè)卷積層組成。

圖 3：帶有殘差塊的 MSS 系統， REB、RDB 和 RCB 的詳細信息見(jiàn)圖 4 。

**** (RDB) 中的塊與編碼器 (REB) 中的塊對稱(chēng)。每個(gè) RDB 由一個(gè)轉置（transposed）卷積層組成，其卷積核大小為 3 × 3，stride 為 2 × 2 ，用來(lái)對特征圖進(jìn)行上采樣，然后是四個(gè) RCB，如圖 4（b）所示。每個(gè) RDB 由 9 個(gè)卷積層組成，包括 8 個(gè)卷積層和 1 個(gè)轉置卷積層。為了進(jìn)一步提高殘差 UNet 的表示能力，該研究在 REB 和 RDB 之間引入了中間卷積塊 (ICB)，如圖 3 所示。該研究使用 4 個(gè) ICB，其中每個(gè) ICB 由 8 個(gè)卷積層組成。

圖 4：(a) 殘差編碼器塊 (REB)，(b) 殘差****塊 (RDB)，(3) 殘差卷積塊 (RCB)

實(shí)驗

該研究在 MUDB18 數據集上進(jìn)行了實(shí)驗。MUDB18 數據集包括獨立的人聲、伴奏、貝斯、鼓和其他樂(lè )器。其訓練 / 驗證集分別包含 100/50 個(gè)完整立體聲音軌。此外，該研究還將訓練集進(jìn)一步分解為 86 首訓練歌曲和 14 首用于開(kāi)發(fā)和評估的歌曲。

與以往方法的比較

表 2 顯示了不同方法的比較。第一行顯示了 Open-Unmix 的性能，它由三個(gè)雙向長(cháng)短期記憶層組成，實(shí)現了 6.32 dB 的人聲 SDR。第二行顯示，在時(shí)域中訓練的 Wave-U-Net 系統實(shí)現的 SDR 略低于其他時(shí)頻域系統。第三行之后顯示了 Demucs、Conv-TasNet、Spleeter 和 D3Net 的結果。

在比較的方法中，D3Net 分別實(shí)現了 7.24 dB 和 7.01 dB 的最佳人聲和鼓聲 SDR。Demucs 達到了 5.83 dB 的最佳低音 SDR，而 Spleeter 在之前的研究中達到了 4.55 dB 的其他最佳 SDR。

如表 2 的最后一行所示，ResUNetDecouple 系統在分離人聲、貝斯、其他和伴奏方面明顯優(yōu)于其他方法。

消融實(shí)驗

此外，該研究還展示了所提系統的性能。此外還將其與 [25] 中的 UNetPhase 系統進(jìn)行了比較。

表 3 中，UNet、UNetDecouple 和 UNetDecouple+ 是 33 層 UNet 的變體，而 ResUNet、ResUNet Decouple、ResUNetDecoup+ 是 143 層殘差 UNet 的變體。UNet 和 ResUNet 是只有幅度掩碼的模型，即模型中不考慮相位。

首先，僅預測掩碼大小的 UNet 表現略遜于 UNetPhase。其次，實(shí)驗還比較了第 2-4 行或第 5-7 行內的變化趨勢。對于 UNet 和 ResUNet，幅度和相位的解耦提高了性能——使用 UNet 平均提高 0.35 dB，使用 ResUNet 平均提高 0.45 dB?！?」模型顯示使用 UNet 和 ResUNet 分別提高了 0.2 dB 和 0.196 dB。該結果表明，結合有界掩碼估計和直接幅度預測可以提高 MSS。當其他條件固定時(shí)，對于所有源儀器，ResUNet 始終優(yōu)于 UNet。該研究還展示了 MSS 中非常深的架構的有效性。ResUNet 相對于 UNet 的平均改進(jìn)為 0.7 dB。

參考鏈接：

https://www.reddit.com/r/MachineLearning/comments/pqpl7m/r_decoupling_magnitude_and_phase_estimation_with/

*博客內容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀(guān)點(diǎn)，如有侵權請聯(lián)系工作人員刪除。

隔離器相關(guān)文章:隔離器原理
電機保護器相關(guān)文章:電機保護器原理

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： AI

相關(guān)推薦

釋說(shuō)芯語(yǔ)16：硬科技：構建企業(yè)未來(lái)之路（附PPT）

jackwang | 2018-10-22

如何快速搭建手寫(xiě)體識別演示系統

視頻 digikey AI 手寫(xiě)體識別 | 2022-07-29

海聯(lián)達（Aigale）Ai-HD1 無(wú)線(xiàn)全高清套件拆解

zhuwei0710 | 2013-04-28

蘋(píng)果表示其AI模型是在谷歌的定制芯片上訓練的

智能計算 AI | 2024-07-30

電子元件培訓教材

資源下載 NBA 電子元件識別電阻識別電容識別 AI MI SMT DIP 靜電防護 | 2008-09-20

Nvidia的CEO談AI的未來(lái)：“我們將需要三臺電腦... 一臺來(lái)創(chuàng )建AI... 一臺來(lái)模擬AI... 一臺來(lái)運行AI”

智能計算 AI | 2024-07-31

WTC-AI型太陽(yáng)能熱水器電路圖

設計方案電子電路圖，WTC-AI 太陽(yáng)能熱水器電路熱水器 | 2012-07-30

加大調整力度，教育部支持高校布局集成電路、AI 等專(zhuān)業(yè)

智能計算教育 AI 集成電路 | 2024-07-25

EEPW2018年3月刊(工業(yè)物聯(lián)網(wǎng))

資源下載工業(yè)物聯(lián)網(wǎng) AI | 2018-03-12

iPhone 16將不會(huì )預裝AI功能？計劃通過(guò)iOS 18.1發(fā)布

iPhone AI iOS | 2024-07-30

“破局AI開(kāi)發(fā)，釋放邊緣算力開(kāi)發(fā)者訪(fǎng)談”，干貨滿(mǎn)滿(mǎn)！

視頻 intel AI OpenVINO | 2021-06-10

AI+機器視覺(jué)成趨勢，圖文詳解N大應用場(chǎng)景

智能計算安森美 AI 機器視覺(jué) | 2024-07-31

EEPW2018年6月刊(5G)

資源下載 5G AI | 2018-06-11

深圳加快打造 AI 先鋒城市，今年將建成 4000PFLOPS 算力智算中心

智能計算 AI 智能計算深圳 | 2024-07-30

瑞薩電子AI單元解決方案成功提高GE醫療（日本）日野工廠(chǎng)的生產(chǎn)力

winni945 | 2018-09-12

攻擊成功率從 3% 到接近 100%，利用空格鍵可繞過(guò) Meta AI 模型安全系統

智能計算 Meta AI | 2024-07-31

蘋(píng)果承認：AI模型使用谷歌定制芯片訓練

智能計算蘋(píng)果 AI 谷歌定制芯片 | 2024-07-30

繼上次海聯(lián)達Ai-ap100拆機之電源改造

zhuwei0710 | 2013-04-03

萬(wàn)家樂(lè )JSYZ5-AI燃氣熱水器電路圖

設計方案電路圖熱水器燃氣 JSYZ5-AI 萬(wàn)家樂(lè ) | 2013-01-17

CSR8670CSR8675智能語(yǔ)音Alexa藍牙方案開(kāi)發(fā)

資源下載 AI 智能語(yǔ)音 | 2017-12-14

WTC-AI太陽(yáng)能熱水器電路圖

設計方案 WTC-AI 太陽(yáng)能熱水器電路圖 | 2012-07-24

iCAN-4017 AI功能模塊

資源下載周立功單片機功能模塊 iCAN-4017 AI | 2007-03-30

摩根士丹利：僅 GB200 AI 服務(wù)器業(yè)務(wù)，就為英偉達創(chuàng )造 2100 億美元年收入

智能計算 GB200 AI 英偉達 GPU | 2024-07-26

大嘴業(yè)話(huà)-AI目前市場(chǎng)分析

視頻人工智能，AI，ChatGPT，互聯(lián)網(wǎng)技術(shù) | 2023-04-25

人工智能是如何幫助阻止造假者的？

謝丫丫 | 2018-08-14

2021春晚黑科技，火爆全網(wǎng)的\"打工牛\"是什么來(lái)頭？

視頻 AI 機器人 | 2021-02-26

國際奧委會(huì )：最大限度發(fā)揮 AI 工具影響力，體育人才選拔方式有望得到革新

智能計算 AI 奧運會(huì ) 體育 | 2024-07-26

AI驅動(dòng)的嵌入式聲音和振動(dòng)識別

視頻 ADI AI 嵌入式 OtoSense | 2018-10-23

焦點(diǎn)

推薦視頻

更多>>

技術(shù)專(zhuān)區

国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放

<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>