<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 字節跳動(dòng)這項研究火了:基于殘差UNet架構 ,一鍵分離伴奏和人聲

字節跳動(dòng)這項研究火了:基于殘差UNet架構 ,一鍵分離伴奏和人聲

發(fā)布人:機器之心 時(shí)間:2021-10-07 來(lái)源:工程師 發(fā)布文章

字節跳動(dòng)的這項研究,可以完美將混合音頻分離成單個(gè)源任務(wù)。

音樂(lè )源分離 (MSS) 是將混合音頻分離成單個(gè)源的任務(wù),例如人聲、鼓、伴奏等。MSS 是音樂(lè )信息檢索 (MIR) 的重要內容,因為它可用于多個(gè)下游 MIR 任務(wù),包括旋律提取、音高估計、音樂(lè )轉錄 、音樂(lè )混音等。MSS 也有可以直接應用的程序,例如卡拉 OK 和音樂(lè )混音。

基于深度神經(jīng)網(wǎng)絡(luò )的方法已成功應用于音樂(lè )源分離。這些方法通常用于學(xué)習從混合聲譜(spectrogram)到一組源聲譜的映射,所有聲譜圖都只有幅度。但是,這種方法會(huì )受到一定的限制:

1)不正確的相位重構降低了性能;

2)將掩碼的幅度限制在 0 和 1 之間,而我們平時(shí)觀(guān)察到有 22% 的時(shí)頻 bin 的理想比率掩碼值超過(guò) 1;

3) 在深架構上的潛力尚未得到充分探索。

字節跳動(dòng)的研究者提出了解決了上述問(wèn)題的方案。這項研究在 Reddit 上引來(lái)眾多網(wǎng)友討論:

1.png

論文一作孔秋強本科和碩士都畢業(yè)于華南理工大學(xué),于英國薩里大學(xué)獲得博士學(xué)位,主要研究領(lǐng)域包括機器學(xué)習、音頻信號處理等。此外,他還是 GiantMIDI-Piano(鋼琴轉譜)研究項目的牽頭人。

孔秋強于 2019 年加入字節跳動(dòng)的 Speech, Audio and Music Intelligence 研究小組,主要負責音頻信號處理和聲音事件檢測等的研究。

2.png

該研究的貢獻包括以下:

首先,該研究通過(guò)估計復數理想比率掩碼 (cIRM,complex ideal ratio masks) 來(lái)估計相位,其中他們將 cIRM 的估計解耦為幅度和相位估計; 

其次,該研究擴展了分離方法,以有效地允許掩碼的幅度大于 1;

最后,該研究提出了一個(gè)高達 143 層的殘差 UNet 架構 。他們提出的系統在 MUDB18 數據集上實(shí)現了 SOTA MSS 結果,尤其是人聲(vocals)的 SDR(signal-to-distortion ratio,信號失真率) 為 8.98 dB,優(yōu)于之前 7.24 dB 的最佳性能。

3.png

論文地址:https://arxiv.org/pdf/2109.05418.pdf

Github 地址:https://github.com/bytedance/music_source_separation

試玩地址:https://huggingface.co/spaces/akhaliq/Music_Source_Separation

方法介紹

與之前直接預測掩碼的實(shí)部和虛部不同,該研究建議將 MSS 的幅度和相位估計進(jìn)行解耦,以便可以分別優(yōu)化它們的設計。研究者將要估計的復雜掩碼表示為4.png。作為解決方案的一部分,系統輸出一個(gè)有界幅度掩碼5.png,其值在 [0, 1] 之間。在實(shí)際應用中,它是通過(guò) sigmoid 函數來(lái)實(shí)現的。此外,該系統還輸出另外兩個(gè)張量,6.png。這里,7.png分別是8.png實(shí)部和虛部。 

9.png

然后,估計 cIRM 的實(shí)部和虛部:

10.png

殘差 UNet

在本節中,該研究為 MSS 引入了具有數百層的深度殘差 UNet,其深度至少是之前 UNet 模型的 4 倍 。首先該研究引入了一個(gè)包含 33 層的基準 UNet。這個(gè) 33 層的 UNet 由 6 個(gè)編碼器和 6 個(gè)****層組成。每個(gè)編碼器層由兩個(gè)卷積層和一個(gè)下采樣層組成。每個(gè)****層由一個(gè)上采樣轉置卷積層和兩個(gè)卷積層組成。最后,在****層之后添加了三個(gè)額外的卷積層,總共有 33 個(gè)卷積層。

接下來(lái),該研究介紹了一個(gè)具有 143 層的殘差 UNet。在構建具有數百層的殘差 UNet 時(shí),他們使用殘差編碼器塊 (REB) 和殘差****塊 (RDB) 來(lái)增加網(wǎng)絡(luò )深度。圖 3 顯示了殘差 UNet 架構,其中使用了 6 個(gè) REB 和 6 個(gè) RDB。每個(gè) REB 由 4 個(gè)殘差卷積塊(RCB)組成,如圖 4(a)所示。每個(gè) RCB 由兩個(gè)卷積層組成,卷積核大小為 3×3,如圖 4(c)所示。在 RCB 的輸入和輸出之間添加了一個(gè)快捷連接(shortcut connection)。在遵循預作用殘差網(wǎng)絡(luò )配置的卷積層之前,應用批量歸一化和具有 0.01 負斜率的 leaky ReLU 非線(xiàn)性函數。在每個(gè) REB 之后應用 2 × 2 平均池化層以減小特征圖大小。每個(gè) REB 由 8 個(gè)卷積層組成。

11.png

圖 3:帶有殘差塊的 MSS 系統, REB、RDB 和 RCB 的詳細信息見(jiàn)圖 4 。

**** (RDB) 中的塊與編碼器 (REB) 中的塊對稱(chēng)。每個(gè) RDB 由一個(gè)轉置(transposed)卷積層組成,其卷積核大小為 3 × 3,stride 為 2 × 2 ,用來(lái)對特征圖進(jìn)行上采樣,然后是四個(gè) RCB,如圖 4(b)所示。每個(gè) RDB 由 9 個(gè)卷積層組成,包括 8 個(gè)卷積層和 1 個(gè)轉置卷積層。為了進(jìn)一步提高殘差 UNet 的表示能力,該研究在 REB 和 RDB 之間引入了中間卷積塊 (ICB),如圖 3 所示。該研究使用 4 個(gè) ICB,其中每個(gè) ICB 由 8 個(gè)卷積層組成。

12.png

圖 4:(a) 殘差編碼器塊 (REB),(b) 殘差****塊 (RDB),(3) 殘差卷積塊 (RCB)

實(shí)驗

該研究在 MUDB18 數據集上進(jìn)行了實(shí)驗。MUDB18 數據集包括獨立的人聲、伴奏、貝斯、鼓和其他樂(lè )器。其訓練 / 驗證集分別包含 100/50 個(gè)完整立體聲音軌。此外,該研究還將訓練集進(jìn)一步分解為 86 首訓練歌曲和 14 首用于開(kāi)發(fā)和評估的歌曲。

與以往方法的比較

表 2 顯示了不同方法的比較。第一行顯示了 Open-Unmix 的性能,它由三個(gè)雙向長(cháng)短期記憶層組成,實(shí)現了 6.32 dB 的人聲 SDR。第二行顯示,在時(shí)域中訓練的 Wave-U-Net 系統實(shí)現的 SDR 略低于其他時(shí)頻域系統。第三行之后顯示了 Demucs、Conv-TasNet、Spleeter 和 D3Net 的結果。 

在比較的方法中,D3Net 分別實(shí)現了 7.24 dB 和 7.01 dB 的最佳人聲和鼓聲 SDR。Demucs 達到了 5.83 dB 的最佳低音 SDR,而 Spleeter 在之前的研究中達到了 4.55 dB 的其他最佳 SDR。

如表 2 的最后一行所示,ResUNetDecouple 系統在分離人聲、貝斯、其他和伴奏方面明顯優(yōu)于其他方法。

13.png

消融實(shí)驗

此外,該研究還展示了所提系統的性能。此外還將其與 [25] 中的 UNetPhase 系統進(jìn)行了比較。

表 3 中,UNet、UNetDecouple 和 UNetDecouple+ 是 33 層 UNet 的變體,而 ResUNet、ResUNet Decouple、ResUNetDecoup+ 是 143 層殘差 UNet 的變體。UNet 和 ResUNet 是只有幅度掩碼的模型,即模型中不考慮相位。 

首先,僅預測掩碼大小的 UNet 表現略遜于 UNetPhase。其次,實(shí)驗還比較了第 2-4 行或第 5-7 行內的變化趨勢。對于 UNet 和 ResUNet,幅度和相位的解耦提高了性能——使用 UNet 平均提高 0.35 dB,使用 ResUNet 平均提高 0.45 dB?!?」模型顯示使用 UNet 和 ResUNet 分別提高了 0.2 dB 和 0.196 dB。該結果表明,結合有界掩碼估計和直接幅度預測可以提高 MSS。當其他條件固定時(shí),對于所有源儀器,ResUNet 始終優(yōu)于 UNet。該研究還展示了 MSS 中非常深的架構的有效性。ResUNet 相對于 UNet 的平均改進(jìn)為 0.7 dB。 

14.png

參考鏈接:

https://www.reddit.com/r/MachineLearning/comments/pqpl7m/r_decoupling_magnitude_and_phase_estimation_with/

*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。

隔離器相關(guān)文章:隔離器原理
電機保護器相關(guān)文章:電機保護器原理


關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>