<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 講堂 | 譚旭：AI音樂(lè )，技術(shù)與藝術(shù)的碰撞（2）

講堂 | 譚旭：AI音樂(lè )，技術(shù)與藝術(shù)的碰撞（2）

發(fā)布人：MSRAsia 時(shí)間：2021-07-22 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢(xún)

發(fā)布文章

除了我們前面考慮的結構信息以外，還有一個(gè)非常重要的信息就是曲式結構，這個(gè)對于生成一首完整的旋律非常重要。我們常見(jiàn)的曲式結構有單一、單二、單三、回旋、變奏、奏鳴曲式以及流行音樂(lè )常見(jiàn)的主副歌結構，這些信息非常有助于音樂(lè )的生成。同時(shí)也需要考慮一首歌的情緒推動(dòng)，起承轉合，比如下圖上這種經(jīng)典的穩定開(kāi)始、變化擴張、緊張運動(dòng)、穩定結束的形式，還需要對旋律的情感、情緒做出理解。而這些知識都需要有對音樂(lè )的理解。

因此，我們開(kāi)展了 MusicBERT 工作，利用大規模音樂(lè )數據進(jìn)行預訓練，從而更好地理解音樂(lè )，包括情感分類(lèi)、流派分類(lèi)、旋律伴奏抽取、結構分析等。

為了能夠開(kāi)展大規模的預訓練，我們構建了一個(gè)大規模的音樂(lè )數據集 MMD 包含150萬(wàn)首音樂(lè )數據，比之前的音樂(lè )數據集大10倍。然后針對音樂(lè )理解任務(wù)我們提出了 OctupleMIDI 這種編碼方式，其中含有8種基本的 token，包括拍號、速度、小節、位置、樂(lè )器、音高、時(shí)長(cháng)、速度等。相比之前的 REMI、CP 等，編碼方式 OctupleMIDI 能極大地縮短音樂(lè )序列長(cháng)度，同時(shí)還可以容納足夠的音樂(lè )信息。更短的序列長(cháng)度可以使模型一次性處理更長(cháng)的音樂(lè )片段，從而提升模型對音樂(lè )的理解能力。

我們使用了 BERT 的 Masked Language Modeling 訓練方式，采用了 bar-level 的掩碼策略，即一次性掩蓋一個(gè)小節內相同類(lèi)型的 token，以防止信息泄露。

MusicBERT 模型結構采用了基本的 Transformer，同時(shí)在模型的輸入和輸出上針對 OctupleMIDI 的編碼做了一些特殊的設計——輸入時(shí)將8個(gè) token 的 embedding 拼接后通過(guò)一個(gè)線(xiàn)性層映射到模型的隱層維度，在輸出時(shí)接8個(gè) softmax 矩陣分別預測相應的 token。

MusicBERT 在三個(gè)下游任務(wù)：Melody Completion、Accompaniment Completion 和 Genre Classification 上取得了 SOTA 的效果，遠超以前的音樂(lè )理解模型。

伴奏編曲

在伴奏編曲的生成方面，我們進(jìn)行了 PopMAG 這個(gè)工作。PopMAG 處理的任務(wù)形式是給定主旋律和****進(jìn)而生成不同樂(lè )器的伴奏，包括鼓、貝斯、吉他、鍵盤(pán)、弦樂(lè )等。這其中的一個(gè)難點(diǎn)就是要保證多軌音樂(lè )的和諧。因此，我們提出了MuMIDI 的編碼方式，將多軌音樂(lè )編碼到一個(gè)序列里，使得多軌音樂(lè )生成變成了單個(gè)序列的生成，這樣自然地建模了不同軌音符之間的依賴(lài)關(guān)系。

我們在三個(gè)數據集上評估了 PopMAG 的伴奏生成效果，根據人的主觀(guān)評測，生成的伴奏已經(jīng)比較接近真實(shí)的伴奏了。

歌曲合成

針對歌聲合成，我們做了 HiFiSinger 的工作。事實(shí)上，和說(shuō)話(huà)的聲音相比，歌聲需要更高的保真度來(lái)傳達表現力和情感。那么怎么實(shí)現高保真度呢？一個(gè)方面是提高聲音質(zhì)量，另一方面是提高聲音的采樣率。

之前的工作大都關(guān)注在提高聲音質(zhì)量，而我們考慮的是提高采樣率。我們知道人耳對頻率的感知范圍為20到20kHz，如果采用16kHz或者24kHz的采樣率的話(huà)，根據奈奎斯特-香農采樣定理，它只能覆蓋8kHz或者12kHz的頻帶范圍，并不能很好地覆蓋人耳的聽(tīng)覺(jué)范圍。因此我們將采樣率從24kHz升到48kHz來(lái)進(jìn)行建模。

整個(gè)歌聲合成的流程采用了聲學(xué)模型和聲碼器級聯(lián)的方式，如下圖（右）所示。但是升級到48kHz的采樣率有兩個(gè)挑戰：1）48kHz在頻譜維度有更寬的頻譜，這給聲學(xué)模型的建模帶來(lái)了挑戰；2）48kHz在時(shí)間維度上有更長(cháng)的語(yǔ)音采樣點(diǎn)，這給聲碼器的建模帶來(lái)了挑戰。

所以，我們分別提出了針對聲學(xué)模型的 Sub-frequency GAN 和針對聲碼器的 Multi-length GAN來(lái)解決上述問(wèn)題。

實(shí)驗結果顯示 HiFiSinger 相比之前的基線(xiàn)方法取得了明顯的音質(zhì)提升，表明了我們的方法對高采樣率建模的有效性。同時(shí)采用48kHz采樣率的 HiFiSinger 模型甚至超過(guò)了24kHz的錄音音質(zhì)，也證明了高采樣率的優(yōu)勢。

以上就是我們在 AI 音樂(lè )生成方面開(kāi)展的一系列研究工作。目前 AI 音樂(lè )生成仍存在一些研究挑戰，包括以下幾個(gè)方面：1）對音樂(lè )結構的理解有助于音樂(lè )的生成以及編排；2）音樂(lè )的情感以及風(fēng)格的建模；3）交互式的音樂(lè )創(chuàng )作；4）對于生成音樂(lè )原創(chuàng )性的保證等。

微軟亞洲研究院機器學(xué)習組一直致力于 AI 音樂(lè )的研究，研究課題包括詞曲寫(xiě)作、伴奏編曲、歌聲合成、音樂(lè )理解等。我們即將推出 AI 音樂(lè )開(kāi)源項目 Muzic，涵蓋了我們在 AI 音樂(lè )的一系列研究工作，敬請期待。

AI 音樂(lè )研究項目主頁(yè)：

https://www.microsoft.com/en-us/research/project/ai-music/

Muzic 開(kāi)源項目頁(yè)面（頁(yè)面將于近期公開(kāi)）：

https://github.com/microsoft/muzic

論文列表：

[1] SongMASS: Automatic Song Writing with Pre-training and Alignment Constraint, AAAI 2021, https://arxiv.org/pdf/2012.05168.pdf

[2] DeepRapper: Neural Rap Generation with Rhyme and Rhythm Modeling, ACL 2021, https://arxiv.org/pdf/2107.01875.pdf

[3] MusicBERT: Symbolic Music Understanding with Large-Scale Pre-Training, ACL 2021, https://arxiv.org/pdf/2106.05630.pdf

[4] PopMAG: Pop Music Accompaniment Generation, ACM MM 2020, https://arxiv.org/pdf/2008.07703.pdf

[5] HiFiSinger: Towards High-Fidelity Neural Singing Voice Synthesis, arXiv 2021, https://arxiv.org/pdf/2009.01776.pdf

相關(guān)鏈接：

https://www.microsoft.com/en-us/research/project/ai-music/

https://www.bilibili.com/video/BV1Kg411G78m

https://github.com/microsoft/muzic

*博客內容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀(guān)點(diǎn)，如有侵權請聯(lián)系工作人員刪除。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： AI

相關(guān)推薦

瑞薩電子AI單元解決方案成功提高GE醫療（日本）日野工廠(chǎng)的生產(chǎn)力

winni945 | 2018-09-12

2021春晚黑科技，火爆全網(wǎng)的\"打工牛\"是什么來(lái)頭？

視頻 AI 機器人 | 2021-02-26

釋說(shuō)芯語(yǔ)16：硬科技：構建企業(yè)未來(lái)之路（附PPT）

jackwang | 2018-10-22

AI+機器視覺(jué)成趨勢，圖文詳解N大應用場(chǎng)景

智能計算安森美 AI 機器視覺(jué) | 2024-07-31

EEPW2018年3月刊(工業(yè)物聯(lián)網(wǎng))

資源下載工業(yè)物聯(lián)網(wǎng) AI | 2018-03-12

如何快速搭建手寫(xiě)體識別演示系統

視頻 digikey AI 手寫(xiě)體識別 | 2022-07-29

萬(wàn)家樂(lè )JSYZ5-AI燃氣熱水器電路圖

設計方案電路圖熱水器燃氣 JSYZ5-AI 萬(wàn)家樂(lè ) | 2013-01-17

“破局AI開(kāi)發(fā)，釋放邊緣算力開(kāi)發(fā)者訪(fǎng)談”，干貨滿(mǎn)滿(mǎn)！

視頻 intel AI OpenVINO | 2021-06-10

WTC-AI太陽(yáng)能熱水器電路圖

設計方案 WTC-AI 太陽(yáng)能熱水器電路圖 | 2012-07-24

國際奧委會(huì )：最大限度發(fā)揮 AI 工具影響力，體育人才選拔方式有望得到革新

智能計算 AI 奧運會(huì ) 體育 | 2024-07-26

電子元件培訓教材

資源下載 NBA 電子元件識別電阻識別電容識別 AI MI SMT DIP 靜電防護 | 2008-09-20

EEPW2018年6月刊(5G)

資源下載 5G AI | 2018-06-11

繼上次海聯(lián)達Ai-ap100拆機之電源改造

zhuwei0710 | 2013-04-03

iCAN-4017 AI功能模塊

資源下載周立功單片機功能模塊 iCAN-4017 AI | 2007-03-30

攻擊成功率從 3% 到接近 100%，利用空格鍵可繞過(guò) Meta AI 模型安全系統

智能計算 Meta AI | 2024-07-31

CSR8670CSR8675智能語(yǔ)音Alexa藍牙方案開(kāi)發(fā)

資源下載 AI 智能語(yǔ)音 | 2017-12-14

加大調整力度，教育部支持高校布局集成電路、AI 等專(zhuān)業(yè)

智能計算教育 AI 集成電路 | 2024-07-25

海聯(lián)達（Aigale）Ai-HD1 無(wú)線(xiàn)全高清套件拆解

zhuwei0710 | 2013-04-28

人工智能是如何幫助阻止造假者的？

謝丫丫 | 2018-08-14

iPhone 16將不會(huì )預裝AI功能？計劃通過(guò)iOS 18.1發(fā)布

iPhone AI iOS | 2024-07-30

深圳加快打造 AI 先鋒城市，今年將建成 4000PFLOPS 算力智算中心

智能計算 AI 智能計算深圳 | 2024-07-30

大嘴業(yè)話(huà)-AI目前市場(chǎng)分析

視頻人工智能，AI，ChatGPT，互聯(lián)網(wǎng)技術(shù) | 2023-04-25

蘋(píng)果表示其AI模型是在谷歌的定制芯片上訓練的

智能計算 AI | 2024-07-30

蘋(píng)果承認：AI模型使用谷歌定制芯片訓練

智能計算蘋(píng)果 AI 谷歌定制芯片 | 2024-07-30

AI驅動(dòng)的嵌入式聲音和振動(dòng)識別

視頻 ADI AI 嵌入式 OtoSense | 2018-10-23

摩根士丹利：僅 GB200 AI 服務(wù)器業(yè)務(wù)，就為英偉達創(chuàng )造 2100 億美元年收入

智能計算 GB200 AI 英偉達 GPU | 2024-07-26

Nvidia的CEO談AI的未來(lái)：“我們將需要三臺電腦... 一臺來(lái)創(chuàng )建AI... 一臺來(lái)模擬AI... 一臺來(lái)運行AI”

智能計算 AI | 2024-07-31

WTC-AI型太陽(yáng)能熱水器電路圖

設計方案電子電路圖，WTC-AI 太陽(yáng)能熱水器電路熱水器 | 2012-07-30

焦點(diǎn)

推薦視頻

更多>>

技術(shù)專(zhuān)區

国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放

<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>