MIT又一突破!用AI過(guò)濾音源,讓音樂(lè )更悅耳
一般利用均衡器可以將音樂(lè )中的低音部分調出來(lái),但是麻省理工學(xué)院的計算機科學(xué)和人工智能實(shí)驗室(Computer Science and Artificial Intelligence Lab,CSAIL)的研究人員發(fā)現了更好的解決方案。他們所研發(fā)的新系統 PixelPlayer,能夠利用人工智能來(lái)區分和過(guò)濾聲音,讓音樂(lè )聽(tīng)起來(lái)更洪亮或更柔和。
本文引用地址:http://dyxdggzs.com/article/201807/382989.htm將指定視頻錄入經(jīng)過(guò)充分訓練的 PixelPlayer,系統隨機能夠過(guò)濾伴奏,同時(shí)識別音源,接著(zhù)計算圖像中每個(gè)像素的音量,然后通過(guò)“空間定位”確定產(chǎn)生相似音波的片段。
今年9月,德國慕尼黑即將舉行歐洲計算機視覺(jué)會(huì )議(European Conference on Computer Vision),會(huì )議中要發(fā)表的一篇新論文則詳細論述了“像素的聲音(The Sound of Pixels)”。麻省理工學(xué)院計算機科學(xué)和人工智能實(shí)驗室的博士生,同時(shí)也是這篇論文的合著(zhù)者 Zhao Hang 同學(xué)表示,“最好的情況就是,我們能識別出哪種樂(lè )器發(fā)出怎樣的聲音?!?/p>
PixelPlayer 的核心是一種基于樂(lè )器組合多模態(tài)訓練的神經(jīng)網(wǎng)絡(luò ),數據集采用了 Youtube 上 714 條未經(jīng)修剪且未經(jīng)標記的視頻。其中,總時(shí)長(cháng)為 60 小時(shí)的 500 條視頻用于訓練,剩余的則用于驗證和測試。在訓練過(guò)程中,研究人員分別根據原聲吉他、大提琴、單簧管、長(cháng)笛和其他樂(lè )器向系統饋入了算法。
這只是 PixelPlayer 多重機器學(xué)習框架的一個(gè)部分。經(jīng)過(guò)訓練后的視頻分析算法將從剪輯幀中提取出視覺(jué)特征,這就是系統的第二個(gè)神經(jīng)網(wǎng)絡(luò ),即音頻分析網(wǎng)絡(luò )。音頻分析網(wǎng)絡(luò )將聲音拆分為片段,并從中提取特征。最后,音頻合成網(wǎng)絡(luò )將把上述兩個(gè)網(wǎng)絡(luò )輸出的特定像素和聲波關(guān)聯(lián)起來(lái)。
PixelPlayer 進(jìn)行完全自監督的學(xué)習,人們無(wú)需對數據注釋?zhuān)蚁到y目前已經(jīng)能識別 20 種樂(lè )器。Zhao Hang 說(shuō),較大的數據集增強了系統的識別量,但識別樂(lè )器子類(lèi)的能力卻不佳。系統也可以識別音樂(lè )元素,例如小提琴的諧波頻率。
研究人員認為 PixelPlayer 可以進(jìn)行聲音剪輯,或者幫助機器人理解動(dòng)物、車(chē)輛和其他物體所制造的環(huán)境聲音。他們寫(xiě)到,“我們希望我們的工作能夠開(kāi)辟新的研究途徑,從視覺(jué)和聽(tīng)覺(jué)信號角度實(shí)現聲源分離”。
評論