YouTube成AI訓練新寵? OpenAI操作手法曝光
以聊天機器人ChatGPT一炮而紅的人工智能公司OpenAI,去年發(fā)布功能更強大的GPT-4,成為AI領(lǐng)域的衡量標竿。而這樣快速的進(jìn)步或許靠的正是YouTube影片的「幫忙」。據《紐約時(shí)報》報導,OpenAI利用AI版權法的模糊地帶,轉錄了超過(guò)100萬(wàn)小時(shí)的YouTube影片,用于訓練其先進(jìn)大型語(yǔ)言模型GPT-4。
本文引用地址:http://dyxdggzs.com/article/202404/457277.htmYouTube 是網(wǎng)絡(luò )上最大且最豐富的圖像、音頻與文字記錄來(lái)源。在A(yíng)I技術(shù)迅速發(fā)展之際,數據對推動(dòng)AI模型的進(jìn)步至關(guān)重要,各相關(guān)企業(yè)對訓練數據的需求更為迫切。YouTube因此成為科技公司鎖定的目標。
據《紐約時(shí)報》報導,OpenAI在2021年底就面臨了訓練數據短缺的難題。為了開(kāi)發(fā)最新的人工智能系統,OpenAI已耗盡網(wǎng)絡(luò )上所有有信譽(yù)的英語(yǔ)文字庫,然而為了訓練其技術(shù)的下一個(gè)版本,顯然還需要更多的數據。
為了克服數據短缺的難題,OpenAI的研究人員開(kāi)發(fā)出一款名為「Whisper」的語(yǔ)音識別工具,將超過(guò)100萬(wàn)小時(shí)的YouTube影片內容轉化為文字,用于訓練其先進(jìn)的大型語(yǔ)言模型GPT-4。
《紐約時(shí)報》報導中指出,其實(shí)OpenAI的部分員工也討論過(guò)這個(gè)做法可能違反YouTube 的規則??墒窍⑷耸勘硎?,盡管了解這樣做在法律層面有問(wèn)題,但OpenAI 團隊最終仍轉錄了超過(guò)100萬(wàn)小時(shí)的YouTube 影片,而這個(gè)團隊中還包括了OpenAI總裁Greg Brockman,他甚至親自幫忙收集這些影片。
可是對于旗下的YouTube被OpenAI當作訓練工具,Google并未出面制止,原因似乎與Google自身也同樣藉由YouTube影片內容訓練其人工智能模型有關(guān)。
YouTube執行長(cháng)Neal Mohan日前曾在受訪(fǎng)時(shí)表示,他沒(méi)有直接證據能夠證明OpenAI確實(shí)使用了YouTube的影片來(lái)訓練其文字生成影片AI工具Sora,但同時(shí)也強調,如果OpenAI真的使用了,那就明顯違反了YouTube平臺的使用條款。
但《紐約時(shí)報》指出,為了在A(yíng)I競賽中搶先,搜尋推動(dòng)技術(shù)所需的數字數據已成為重要課題,而為了取得這些數據,包括OpenAI、Google與臉書(shū)母公司 Meta 在內的科技公司紛紛選擇走快捷方式,無(wú)視公司政策,甚至還討論如何扭曲法規限制。
評論