沒(méi)有授權也阻止不了,多家AI公司繞過(guò)網(wǎng)絡(luò )標準抓取出版商網(wǎng)站內容
6 月 24 日消息,據路透社上周六報道,專(zhuān)注于“內容許可”領(lǐng)域的初創(chuàng )公司 TollBit 近日向新聞出版商發(fā)出警告稱(chēng),多家人工智能公司正在規避出版商用來(lái)阻止抓取內容的常見(jiàn)網(wǎng)絡(luò )標準,并將抓取的內容用于訓練生成式 AI 系統。
本文引用地址:http://dyxdggzs.com/article/202406/460214.htm這一消息是在 AI 搜索初創(chuàng )公司 Perplexity 與媒體《福布斯》之間就同一網(wǎng)絡(luò )標準公開(kāi)爭執的背景下發(fā)出的。當前,科技和媒體公司之間正在就生成式 AI 時(shí)代的內容價(jià)值展開(kāi)更廣泛的辯論。
Tollbit 將自己定位為內容匱乏的 AI 公司與愿意與他們達成重大許可協(xié)議的出版商之間的“媒人”。
IT之家注:《福布斯》曾指責 Perplexity 在 AI 生成的摘要中剽竊其報道內容,然而前者并未標注消息來(lái)源,也沒(méi)有獲得《福布斯》的許可。
另外,《連線(xiàn)》(Wired)雜志上周也發(fā)表了一篇調查報道并指出,Perpexity 可能繞過(guò)了(新聞出版商設置的)“機器人排除協(xié)議(Robots Exclusion Protocol)”或其他阻止網(wǎng)絡(luò )爬蟲(chóng)的程序。
圖源 Pexels
自稱(chēng)代表 2000 多家美國出版商的貿易組織“新聞媒體聯(lián)盟”也對這一行為表示擔憂(yōu) ——AI 公司對出版商設置的“禁止抓取”機制或“robots.txt”等工具置若罔聞。該組織主席 Danielle Coffey 表示,“如果 AI 公司無(wú)法停止大規模抓取的話(huà),我們就無(wú)法通過(guò)有價(jià)值的內容獲利,也無(wú)法為記者們支付報酬?!?/p>
Tollbit 表示,Perplexity 并不是唯一無(wú)視出版商網(wǎng)站“禁止抓取”機制的違規者。根據其分析,“大量”AI 平臺繞過(guò)了這一機制,而該機制為 AI 平臺抓取自家內容設置了一份“白名單”—— 指示其網(wǎng)站哪些部分可以被抓取。
“這意味著(zhù),來(lái)自多個(gè)來(lái)源(而不僅僅是一家公司)的 AI 平臺正在選擇繞過(guò) robots.txt 協(xié)議來(lái)從網(wǎng)站中檢索內容,”TollBit 寫(xiě)道,“我們獲取的出版商日志越多,這種模式出現的次數就越多?!?/p>
包括《紐約時(shí)報》在內的一些出版商已就這些侵權行為起訴 AI 公司。其他出版商則與人工智能公司簽署了許可協(xié)議,AI 公司們也愿意為內容付費,盡管雙方往往對材料的價(jià)值存在分歧。許多 AI 開(kāi)發(fā)者認為,他們免費獲取內容并未違反任何法律。
評論