<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 智能計算 > 設計應用 > AI 引發(fā)了一場(chǎng)關(guān)于網(wǎng)絡(luò )爬蟲(chóng)的戰斗

AI 引發(fā)了一場(chǎng)關(guān)于網(wǎng)絡(luò )爬蟲(chóng)的戰斗

—— 由于網(wǎng)站限制爬蟲(chóng)機器人,訓練數據可能最終會(huì )供不應求
作者:Eliza Strickland 時(shí)間:2024-09-06 來(lái)源: 收藏

大多數人認為生成式  會(huì )越來(lái)越好;畢竟,這是迄今為止的趨勢。它可能會(huì )這樣做。但有些人沒(méi)有意識到的是,生成式  模型的好壞取決于它們所訓練的巨大數據集,而這些數據集并不是根據 Open 和 Anthropic 等領(lǐng)先 AI 公司擁有的專(zhuān)有數據構建的。相反,它們由我們所有人創(chuàng )建的公共數據組成,包括任何曾經(jīng)寫(xiě)過(guò)博客文章、發(fā)布過(guò)視頻、在 Reddit 帖子上發(fā)表過(guò)評論或基本上在網(wǎng)上做過(guò)任何其他事情的人。

本文引用地址:http://dyxdggzs.com/article/202409/462744.htm

AI 研究人員志愿者團體 Data Provenance Initiative 的一份新報告揭示了所有這些數據的情況。這份題為《危機中的同意:AI Data Commons 的快速衰落》的報告指出,大量感到受到 威脅的組織正在采取措施隔離其數據。IEEE Spectrum 與數據來(lái)源計劃(Data Provenance Initiative)的首席研究員 Shayne Longpre 就該報告及其對 AI 公司的影響進(jìn)行了交談。

Shayne Longpre 發(fā)表在:

?  網(wǎng)站如何阻止,以及為什么

?  消失的數據及其對 AI 公司的意義

?  合成數據、峰值數據以及接下來(lái)會(huì )發(fā)生什么

 

網(wǎng)站用來(lái)阻止的技術(shù)并不新鮮 — 機器人排除協(xié)議于 1995 年推出。您能否解釋一下它是什么,以及為什么它在 時(shí)代突然變得如此重要?

謝恩·朗普雷: Robots.txt 是一個(gè)機器可讀的文件,爬蟲(chóng)(瀏覽 Web 并記錄所見(jiàn)內容的機器人)使用它來(lái)確定是否爬取網(wǎng)站的某些部分。在網(wǎng)站主要使用它來(lái)指導 Web 搜索的時(shí)代,它成為事實(shí)上的標準。所以想想 Bing 或 Google 搜索;他們希望記錄此信息,以便改善用戶(hù)在 Web 上導航的體驗。這是一種非常共生的關(guān)系,因為 Web 搜索是通過(guò)向網(wǎng)站發(fā)送流量來(lái)運作的,而網(wǎng)站希望如此。一般來(lái)說(shuō),大多數網(wǎng)站都能很好地與大多數爬蟲(chóng)配合使用。

接下來(lái),讓我談?wù)剬斫膺@一點(diǎn)很重要的一系列主張。通用 AI 模型及其令人印象深刻的功能依賴(lài)于用于訓練它們的數據和計算規模。規模和數據真的很重要,很少有來(lái)源像 Web 那樣提供公共規模。因此,許多基礎模型都是在 Web 爬取的 [數據集] 上訓練的。在這些流行和重要的數據集下,基本上只是網(wǎng)站和用于收集、打包和處理這些數據的爬蟲(chóng)基礎設施。我們的研究不僅關(guān)注數據集,還關(guān)注來(lái)自底層網(wǎng)站的偏好信號。它是數據本身的供應鏈。

但去年,許多網(wǎng)站開(kāi)始使用 robots.txt 來(lái)限制機器人,尤其是通過(guò)廣告和付費墻獲利的網(wǎng)站——想想新聞和藝術(shù)家。他們特別害怕,也許這是正確的,因為 可能會(huì )影響他們的生計。因此,他們正在采取措施保護自己的數據。

當一個(gè)網(wǎng)站設置robots.txt限制時(shí),就像豎起了禁止擅自進(jìn)入的標志,對吧?它不可執行。您必須相信爬蟲(chóng)會(huì )尊重它。

Longpre: 這樣做的悲劇在于,robots.txt 是機器可讀的,但似乎沒(méi)有法律效力。而服務(wù)條款可能在法律上具有可執行性,但不是機器可讀的。在服務(wù)條款中,他們可以用自然語(yǔ)言闡明對數據使用的偏好。所以他們可以說(shuō),“你可以使用這些數據,但不能用于商業(yè)用途。但是在robots.txt中,您必須單獨指定爬蟲(chóng),然后說(shuō)出您允許或不允許它們的網(wǎng)站哪些部分。這給網(wǎng)站帶來(lái)了不必要的負擔,需要在數以千計的不同爬蟲(chóng)中弄清楚哪些對應于他們想要的用途,哪些對應于他們不喜歡的用途。

我們是否知道爬蟲(chóng)通常是否遵守 robots.txt 中的限制?

Longpre:許多大公司都有明確說(shuō)明其規則或程序的文件。例如,在 Anthropic 的案例中,他們確實(shí)表示他們尊重 ClaudeBot 的robots.txt。然而,這些公司中的許多公司最近也出現在新聞中,因為它們被指責尊重robots.txt和抓取網(wǎng)站。從外部來(lái)看,目前尚不清楚為什么人工智能公司所說(shuō)的和他們被指控做的事情之間存在差異。但是,許多使用爬蟲(chóng)的親社會(huì )團體——小型創(chuàng )業(yè)公司、學(xué)者、非營(yíng)利組織、記者——他們往往尊重robots.txt。他們不是這些限制的預期目標,但他們會(huì )被這些限制阻止。

在報告中,您查看了通常用于訓練生成式 AI 系統的三個(gè)訓練數據集,這些數據集都是根據過(guò)去幾年的創(chuàng )建的。您發(fā)現,從 2023 年到 2024 年,此后受到限制的已爬網(wǎng)域數量大幅增加。您能談?wù)勥@些發(fā)現嗎?

Longpre: 我們發(fā)現,如果你看一下特定的數據集,讓我們以 2019 年創(chuàng )建的非常流行的 C4 為例——在不到一年的時(shí)間里,如果你尊重或遵守底層網(wǎng)站的偏好,它大約 5% 的數據已被撤銷(xiāo)?,F在 5% 聽(tīng)起來(lái)并不多,但當您意識到這部分數據主要對應于最高質(zhì)量、維護最完善和最新的數據時(shí)。當我們查看此 C4 數據集中的前 2,000 個(gè)網(wǎng)站(這些網(wǎng)站是按大小計算的前 2,000 個(gè)網(wǎng)站,它們大多是新聞、大型學(xué)術(shù)網(wǎng)站、社交媒體和精心策劃的高質(zhì)量網(wǎng)站)時(shí),前 2,000 個(gè)網(wǎng)站中 25% 的數據已被撤銷(xiāo)。這意味著(zhù),尊重robots.txt模型的訓練數據分發(fā)正在迅速從高質(zhì)量的新聞、學(xué)術(shù)網(wǎng)站、論壇和社交媒體轉向更多的組織和個(gè)人網(wǎng)站以及電子商務(wù)和博客。

如果我們要求某個(gè)未來(lái)版本的 ChatGPT 或 Perplexity 來(lái)回答復雜的問(wèn)題,并且它從個(gè)人博客和購物網(wǎng)站獲取信息,這似乎可能是一個(gè)問(wèn)題。

Longpre: 完全。很難衡量這將如何影響模型,但我們懷疑尊重robots.txt的模型的性能與已經(jīng)保護這些數據并愿意對其進(jìn)行訓練的模型的性能之間存在差距。

但較舊的數據集仍然完好無(wú)損。AI 公司可以只使用舊數據集嗎?這樣做的缺點(diǎn)是什么?

Longpre:嗯,持續的數據新鮮度真的很重要。目前也不清楚robots.txt是否可以追溯適用。出版商可能會(huì )爭辯說(shuō)他們有。因此,這取決于您對訴訟的胃口,或者您也認為趨勢可能會(huì )走向何方,尤其是在美國,圍繞合理使用數據的訴訟正在進(jìn)行中。最好的例子顯然是《紐約時(shí)報》對 OpenAI 和 Microsoft 的反對,但現在有很多變體。關(guān)于它會(huì )走向何方,存在很多不確定性。

這份報告被稱(chēng)為《危機中的同意》(Consent in Crisis)。您為什么認為這是一場(chǎng)危機?

Longpre:我認為這對數據創(chuàng )建者來(lái)說(shuō)是一場(chǎng)危機,因為很難用現有協(xié)議來(lái)表達他們想要的東西。此外,對于一些非商業(yè)性甚至可能與 AI 無(wú)關(guān)的開(kāi)發(fā)人員來(lái)說(shuō),學(xué)者和研究人員發(fā)現這些數據越來(lái)越難訪(fǎng)問(wèn)。我認為這也是一場(chǎng)危機,因為它太混亂了?;A設施的設計并不是為了同時(shí)容納所有這些不同的使用案例。由于這些巨大的行業(yè)發(fā)生碰撞,它最終成為一個(gè)問(wèn)題,生成式 AI 針對新聞創(chuàng )作者和其他人。

如果這種情況持續下去,越來(lái)越多的數據受到限制,AI 公司該怎么辦?為了繼續訓練巨大的模型,他們的行動(dòng)會(huì )是什么?

Longpre: 大公司將直接許可它。如果大量這些數據被取消抵押品贖回權或難以收集,對于一些大公司來(lái)說(shuō),這可能不是一個(gè)壞結果,它只會(huì )為進(jìn)入創(chuàng )造更大的資本要求。我認為大公司將加大對數據收集管道的投資,并持續訪(fǎng)問(wèn)用戶(hù)生成的寶貴數據源,例如 YouTube、GitHub 和 Reddit。獲得對這些網(wǎng)站的獨家訪(fǎng)問(wèn)權可能是一種明智的市場(chǎng)游戲,但從反壟斷的角度來(lái)看,這是一個(gè)有問(wèn)題的游戲。我特別擔心由此可能產(chǎn)生的獨家數據獲取關(guān)系。

您認為合成數據可以填補空白嗎?

Longpre: 大公司已經(jīng)在大量使用合成數據。合成數據既有恐懼,也有機遇。一方面,有一系列工作證明了模型崩潰的可能性,即由于對不良合成數據進(jìn)行訓練而導致的模型退化,隨著(zhù)越來(lái)越多的生成機器人被釋放,這些數據可能會(huì )更頻繁地出現在網(wǎng)絡(luò )上。但是,我認為大型模型不太可能受到太大阻礙,因為它們具有高質(zhì)量的過(guò)濾器,因此質(zhì)量差或重復的內容可以被抽走。合成數據的機會(huì )在于,它在實(shí)驗室環(huán)境中創(chuàng )建得非常高質(zhì)量,并且它特別針對未開(kāi)發(fā)的領(lǐng)域。

您是否相信我們可能處于峰值數據的觀(guān)點(diǎn)?或者你覺(jué)得這是一個(gè)夸大其詞的擔憂(yōu)?

Longpre: 那里有很多未開(kāi)發(fā)的數據。但有趣的是,很多都隱藏在 PDF 后面,因此您需要進(jìn)行 OCR [光學(xué)字符識別]。許多數據被鎖定在政府、專(zhuān)有渠道、非結構化格式或 PDF 等難以提取的格式中。我認為在弄清楚如何提取這些數據方面將投入更多資金。我確實(shí)認為,就容易獲得的數據而言,許多公司開(kāi)始碰壁并轉向合成數據。

這里的趨勢線(xiàn)是什么?您是否希望在未來(lái)幾年看到更多網(wǎng)站設置robots.txt限制?

Longpre: 我們預計,無(wú)論是在robots.txt方面還是在服務(wù)方面,限制都會(huì )增加。這些趨勢線(xiàn)從我們的工作中非常清晰,但它們可能會(huì )受到外部因素的影響,例如立法、公司本身改變政策、訴訟結果以及來(lái)自作家協(xié)會(huì )的社區壓力等等。我預計,數據商品化的加劇將導致該領(lǐng)域的更多戰場(chǎng)。

您希望看到行業(yè)內的標準化與使網(wǎng)站更容易表達有關(guān)抓取的偏好方面發(fā)生什么?

Longpre: 在 Data Province Initiative,我們絕對希望出現并采用新標準,使創(chuàng )作者能夠以更精細的方式表達他們對數據使用的偏好。這將使他們的負擔減輕得多。我認為這是不費吹灰之力的雙贏(yíng)。但目前尚不清楚誰(shuí)的工作是制定或執行這些標準。如果 [AI] 公司自己能夠得出這個(gè)結論并付諸實(shí)踐,那就太神奇了。但是,標準的設計者幾乎不可避免地會(huì )對自己的使用產(chǎn)生一些偏見(jiàn),特別是如果它是一個(gè)公司實(shí)體。

此外,并非所有情況下都不應尊重偏好。例如,我不認為從事親社會(huì )研究的學(xué)者或記者必須被取消贖回權,不能使用已經(jīng)公開(kāi)的機器訪(fǎng)問(wèn)任何人都可以自己訪(fǎng)問(wèn)的網(wǎng)站中的數據。并非所有數據都是平等的,也不是所有用途都是平等的。



評論


相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>