?CriticGPT:OpenAI 構建 AI 來(lái)批判 AI
—— CriticGPT 旨在幫助識別模型變得越來(lái)越復雜的幻覺(jué)
OpenAI在解決這個(gè)問(wèn)題方面邁出了最新的一小步,它以一種上游工具的形式出現,該工具將幫助訓練模型的人類(lèi)引導它走向真實(shí)和準確。今天,該公司發(fā)布了一篇博客文章和一篇預印本論文,描述了這項工作。這種類(lèi)型的研究屬于“對齊”工作的范疇,因為研究人員正試圖使人工智能系統的目標與人類(lèi)的目標保持一致。
這項新工作的重點(diǎn)是從人類(lèi)反饋中強化學(xué)習(RLHF),這種技術(shù)對于采用基本語(yǔ)言模型并對其進(jìn)行微調,使其適合公開(kāi)發(fā)布變得非常重要。借助 RLHF,人類(lèi)培訓師可以評估來(lái)自語(yǔ)言模型的各種輸出,這些輸出都是針對同一問(wèn)題生成的,并指出哪種響應是最好的。當大規模完成時(shí),這種技術(shù)有助于創(chuàng )建更準確、更少種族主義、更禮貌、更不傾向于制定生物武器配方的模型,等等。
人工智能能抓住謊言中的人工智能嗎?
OpenAI 研究員 Nat McAleese 解釋說(shuō),RLHF 的問(wèn)題在于“隨著(zhù)模型變得越來(lái)越智能,這項工作變得越來(lái)越困難。隨著(zhù) LLM 對從文學(xué)理論到分子生物學(xué)的所有方面都產(chǎn)生了越來(lái)越復雜和復雜的反應,典型的人類(lèi)判斷最佳輸出的能力越來(lái)越弱?!耙虼?,這意味著(zhù)我們需要超越RLHF的東西來(lái)調整更先進(jìn)的系統,”McAleese告訴IEEE Spectrum。
OpenAI 打出的解決方案是——令人驚訝!——更多的 AI。
具體來(lái)說(shuō),OpenAI 研究人員訓練了一個(gè)名為 CriticGPT 的模型來(lái)評估 ChatGPT 的反應。在這些初步測試中,他們只讓 ChatGPT 生成計算機代碼,而不是文本響應,因為錯誤更容易被發(fā)現,而且不那么模棱兩可。目標是制作一個(gè)可以幫助人類(lèi)完成 RLHF 任務(wù)的模型?!拔覀儗Υ烁械椒浅Ed奮,”McAleese說(shuō),“因為如果你有人工智能幫助做出這些判斷,如果你在提供反饋時(shí)能做出更好的判斷,你就可以訓練出更好的模型。這種方法是一種“可擴展的監督”,旨在讓人類(lèi)能夠監視人工智能系統,即使它們最終在智力上超過(guò)了我們。
“使用 LLM 輔助的人工注釋器是改進(jìn)反饋過(guò)程的自然方法?!薄猄TEPHEN CASPER,麻省理工學(xué)院
當然,在用于這些實(shí)驗之前,CriticGPT 必須使用通常的技術(shù)(包括 RLHF)進(jìn)行自我訓練。有趣的是,研究人員讓人類(lèi)訓練師故意將錯誤插入 ChatGPT 生成的代碼中,然后再將其交給 CriticGPT 進(jìn)行評估。CriticGPT 隨后提供了各種響應,人類(lèi)能夠判斷最佳輸出,因為他們知道模型應該捕獲哪些錯誤。
OpenAI 使用 CriticGPT 的實(shí)驗結果令人鼓舞。研究人員發(fā)現,CriticGPT 捕獲的 bug 比合格的人類(lèi)為代碼審查支付的費用要多得多:CriticGPT 捕獲了大約 85% 的 bug,而人類(lèi)只捕獲了 25%。他們還發(fā)現,將 CriticGPT 與人類(lèi)訓練師配對會(huì )產(chǎn)生比人類(lèi)單獨撰寫(xiě)的評論更全面的評論,并且比 ChatGPT 撰寫(xiě)的評論包含更少的幻覺(jué)錯誤。McAleese 表示,OpenAI 正在努力在其訓練管道中部署 CriticGPT,但目前尚不清楚它在更廣泛的任務(wù)中有多大用處。
CriticGPT 發(fā)現編碼錯誤,但可能沒(méi)有斑馬
重要的是要注意這項研究的局限性,包括它對短代碼段的關(guān)注。雖然這篇論文不經(jīng)意地提到了一項使用 CriticGPT 捕捉文本響應錯誤的初步實(shí)驗,但研究人員還沒(méi)有真正涉足這些更渾濁的水域。這很棘手,因為文本中的錯誤并不總是像斑馬在維多利亞時(shí)代的小說(shuō)中跳華爾茲那樣明顯。更重要的是,RLHF 通常用于確保模型在其響應中不會(huì )表現出有害的偏見(jiàn),并確實(shí)在有爭議的主題上提供可接受的答案。McAleese 表示,CriticGPT 在這種情況下不太可能有幫助:“它不是一個(gè)足夠強大的方法。
一位與OpenAI無(wú)關(guān)的AI研究人員表示,這項工作在概念上并不新鮮,但它在方法論上做出了有用的貢獻。麻省理工學(xué)院博士生、2023 年一篇關(guān)于 RLHF 局限性的預印本論文的主要作者之一 Stephen Casper 說(shuō):“RLHF 的一些主要挑戰源于人類(lèi)認知速度、注意力和對細節的關(guān)注的限制?!皬倪@個(gè)角度來(lái)看,使用LLM輔助的人工注釋器是改善反饋過(guò)程的自然方法。我相信這是朝著(zhù)更有效地訓練對齊模型邁出的重要一步。
但卡斯珀也指出,將人類(lèi)和人工智能系統的努力結合起來(lái)“可能會(huì )產(chǎn)生全新的問(wèn)題”。例如,他說(shuō),“這種方法增加了人類(lèi)敷衍參與的風(fēng)險,并可能允許在反饋過(guò)程中注入微妙的人工智能偏見(jiàn)。
新的對齊研究是 OpenAI 自公司以來(lái)首次推出的對齊研究......委婉地說(shuō),重組了其對齊團隊。據報道,OpenAI 聯(lián)合創(chuàng )始人 Ilya Sutskever 和 Alignment 負責人 Jan Leike 于 5 月離職,兩人都擔心該公司沒(méi)有優(yōu)先考慮 AI 風(fēng)險,OpenAI 證實(shí)它已經(jīng)解散了其對齊團隊,并將剩余的團隊成員分配給其他研究小組。每個(gè)人都在等著(zhù)看該公司是否會(huì )繼續開(kāi)展可信和開(kāi)創(chuàng )性的對齊研究,以及規模如何。(2023 年 7 月,該公司曾宣布將其 20% 的計算資源用于對齊研究,但 Leike 在 2024 年 5 月的一條推文中表示,他的團隊最近一直在“為計算而苦苦掙扎”。今天發(fā)布的預印本表明,至少對齊研究人員仍在研究這個(gè)問(wèn)題。
評論