<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 比 GPT-3 更擅長(cháng)理解用戶(hù)意圖,OpenAI發(fā)布 InstructGPT

比 GPT-3 更擅長(cháng)理解用戶(hù)意圖,OpenAI發(fā)布 InstructGPT

發(fā)布人:AI科技大本營(yíng) 時(shí)間:2022-02-12 來(lái)源:工程師 發(fā)布文章

作者 | 青蘋(píng)果

來(lái)源 | 數據實(shí)戰派

近日,OpenAI 發(fā)布了一項令人矚目的研究—— InstructGPT。

在這項研究中,相比 GPT-3 而言,OpenAI 采用對齊研究(alignment research),訓練出更真實(shí)、更無(wú)害,而且更好地遵循用戶(hù)意圖的語(yǔ)言模型 InstructGPT。論文題為 Training language models to follow instructions with human feedback。                           

微信圖片_20220212153520.png

以往,GPT-3 也很可能產(chǎn)生不真實(shí)、有害或反映不良情緒的輸出。這在一定程度上是因為,在互聯(lián)網(wǎng)文本的大數據集上,訓練 GPT-3 來(lái)完成下一個(gè)單詞的預測,并非是安全地執行用戶(hù)想要的語(yǔ)言任務(wù)。換句話(huà)說(shuō),這些模型與其用戶(hù)可能實(shí)際上并不一致。

為了讓模型更安全、更有用、更一致,OpenAI 使用了一種稱(chēng)為從人類(lèi)反饋中強化學(xué)習(RLHF,Reinforcement Learning from Human Feedback)的現有技術(shù)。根據客戶(hù)向 API 提交的反饋,OpenAI 對模型的多個(gè)輸出進(jìn)行排序。然后,OpenAI 使用這些數據來(lái)微調 GPT-3。

由此產(chǎn)生的 InstructGPT 模型,在遵循指令方面,遠比 GPT-3 要好得多。而且,它們也較少的憑空捏造事實(shí),有害輸出的產(chǎn)生呈現小幅下降趨勢。InsructGPT 的參數量為 1.3 B。

InstructGPT 模型,已經(jīng)在 API 上進(jìn)行了一年多的測試,現已成為 API 上可訪(fǎng)問(wèn)的默認語(yǔ)言模型。OpenAI 相信,用 RLHF 的解決方案來(lái)微調語(yǔ)言模型是提高安全性和可靠性的強大工具。

這也是團隊多年來(lái)首次將對齊研究應用到產(chǎn)品上。

實(shí)驗結果

OpenAI 將 InstructGPT 的輸出與 GPT-3 的輸出進(jìn)行比較,以評估InstructGPT 的輸出是否很好地遵循了用戶(hù)指令。

結果發(fā)現,在 API 上,對于提交給 InstructGPT 和 GPT-3 模型的提示,InstructGPT 模型明顯更受歡迎。當 OpenAI 為 GPT-3 提示符添加一個(gè)前綴,使其進(jìn)入“指令跟隨模式”時(shí),這一點(diǎn)是成立的。

為了衡量模型的安全性,OpenAI 主要在公開(kāi)可用的數據集上使用了一套現有的度量指標。

與 GPT-3 相比,InstructGPT 產(chǎn)生的模仿性謊言更少,危害更小。OpenAI 還對 API 提示分布展開(kāi)了人工評估,結果顯示,InstructGPT 捏造事實(shí)(“幻覺(jué)”)的頻率更低,而且還能生成更恰當的輸出。

最后,OpenAI 發(fā)現在客戶(hù)分布上,InstructGPT 的輸出要優(yōu)于那些來(lái)自 FLAN 和 T0 的輸出。這表明用于訓練 FLAN 模型和 T0 模型的數據,主要是學(xué)術(shù) NLP 任務(wù),并不能完全代表部署的語(yǔ)言模型在實(shí)踐中的使用情況。

為了訓練 InstructGPT 模型,OpenAI 的核心技術(shù)是 RLHF,這是 OpenAI 在早期對齊研究中幫助開(kāi)發(fā)的一種方法。該技術(shù)利用人類(lèi)的偏好作為獎勵信號來(lái)微調模型,這一點(diǎn)很重要,因為 OpenAI 旨在解決的安全性和對齊問(wèn)題是復雜且主觀(guān)的,并且無(wú)法被簡(jiǎn)單的自動(dòng)度量指標所捕獲。

OpenAI 首先在提交給 API 的提示上收集人工編寫(xiě)的演示數據集,然后用它來(lái)訓練監督學(xué)習的基線(xiàn)。

接下來(lái),在更大的 API 提示集上收集兩個(gè)模型輸出之間的人工標記的比較數據集。然后,在此數據集上訓練獎勵模型(RM,Reward Model),以預測 labelers 更偏愛(ài)哪一種輸出。最后,使用 RM 作為獎勵函數,并通過(guò) PPO 算法微調 GPT-3 策略來(lái)最大化這個(gè)獎勵。

可以用以下方式來(lái)思考上述過(guò)程,它“解鎖”了 GPT-3 已經(jīng)具備的功能,但很難僅通過(guò)提示工程(promptengineering)來(lái)實(shí)現:這是因為相對于預訓練學(xué)到的知識而言,OpenAI 的訓練程序在幫助模型 get 更多技能方面的確能力有限。相比于模型預訓練,它使用的計算和數據甚至不足 2%。

這種方法的局限性在于它引入了“對齊稅”(alignment tax):模型如果只對齊客戶(hù)任務(wù),可能會(huì )使其在其他一些學(xué)術(shù) NLP 任務(wù)上的性能表現更差。

顯然,這是不可取的,因為如果 OpenAI 的對齊技術(shù)使模型在人們關(guān)心的任務(wù)上變得更糟,那么,他們在實(shí)踐中被采用的可能性會(huì )有多小便可想而知。不過(guò),OpenAI 發(fā)現了一種簡(jiǎn)單的算法更改,可以最小化這種對齊稅:在 RL 微調期間,OpenAI 混合了一小部分用于訓練 GPT-3 的原始數據,并使用正常的對數似然最大化訓練這些數據。

這大致維持了安全性和人類(lèi)偏好的表現,同時(shí)還降低了學(xué)術(shù)任務(wù)的性能表現,在某些情況下甚至超過(guò)了 GPT-3 的基線(xiàn)。

微信圖片_20220212153521.png

推廣到更廣泛的偏好

OpenAI 使模型的行為與 labelers 的偏好相一致,labelers 直接產(chǎn)生用于訓練模型的數據,而研究人員則通過(guò)書(shū)面指示、對具體例子的直接反饋和非正式對話(huà)為 labelers 提供指導。

此外,模型還受到客戶(hù)和 API 政策中隱含偏好的影響。

OpenAI 選擇了在篩選測試中表現良好的 labelers,既可以識別敏感提示,又可以對敏感提示迅速做出響應。然而,這些對數據產(chǎn)生影響的不同來(lái)源并不能保證,模型會(huì )與任何更廣泛群體的偏好相一致。

微信圖片_20220212153523.png

OpenAI 開(kāi)展了兩個(gè)實(shí)驗來(lái)研究這個(gè)問(wèn)題。

首先,使用未產(chǎn)生任何訓練數據的保留 labelers 來(lái)評估 GPT-3 和 InstructGPT 模型,并發(fā)現這些 labelers 更喜歡 InstructGPT 模型的輸出。

其次,用來(lái)自子集的數據訓練獎勵模型,并發(fā)現它們可以很好進(jìn)行推廣,以預測不同 labelers 子集的偏好。這也就表明,模型并非只完全適合于 OpenAI 的訓練 labelers 的偏好。

然而,還需要更多的工作來(lái)研究這些模型如何在更廣泛的用戶(hù)群體中執行,以及他們如何在人們對預期行為有異議的輸入中執行。

局限性

盡管該研究取得了重大進(jìn)展,但 InstructGPT 模型距離完全對齊或完全安全仍任重而道遠;他們仍然會(huì )產(chǎn)生有害或有偏見(jiàn)的結果/捏造事實(shí),并在沒(méi)有明確提示的情況下產(chǎn)生性和暴力的相關(guān)內容。但機器學(xué)習系統的安全性不僅取決于底層模型的行為,還取決于這些模型的部署方式。

為了支持 API 的安全性,OpenAI 將在潛在的 App 上線(xiàn)之前繼續審核,提供內容過(guò)濾器來(lái)檢測安全性,并監視濫用情況。

訓練模型遵循用戶(hù)指令的副產(chǎn)品是,如果指示它們產(chǎn)生不安全的輸出,它們可能更容易被濫用。解決這個(gè)問(wèn)題就需要模型學(xué)會(huì )拒絕,視情況篩選指令;顯然,幫助模型可靠的完成這一點(diǎn),是 OpenAI 非常樂(lè )意解決的一個(gè)重要的開(kāi)放研究問(wèn)題。

此外,也有很多情況,可能并不希望與平均 labelers 偏好保持一致。例如,當生成不成比例地影響少數群體的文本時(shí),該群體的偏好應該得到更大的權重。

現在,InstructGPT 接受的訓練是遵循英文指令;因此,它偏向于以英語(yǔ)為母語(yǔ)的群體的文化價(jià)值觀(guān)。

當然,OpenAI 正在進(jìn)行研究,以了解 labelers 偏好之間的差異和分歧,以便于根據更具體的人群的價(jià)值觀(guān)來(lái)具體設置模型。

總而言之,這是 OpenAI 首次將對齊研究應用到產(chǎn)品上。這些技術(shù)可以顯著(zhù)有效地改善通用 AI 系統與人類(lèi)意圖的一致性。這也只是一個(gè)開(kāi)始,OpenAI 表示,將繼續推動(dòng)這些技術(shù),以進(jìn)一步改進(jìn)當前和未來(lái)的模型,使之朝著(zhù)對人類(lèi)安全且有益的語(yǔ)言工具的方向發(fā)展。

*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>