<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 智能計算 > 業(yè)界動(dòng)態(tài) > OpenAI 出手解決 GPT-4 數學(xué)推理：做對一步立刻獎勵，論文數據集全開(kāi)放，直接拿下 SOTA

OpenAI 出手解決 GPT-4 數學(xué)推理：做對一步立刻獎勵，論文數據集全開(kāi)放，直接拿下 SOTA

作者：時(shí)間：2023-06-02 來(lái)源：量子位

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢(xún)

收藏

OpenAI 一個(gè)簡(jiǎn)單的動(dòng)作，讓大模型數學(xué)能力直接達到 SOTA。

本文引用地址：http://dyxdggzs.com/article/202306/447284.htm

而且直接開(kāi)源論文數據集，包含 80 萬(wàn)個(gè)人類(lèi)反饋標簽！

這就是 OpenAI 的最新研究?；?GPT-4，他們微調了幾個(gè)模型，分別采用不同的監督方法。

一種是傳統的結果監督，只對最終正確答案進(jìn)行獎勵。

另一種則是過(guò)程監督，區別在于獎勵增加，對每一個(gè)正確的推理步驟進(jìn)行獎勵。

結果這一點(diǎn)改變，讓采用過(guò)程監督的模型 Process Reward Model（PRM），可以解決 MATH 測試集代表子集中 78% 的問(wèn)題，達到 SOTA。

OpenAI 出手解決 GPT-4 數學(xué)推理：做對一步立刻獎勵，論文數據集全開(kāi)放，直接拿下 SOTA

英偉達 AI 科學(xué)家 Jim Fan 大膽預測說(shuō)，下一步 OpenAI 大概會(huì )用這種方法微調 GPT-4。

OpenAI 出手解決 GPT-4 數學(xué)推理：做對一步立刻獎勵，論文數據集全開(kāi)放，直接拿下 SOTA

OpenAI 表示：

我們認為探索過(guò)程監督在數學(xué)之外領(lǐng)域的表現非常重要。如果這些結果具有普遍性，那意味著(zhù)過(guò)程監督將成為比結果監督更有效的方法。

獎勵增多、效果變好

話(huà)不多說(shuō)，先看 OpenAI 給出的具體例子。

比如這樣一道三角函數的題：

OpenAI 出手解決 GPT-4 數學(xué)推理：做對一步立刻獎勵，論文數據集全開(kāi)放，直接拿下 SOTA

用過(guò)程監督的模型來(lái)算，效果會(huì )是這樣的：

OpenAI 出手解決 GPT-4 數學(xué)推理：做對一步立刻獎勵，論文數據集全開(kāi)放，直接拿下 SOTA

OpenAI 出手解決 GPT-4 數學(xué)推理：做對一步立刻獎勵，論文數據集全開(kāi)放，直接拿下 SOTA

OpenAI 表示，這道題對于大模型來(lái)說(shuō)還是比較有挑戰性的，GPT-4 也不太能搞定（只有 0.1% 的情況生成結果完全沒(méi)問(wèn)題）。而使用過(guò)程獎勵是可以算出正確答案的。

這也是目前大語(yǔ)言模型比較飽受詬病的問(wèn)題，容易產(chǎn)生邏輯錯誤，也被稱(chēng)為“幻覺(jué)”。

表現最明顯的領(lǐng)域就是數學(xué)。

即便是先進(jìn)如 GPT-4，這類(lèi)問(wèn)題也難以避免。

而降低幻覺(jué)的出現，又被視為走向 AGI 的關(guān)鍵一步。

此前為檢測幻覺(jué)所使用的是結果監督，基于最終結果提供反饋，僅僅獎勵最終正確的答案。

但效果顯然還不太行，所以 OpenAI 想了個(gè)新招，把這種獎勵增加會(huì )怎么樣？

于是他們提出了過(guò)程監督方法，針對思維鏈中的每個(gè)步驟提供反饋，獎勵每個(gè)正確的推理步驟。

OpenAI 出手解決 GPT-4 數學(xué)推理：做對一步立刻獎勵，論文數據集全開(kāi)放，直接拿下 SOTA

結果表明，用 MATH 數據集進(jìn)行測試后：

過(guò)程監督模型能夠解決 MATH 測試集代表子集的 78% 的問(wèn)題。效果優(yōu)于結果監督。

而且隨著(zhù)每個(gè)問(wèn)題考慮的解決方案的數量增加，性能差距也逐漸增大，也說(shuō)明了過(guò)程監督的獎勵模型更加可靠。

OpenAI 出手解決 GPT-4 數學(xué)推理：做對一步立刻獎勵，論文數據集全開(kāi)放，直接拿下 SOTA

△ 縱軸表示的是已解決的問(wèn)題的百分比，紅色線(xiàn)代表的是過(guò)程監督獎勵模型（ORM），藍色線(xiàn)代表的是結果監督獎勵模型（PRM）

在測試中，過(guò)程監督有一個(gè)明顯的優(yōu)勢：

可以準確指出解決問(wèn)題的步驟中哪些是正確的，并且給出錯誤步驟的具體位置。

而這點(diǎn)在結果監督中，是具有挑戰性的。

因此，在過(guò)程監督中，信用分配（credit assignment）更加容易。

而且在對齊方面，過(guò)程監督也優(yōu)于結果監督。

因為過(guò)程監督會(huì )直接獎勵模型，按照對齊的思維鏈進(jìn)行操作，每個(gè)步驟都會(huì )更精確。

產(chǎn)生的結果可解釋性也更高，因為它鼓勵模型遵循經(jīng)過(guò)人類(lèi)批準的過(guò)程。

相比之下，基于結果的監督可能會(huì )出現獎勵不對齊的過(guò)程，而且通常更難進(jìn)行審查。

此外，大模型還經(jīng)常遇到一個(gè)問(wèn)題叫做對齊稅（alignment tax）。也就是想讓模型輸出更安全，那性能就會(huì )有所下降。

而過(guò)程獎勵，在數學(xué)領(lǐng)域能讓這個(gè)對齊稅，變成負的，即模型安全性和性能都保障。

總之，過(guò)程獎勵這個(gè)小竅門(mén)，一次性解決了大模型數學(xué)推理方面的多個(gè)問(wèn)題。

在實(shí)驗結果方面，OpenAI 還給出了多個(gè)實(shí)例。

比如有一些情況，GPT-4 會(huì )出錯，但是基于過(guò)程獎勵的 PRM 能揪出問(wèn)題。

最近有 30 名學(xué)生參加了一次考試。如果有 20 名學(xué)生考了 80 分，8 名學(xué)生考了 90 分，2 名學(xué)生得分為 100 分，那么這次考試的班級平均分是多少？

OpenAI 出手解決 GPT-4 數學(xué)推理：做對一步立刻獎勵，論文數據集全開(kāi)放，直接拿下 SOTA

下面是模型的作答結果：

OpenAI 出手解決 GPT-4 數學(xué)推理：做對一步立刻獎勵，論文數據集全開(kāi)放，直接拿下 SOTA

前面的作答沒(méi)有問(wèn)題，但是在第 7 步中，GPT-4 試圖對表達式進(jìn)行簡(jiǎn)化，出現了錯誤。

而獎勵模型卻察覺(jué)到了這個(gè)錯誤。

當然也有都不成功的例子，比如下面這道題 GPT-4 和 PRM 都被迷惑了：

OpenAI 出手解決 GPT-4 數學(xué)推理：做對一步立刻獎勵，論文數據集全開(kāi)放，直接拿下 SOTA

來(lái)看一下模型的回答：

OpenAI 出手解決 GPT-4 數學(xué)推理：做對一步立刻獎勵，論文數據集全開(kāi)放，直接拿下 SOTA

OpenAI 出手解決 GPT-4 數學(xué)推理：做對一步立刻獎勵，論文數據集全開(kāi)放，直接拿下 SOTA

在第 4 步中，GPT-4 錯誤地認為該序列每 12 項循環(huán)一次，而事實(shí)上是每 10 項循環(huán)一次。

而這種計數錯誤也迷惑到了獎勵模型。

此外，OpenAI 共給出了 10 個(gè)問(wèn)題和解決方案。

可以看出，基于過(guò)程監督的獎勵模型在一些問(wèn)題上也會(huì )被迷惑住，但是在整體上明顯表現得更好。

網(wǎng)友：再也不用做數學(xué)證明題了

很快，OpenAI 的最新工作在各個(gè)平臺上都引發(fā)了熱烈討論。

有人評價(jià)：

如果這個(gè)方法在非數學(xué)領(lǐng)域也能奏效，我們現在或許正處于游戲規則即將改變的時(shí)刻。

OpenAI 出手解決 GPT-4 數學(xué)推理：做對一步立刻獎勵，論文數據集全開(kāi)放，直接拿下 SOTA

還有人說(shuō)，這項工作如果用在互動(dòng)、教育方面，會(huì )非常令人興奮，尤其是數學(xué)領(lǐng)域。

OpenAI 出手解決 GPT-4 數學(xué)推理：做對一步立刻獎勵，論文數據集全開(kāi)放，直接拿下 SOTA

這不，有人就說(shuō)，看來(lái)以后不用再做數學(xué)家庭作業(yè)和證明題了（doge）。

OpenAI 出手解決 GPT-4 數學(xué)推理：做對一步立刻獎勵，論文數據集全開(kāi)放，直接拿下 SOTA

用一張圖來(lái)總結，大概就是醬嬸兒的：

OpenAI 出手解決 GPT-4 數學(xué)推理：做對一步立刻獎勵，論文數據集全開(kāi)放，直接拿下 SOTA

也有人提出了自己的擔心：這種密集的獎勵信號是否會(huì )導致模型更容易陷入局部最小值。

但是如果能夠足夠隨機化、全局搜索，或許模型的魯棒性更高。

OpenAI 出手解決 GPT-4 數學(xué)推理：做對一步立刻獎勵，論文數據集全開(kāi)放，直接拿下 SOTA

值得一提的是，這種 step by step 的方法，不止一次在提升大模型性能上奏效。

之前，東京大學(xué)和谷歌的研究人員發(fā)現，只要在對話(huà)中加一句“Let’s think step by step”，GPT-3 就能回答出以前不會(huì )的問(wèn)題。

比如提問(wèn)：

16 個(gè)球中有一半是高爾夫球，這些高爾夫球中有一半是藍色的，一共有幾個(gè)藍色的高爾夫球？

OpenAI 出手解決 GPT-4 數學(xué)推理：做對一步立刻獎勵，論文數據集全開(kāi)放，直接拿下 SOTA

（問(wèn)題不難，但要注意這是零樣本學(xué)習，也就是說(shuō) AI 訓練階段從沒(méi)見(jiàn)過(guò)同類(lèi)問(wèn)題。）

如果要求 GPT-3 直接寫(xiě)出“答案是幾”，它會(huì )給出錯誤答案：8。

但加上讓我們一步一步地思考這句“咒語(yǔ)”后，GPT-3 就會(huì )先輸出思考的步驟，最后給出正確答案：4！

而與之相呼應的是，這回 OpenAI 最新研究的論文題目就叫做《Let’s Verify Step by Step》。

OpenAI 出手解決 GPT-4 數學(xué)推理：做對一步立刻獎勵，論文數據集全開(kāi)放，直接拿下 SOTA

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： OpenAI 智能計算

評論

相關(guān)推薦

OpenAI陷入安全危機：攻擊者成功入侵內部消息系統

OpenAI 人工智能 | 2024-07-08

為什么OpenAI今年可能會(huì )虧損50億美元？

智能計算 OpenAI 虧損 ChatGPT | 2024-07-25

OpenAI「草莓」聊天機器人應答能力接近人類(lèi)

OpenAI 草莓聊天機器人 | 2024-07-15

2023英特爾On技術(shù)創(chuàng )新大會(huì )中國站“劇透”：五大專(zhuān)題論壇，全面賦能AI開(kāi)發(fā)

nakey | 2023-12-11

反壟斷審查愈演愈烈，微軟、蘋(píng)果放棄OpenAI董事會(huì )席位

智能計算微軟蘋(píng)果 OpenAI | 2024-07-11

劍指搜索巨頭谷歌！OpenAI推出AI搜索引擎SearchGPT

智能計算 openAI SearchGPT 谷歌 | 2024-07-26

反壟斷機構加強對OpenAI的審查，取消董事會(huì )中觀(guān)察員席位

OpenAI 微軟蘋(píng)果壟斷 | 2024-07-11

傳蘋(píng)果將獲得OpenAI董事會(huì )觀(guān)察員席位與微軟地位相當

智能計算蘋(píng)果 OpenAI 微軟 | 2024-07-03

機械擬人思考 OpenAI拚了

機械擬人思考 OpenAI 草莓 | 2024-07-15

消息稱(chēng) OpenAI 公司 2024 年資金缺口達到 50 億美元

智能計算 OpenAI ChatGPT AI | 2024-07-25

蘋(píng)果“免費”獲得OpenAI董事會(huì )觀(guān)察員席位，與微軟級別相當

蘋(píng)果 OpenAI 微軟 ChatGPT | 2024-07-05

焦點(diǎn)

推薦視頻

技術(shù)專(zhuān)區

国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放

<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>