OpenAI 出手解決 GPT-4 數學(xué)推理:做對一步立刻獎勵,論文數據集全開(kāi)放,直接拿下 SOTA
OpenAI 一個(gè)簡(jiǎn)單的動(dòng)作,讓大模型數學(xué)能力直接達到 SOTA。
本文引用地址:http://dyxdggzs.com/article/202306/447284.htm而且直接開(kāi)源論文數據集,包含 80 萬(wàn)個(gè)人類(lèi)反饋標簽!
這就是 OpenAI 的最新研究?;?GPT-4,他們微調了幾個(gè)模型,分別采用不同的監督方法。
一種是傳統的結果監督,只對最終正確答案進(jìn)行獎勵。
另一種則是過(guò)程監督,區別在于獎勵增加,對每一個(gè)正確的推理步驟進(jìn)行獎勵。
結果這一點(diǎn)改變,讓采用過(guò)程監督的模型 Process Reward Model(PRM),可以解決 MATH 測試集代表子集中 78% 的問(wèn)題,達到 SOTA。
英偉達 AI 科學(xué)家 Jim Fan 大膽預測說(shuō),下一步 OpenAI 大概會(huì )用這種方法微調 GPT-4。
OpenAI 表示:
我們認為探索過(guò)程監督在數學(xué)之外領(lǐng)域的表現非常重要。如果這些結果具有普遍性,那意味著(zhù)過(guò)程監督將成為比結果監督更有效的方法。
獎勵增多、效果變好
話(huà)不多說(shuō),先看 OpenAI 給出的具體例子。
比如這樣一道三角函數的題:
用過(guò)程監督的模型來(lái)算,效果會(huì )是這樣的:
OpenAI 表示,這道題對于大模型來(lái)說(shuō)還是比較有挑戰性的,GPT-4 也不太能搞定(只有 0.1% 的情況生成結果完全沒(méi)問(wèn)題)。而使用過(guò)程獎勵是可以算出正確答案的。
這也是目前大語(yǔ)言模型比較飽受詬病的問(wèn)題,容易產(chǎn)生邏輯錯誤,也被稱(chēng)為“幻覺(jué)”。
表現最明顯的領(lǐng)域就是數學(xué)。
即便是先進(jìn)如 GPT-4,這類(lèi)問(wèn)題也難以避免。
而降低幻覺(jué)的出現,又被視為走向 AGI 的關(guān)鍵一步。
此前為檢測幻覺(jué)所使用的是結果監督,基于最終結果提供反饋,僅僅獎勵最終正確的答案。
但效果顯然還不太行,所以 OpenAI 想了個(gè)新招,把這種獎勵增加會(huì )怎么樣?
于是他們提出了過(guò)程監督方法,針對思維鏈中的每個(gè)步驟提供反饋,獎勵每個(gè)正確的推理步驟。
結果表明,用 MATH 數據集進(jìn)行測試后:
過(guò)程監督模型能夠解決 MATH 測試集代表子集的 78% 的問(wèn)題。效果優(yōu)于結果監督。
而且隨著(zhù)每個(gè)問(wèn)題考慮的解決方案的數量增加,性能差距也逐漸增大,也說(shuō)明了過(guò)程監督的獎勵模型更加可靠。
△ 縱軸表示的是已解決的問(wèn)題的百分比,紅色線(xiàn)代表的是過(guò)程監督獎勵模型(ORM),藍色線(xiàn)代表的是結果監督獎勵模型(PRM)
在測試中,過(guò)程監督有一個(gè)明顯的優(yōu)勢:
可以準確指出解決問(wèn)題的步驟中哪些是正確的,并且給出錯誤步驟的具體位置。
而這點(diǎn)在結果監督中,是具有挑戰性的。
因此,在過(guò)程監督中,信用分配(credit assignment)更加容易。
而且在對齊方面,過(guò)程監督也優(yōu)于結果監督。
因為過(guò)程監督會(huì )直接獎勵模型,按照對齊的思維鏈進(jìn)行操作,每個(gè)步驟都會(huì )更精確。
產(chǎn)生的結果可解釋性也更高,因為它鼓勵模型遵循經(jīng)過(guò)人類(lèi)批準的過(guò)程。
相比之下,基于結果的監督可能會(huì )出現獎勵不對齊的過(guò)程,而且通常更難進(jìn)行審查。
此外,大模型還經(jīng)常遇到一個(gè)問(wèn)題叫做對齊稅(alignment tax)。也就是想讓模型輸出更安全,那性能就會(huì )有所下降。
而過(guò)程獎勵,在數學(xué)領(lǐng)域能讓這個(gè)對齊稅,變成負的,即模型安全性和性能都保障。
總之,過(guò)程獎勵這個(gè)小竅門(mén),一次性解決了大模型數學(xué)推理方面的多個(gè)問(wèn)題。
在實(shí)驗結果方面,OpenAI 還給出了多個(gè)實(shí)例。
比如有一些情況,GPT-4 會(huì )出錯,但是基于過(guò)程獎勵的 PRM 能揪出問(wèn)題。
最近有 30 名學(xué)生參加了一次考試。如果有 20 名學(xué)生考了 80 分,8 名學(xué)生考了 90 分,2 名學(xué)生得分為 100 分,那么這次考試的班級平均分是多少?
下面是模型的作答結果:
前面的作答沒(méi)有問(wèn)題,但是在第 7 步中,GPT-4 試圖對表達式進(jìn)行簡(jiǎn)化,出現了錯誤。
而獎勵模型卻察覺(jué)到了這個(gè)錯誤。
當然也有都不成功的例子,比如下面這道題 GPT-4 和 PRM 都被迷惑了:
來(lái)看一下模型的回答:
在第 4 步中,GPT-4 錯誤地認為該序列每 12 項循環(huán)一次,而事實(shí)上是每 10 項循環(huán)一次。
而這種計數錯誤也迷惑到了獎勵模型。
此外,OpenAI 共給出了 10 個(gè)問(wèn)題和解決方案。
可以看出,基于過(guò)程監督的獎勵模型在一些問(wèn)題上也會(huì )被迷惑住,但是在整體上明顯表現得更好。
網(wǎng)友:再也不用做數學(xué)證明題了
很快,OpenAI 的最新工作在各個(gè)平臺上都引發(fā)了熱烈討論。
有人評價(jià):
如果這個(gè)方法在非數學(xué)領(lǐng)域也能奏效,我們現在或許正處于游戲規則即將改變的時(shí)刻。
還有人說(shuō),這項工作如果用在互動(dòng)、教育方面,會(huì )非常令人興奮,尤其是數學(xué)領(lǐng)域。
這不,有人就說(shuō),看來(lái)以后不用再做數學(xué)家庭作業(yè)和證明題了(doge)。
用一張圖來(lái)總結,大概就是醬嬸兒的:
也有人提出了自己的擔心:這種密集的獎勵信號是否會(huì )導致模型更容易陷入局部最小值。
但是如果能夠足夠隨機化、全局搜索,或許模型的魯棒性更高。
值得一提的是,這種 step by step 的方法,不止一次在提升大模型性能上奏效。
之前,東京大學(xué)和谷歌的研究人員發(fā)現,只要在對話(huà)中加一句“Let’s think step by step”,GPT-3 就能回答出以前不會(huì )的問(wèn)題。
比如提問(wèn):
16 個(gè)球中有一半是高爾夫球,這些高爾夫球中有一半是藍色的,一共有幾個(gè)藍色的高爾夫球?
(問(wèn)題不難,但要注意這是零樣本學(xué)習,也就是說(shuō) AI 訓練階段從沒(méi)見(jiàn)過(guò)同類(lèi)問(wèn)題。)
如果要求 GPT-3 直接寫(xiě)出“答案是幾”,它會(huì )給出錯誤答案:8。
但加上讓我們一步一步地思考這句“咒語(yǔ)”后,GPT-3 就會(huì )先輸出思考的步驟,最后給出正確答案:4!
而與之相呼應的是,這回 OpenAI 最新研究的論文題目就叫做《Let’s Verify Step by Step》。
評論