<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 港中文團隊提出大模型元推理范式,助力判斷大模型的真實(shí)能力,革新大模型的評價(jià)體系

港中文團隊提出大模型元推理范式,助力判斷大模型的真實(shí)能力,革新大模型的評價(jià)體系

發(fā)布人:深科技 時(shí)間:2024-03-03 來(lái)源:工程師 發(fā)布文章

曾忠燊,是一名潮汕人。其本科和碩士分別畢業(yè)于美國伊利諾伊大學(xué)和美國佐治亞理工學(xué)院。在本科畢業(yè)和碩士畢業(yè)之后,他曾先后在 IBM-Research 和深圳 IDEA 研究院工作過(guò)一段時(shí)間。

在 ChatGPT 面世以后,他意識到針對大模型的研究范式存在一定的不足,于是決定來(lái)到香港中文大學(xué)讀博。

圖片

圖 | 曾忠燊(來(lái)源:曾忠燊)

前不久,曾忠燊和所在團隊提出一個(gè)全新評測范式?;谶@一評測范式,他們又針對現有數據集,提出了一種改造方法。

實(shí)驗證明,這種方法能有效區分不同模型的能力差異。同時(shí),他們還揭示了這種全新評測范式對于當前數據污染的魯棒性。

此前,由于訓練數據的不透明,人們無(wú)法得知大模型在一些榜單上的成績(jì)提升,是否是數據污染和題目泄露所帶來(lái)的。

而本次提出的全新評測范式,對于“背題”式的成績(jì)提高有著(zhù)極強的抵御能力。憑借這種抵御能力,就能對絕大部分的數據集進(jìn)行“舊改”。

同時(shí),這種全新的評測方式不僅可以揭示大模型的能力差異,也能給下游應用帶來(lái)一定啟示。

日前,相關(guān)論文以《大型語(yǔ)言模型評價(jià)中的元推理革命》(MR-GSM8K: A Meta-Reasoning Revolution in Large Language Model Evaluation)為題發(fā)在 arXiv,曾忠燊是第一作者,香港中文大學(xué)教授賈佳亞擔任通訊作者 [1]。

圖片

圖 | 相關(guān)論文(來(lái)源:arXiv

圖片

大模型也在依靠“題海戰術(shù)”?

“背題”“題海戰術(shù)”,是許多人在讀書(shū)時(shí)代都曾使用過(guò)的學(xué)習方式。然而,你可知道大模型其實(shí)也在使用這兩種學(xué)習方式?此外,當前大模型的能力邊界到底在哪里?

從推理和認知這兩個(gè)能力維度出發(fā),當一篇論文稱(chēng)大模型在一個(gè)評測指標上取得超出人類(lèi)水平的結果時(shí),我們是否應該感到恐慌?

還是仔細審視在制定指標時(shí)是否忽略了什么因素,以至于大模型的認知能力被夸大了?

事實(shí)上,對于指標的設計意義思考不足,起碼會(huì )帶來(lái)以下幾個(gè)潛在危害:

其一,評測結果能否真實(shí)反映大模型的能力?如果對此認識不足,往往會(huì )過(guò)分夸大模型的效果。

其二,會(huì )讓人以為指標的提升,等價(jià)于大模型能力的提升、以及等價(jià)于真實(shí)場(chǎng)景的效果和實(shí)用性提升,導致盲目追逐和攀比榜單效果,陷入惡性循環(huán)。

其三,過(guò)分關(guān)注和比較在細分場(chǎng)景上的表現,忽視了大模型整體認知能力的提升。

當前,面向大模型推理能力和認知能力的評測集,主要依賴(lài)一些標準化考試的試題、或一些精心設計的規則類(lèi)游戲。

這些評測集的設計初衷,很大程度上是設計者認為求解這類(lèi)推理類(lèi)任務(wù)所需要的模式識別、記憶召回、分析假設、歸納演繹等能力,是一種處理所有任務(wù)都需要的“元”能力,并認為這類(lèi)能力對于大模型在現實(shí)場(chǎng)景中的泛化和魯棒是至關(guān)重要的。

但是,具體到設計這些任務(wù)的評測方式時(shí),這些評測集往往僅僅依賴(lài)于對最終計算結果的簡(jiǎn)單匹配,而忽略了對于計算過(guò)程的認知檢測。

由此可見(jiàn),這種目標和實(shí)現方式的背離,在很大程度上加劇了大模型評測領(lǐng)域的種種亂象。

舉個(gè)例子,在圖像識別里有一個(gè)著(zhù)名的“走捷徑”案例,它指的是在對狼和雪狼進(jìn)行分類(lèi)時(shí),大模型學(xué)習到的規律是識別背景是否存在積雪,而不是識別兩種動(dòng)物的生理特征區別。

而在認知推理類(lèi)的數據集上也存在著(zhù)類(lèi)似現象。面對一道數學(xué)題,假如要求大模型給出分步推理的“思維鏈”時(shí),大模型往往會(huì )混淆不同單位的量,比如將時(shí)速和公里數相乘相加,這說(shuō)明對于不同概念背后的物理意義,大模型存在認識不足的問(wèn)題。

那么,如何更好地檢測大模型對于概念的認知水平、以及檢測它的應用泛化能力?

以下圖為例,對于一個(gè)復雜的推理問(wèn)題來(lái)說(shuō),假如從起點(diǎn)到終點(diǎn)有多種解答方式,而其中每一步的推理都能被看成是一個(gè)節點(diǎn),節點(diǎn)和節點(diǎn)之間組成了路徑。

而在當前的大模型訓練范式中,往往只讓大模型看到少數幾條正確的解題路徑(青色或藍色),而忽視了錯誤的路徑(橙色)。

同樣地,在評測大模型的表現時(shí),人們只關(guān)注最終的推理路徑終點(diǎn)是否和標準答案一致,而忽視了推理過(guò)程中可能存在的錯誤推理節點(diǎn)或錯誤路徑。

圖片

(來(lái)源:arXiv

舉例來(lái)說(shuō):

在教育領(lǐng)域,如果 GPT4 在小學(xué)級別的數學(xué)題目上的評測準確率只有四成,那么我們難免會(huì )對 GPT4 的實(shí)用性產(chǎn)生懷疑。

在咨詢(xún)領(lǐng)域,大模型的應用場(chǎng)景高度依賴(lài)于對不同方案的推演、整體步驟的拆分、解析等能力。

而當今大模型在這些方面的能力缺失,難免讓人對其下游應用的可靠性打上了問(wèn)號。

圖片

讓大模型“從學(xué)生變?yōu)槔蠋煛?/span>

基于此,曾忠燊和所在團隊開(kāi)展了本次研究。事實(shí)上,本次研究的靈感來(lái)源于一次比賽,此前曾忠燊參加了“粵港澳大灣區(黃埔)國際算法算例大賽”的分賽道“大語(yǔ)言模型綜合能力強化”。

當時(shí),他調研了一些關(guān)于大模型推理方向能力增強的論文,這些論文主要分為以下方向:第一個(gè)方向是同源數據增廣,第二個(gè)方向是使用反饋模型針對數據篩選、或針對大模型進(jìn)行強化學(xué)習訓練。

在他嘗試使用時(shí),卻發(fā)現這兩個(gè)方法均存在很大問(wèn)題:

第一,當使用 ChatGPT 進(jìn)行數據增廣時(shí),ChatGPT 并不能真正地理解人們希望其生成的一些概念,在應用這些概念造題和解題時(shí)常常會(huì )出現各種錯誤,因此往往需要非常精細的程序設計和引導來(lái)提升準確率。

第二,仔細研究反饋模型的作用后,曾忠燊認為要求一個(gè)反饋模型對推理數據進(jìn)行篩選時(shí),實(shí)質(zhì)上等價(jià)于要求其進(jìn)行“元推理”。

這一難度甚至高于直接解題,原因在于為了提升解題效果引入更難的評判解題任務(wù),似乎會(huì )把一個(gè)問(wèn)題轉為另一個(gè)更難的問(wèn)題。

意識到這一問(wèn)題之后,他和所在團隊研發(fā)了元推理范式,并將其用于一些常見(jiàn)數據集之上。

結果發(fā)現無(wú)論是開(kāi)源大模型還是閉源大模型,它們的表現都開(kāi)始出現急劇下降,尤其是開(kāi)源的垂類(lèi)推理大模型甚至降到了不足百分之一的準確率。

因此,他和同事呼吁將大模型認知推理的檢測重點(diǎn),從最終的計算結果匹配,轉移到對于計算過(guò)程的檢測。

具體做法是:先從解題空間里采樣一些給定的推理路徑,然后讓大模型進(jìn)行評判。評判的內容包括:推理路徑是否正確?錯誤節點(diǎn)和錯誤步驟在哪里?錯誤原因是什么?

這種評測范式的轉變,意味著(zhù)對于整個(gè)解題空間,大模型都必須具備全局和宏觀(guān)的理解,做到知其然也要知其所以然。

詳細來(lái)說(shuō),大模型需要做到如下幾方面:

其一,需要知道推理的最終結果和節點(diǎn)是什么;

其二,需要對每一步推理節點(diǎn)的條件和前提進(jìn)行審視性評判,并對節點(diǎn)和節點(diǎn)間的邏輯連接進(jìn)行思考,以便判斷當前步驟是否出錯;

其三,需要能夠代入不同假設,或反事實(shí)地(counterfactually)針對未來(lái)的推理路徑進(jìn)行預演和分析,從而判斷這一答案是否在正確的推理路徑上。

這些需求將迫使大模型從一個(gè)答題者的角度,上升到一個(gè)教師的高度進(jìn)行全局審視和全局推理。對于這種“對推理過(guò)程的推理”,該團隊將其稱(chēng)之為“元推理”評測范式。

圖片

(來(lái)源:arXiv

如上圖所示,當他們把元推理范式應用到一個(gè)流行的數學(xué)評測集 GSM8k 上時(shí),GPT4 的表現驟降一半以上,而 GPT3.5 的準確率則由 80% 以上驟降到個(gè)位數。

這說(shuō)明在同一個(gè)數據集上經(jīng)過(guò)簡(jiǎn)單的元推理范式轉換后,模型能力會(huì )出現巨大差別。值得注意的是在范式轉換之后,大模型的能力差異出現了更大的分化。

同樣在 GSM8K 上取得領(lǐng)先效果的開(kāi)源模型比如 Mammoth、WizardMath、MetaMath 等模型,它們的訓練方法是這樣的:針對該數據集的數據進(jìn)行大量的同源增廣,以讓效果接近 GPT3.5。

遺憾的是,當課題組對其進(jìn)行范式轉換之后,開(kāi)源的數學(xué)大模型效果,由原本的接近 GPT3.5、變成遠遜于 GPT3.5。

這可能也表明當前流行的簡(jiǎn)單數據增強的方法,更接近于“背題”或“題海戰術(shù)”,并不能真正地提升大模型的實(shí)際能力。

而作為一種通用評測范式,曾忠燊等人提出的元推理范式,能被推廣到更多評測場(chǎng)景。

此外,本次研究中的標注難度遠遠超出預期。研究期間,他們針對小初級別的數學(xué)數據集 GSM8K,進(jìn)行了元推理范式的改造。

這一改造方式要求標注人員針對數據集進(jìn)行類(lèi)似的元推理,并將元推理結果記錄成評測集。

雖然僅僅是小初級別的題目,但他們發(fā)現從讀題、讀標準答案、再到讀采樣出的待評測答案,必須針對每一步進(jìn)行細致的分析和推理。

而由于耗時(shí)較久,單位標注價(jià)格也就更高;同時(shí)因為難度高,對于標注人員的資質(zhì)要求也高。

曾忠燊說(shuō):“我在看到報價(jià)的時(shí)候,突然想起 OpenAI 有一個(gè)論文是對數學(xué)奧林匹克競賽的題目和解題過(guò)程進(jìn)行標注,以進(jìn)行強化學(xué)習的訓練。OpenAI 標注的性質(zhì)和內容,和我們存在部分相似的地方?!?/span>

在 OpenAI 那份名為 PRM800K 的數據集里,包含了 80 萬(wàn)道標注題目。保守估計一道題的標注成本是 10 美元,那么 OpenAI 數據集的價(jià)格是 800 萬(wàn)美元。而 OpenAI 那篇論文并沒(méi)有催生特別直接的落地成果,也沒(méi)有帶來(lái)實(shí)用效果上的巨大提升。

“在真正了解標注的昂貴和難處后,不禁感慨 OpenAI 的財大氣粗和對失敗的容忍?!痹覠稣f(shuō)。

另?yè)?,OpenAI 的創(chuàng )始人之一伊利亞·蘇茨凱弗(Ilya Sutskever)在一次采訪(fǎng)時(shí)被問(wèn)到:“如果通用人工智能實(shí)現后他會(huì )選擇做什么?”伊利亞回答說(shuō):“或許我會(huì )主動(dòng)融入 AI(be part of AI)?!?/span>

閱讀到上述采訪(fǎng)報道時(shí),當時(shí)曾忠燊并未明白什么叫融入 AI??呻S著(zhù)本次工作的不斷推進(jìn),他隱約覺(jué)得 AI 要在認知上和人類(lèi)貼合,可能很大程度上要依賴(lài)于人類(lèi)不斷提供豐富的反饋信號。

“這或許也是一種融入 AI 的方式吧?一種類(lèi)似于干將莫邪以身殉劍的神話(huà)浪漫感?!痹覠稣f(shuō)。

而在未來(lái),他和所在團隊致力于打造一個(gè)更全面、更多元的評測體系。目前,他們已經(jīng)聯(lián)系多家國內頭部的標注公司,目標場(chǎng)景包括學(xué)科類(lèi)、邏輯類(lèi)、具身類(lèi)和應用類(lèi)等四個(gè)方向的元推理場(chǎng)景構筑。

參考資料:1.https://arxiv.org/abs/2312.17080
排版:羅以


*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。



關(guān)鍵詞: 大模型

相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>