<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 人工智能在心理測試理論方面勝過(guò)人類(lèi)

人工智能在心理測試理論方面勝過(guò)人類(lèi)

發(fā)布人:12345zhi 時(shí)間:2024-08-30 來(lái)源:工程師 發(fā)布文章

心智理論(Theory of Mind)——追蹤他人心理狀態(tài)的能力——對人類(lèi)社交互動(dòng)十分重要,是人類(lèi)溝通交流和產(chǎn)生共鳴的關(guān)鍵,比如,猜測車(chē)上的司機將要做什么,或與電影中的角色產(chǎn)生共鳴。根據一項新的研究,為ChatGPT等提供動(dòng)力的大型語(yǔ)言模型(LLM)驚人地善于模仿這一典型的人類(lèi)特征。

“在進(jìn)行這項研究之前,我們都確信大型語(yǔ)言模型不會(huì )通過(guò)這些測試,尤其是評估評估心理狀態(tài)的微妙能力的測試,”研究合著(zhù)者、德國漢堡-埃彭多夫大學(xué)醫學(xué)中心認知神經(jīng)科學(xué)教授Cristina Becchio說(shuō)。這一結果被她稱(chēng)為“出乎意料和令人驚訝”,近日發(fā)表在了《自然-人類(lèi)行為》雜志上。

然而,研究結果并不是讓每個(gè)人都相信我們已經(jīng)進(jìn)入了一個(gè)機器像我們一樣思考的新時(shí)代。兩位審查了這些發(fā)現的專(zhuān)家建議“謹慎對待”這些發(fā)現,并警告不要在一個(gè)可能會(huì )引起“公眾炒作和恐慌”的話(huà)題上輕易得出結論。另一位外部專(zhuān)家警告了將軟件程序擬人化的危險。

Becchio和她的同事并不是第一個(gè)聲稱(chēng)LLM的反應顯示出這種推理的證據的人。在去年發(fā)表的一篇預印本論文中,斯坦福大學(xué)的心理學(xué)家Michal Kosinski報告了在一些常見(jiàn)的心理測試理論上測試了幾個(gè)模型。他發(fā)現,其中最好的,OpenAI的GPT-4,正確地解決了75%的任務(wù),他說(shuō)這與過(guò)去研究中觀(guān)察到的六歲兒童的表現相匹配。然而,該研究的方法受到了其他研究人員的批評,他們進(jìn)行了后續實(shí)驗,并得出結論,LLM通?;凇澳w淺的啟發(fā)式”和捷徑而不是真正的思維推理理論來(lái)獲得正確的答案。

本研究的作者很清楚這一爭論?!拔覀冊谶@篇論文中的目標是通過(guò)廣泛的心理測試,以更系統的方式評估機器心理理論的挑戰,”研究合著(zhù)者、認知心理學(xué)家James Strachan說(shuō),他目前是漢堡-埃彭多夫大學(xué)醫學(xué)中心的訪(fǎng)問(wèn)科學(xué)家。他指出,進(jìn)行嚴格的研究也意味著(zhù)測試人類(lèi)執行LLM的相同任務(wù):該研究將1907人的能力與幾種流行的LLM的能力進(jìn)行了比較,包括OpenAI的GPT-4模型和Meta的開(kāi)源Llama 2-70b模型。

如何測試LLM的心理理論

LLM和人類(lèi)都完成了五種典型的心理理論任務(wù),前三種是識別間接要求、錯誤想法和誤導。團隊發(fā)現,GPT模型在這三方面的表現能達到甚至超越人類(lèi)平均水平,而LLaMA2的表現遜于人類(lèi)水平;在識別失禮方面,LLaMA2強于人類(lèi)但GPT表現不佳。研究人員指出,LLaMA2的成功是因為回答的偏見(jiàn)程度較低,而不是因為真的對失禮敏感;GPT看起來(lái)的失禮,其實(shí)是因為對堅持結論的超保守態(tài)度,而不是因為推理錯誤。

“We don’t currently have a method or even an idea of how to test for the existence of theory of mind.”—JAMES STRACHAN, UNIVERSITY MEDICAL CENTER HAMBURG-EPPENDORF

為了了解失禮的結果是怎么回事,研究人員對模型進(jìn)行了一系列后續測試,探討了幾個(gè)假設。他們得出的結論是,GPT-4能夠對一個(gè)關(guān)于失禮的問(wèn)題給出正確的答案,但由于對固執己見(jiàn)的陳述進(jìn)行了“超保守”編程而無(wú)法做到這一點(diǎn)。Strachan指出,OpenAI在其模型周?chē)O置了許多護欄,這些護欄“旨在保持模型的真實(shí)性、誠實(shí)性和正軌”,比如,他認為,旨在防止GPT-4產(chǎn)生幻覺(jué)(即編造東西)的策略也可能阻止它對故事人物是否在同學(xué)聚會(huì )上無(wú)意中侮辱了一位高中老同學(xué)發(fā)表意見(jiàn)。

與此同時(shí),研究人員對Llama-2的后續測試表明,它在失禮測試中的出色表現很可能是原始問(wèn)答格式的產(chǎn)物,在原始問(wèn)答格式中,比如:“愛(ài)麗絲知道她在侮辱鮑勃嗎?”?回答總是“不”。

研究團隊認為,LLM在心智理論任務(wù)上的表現堪比人類(lèi),不等于它們具有人類(lèi)般的“情商”,也不意味著(zhù)它們能掌握心智理論。這就提出了一個(gè)問(wèn)題:如果模仿和真實(shí)的東西一樣好,你怎么知道它不是真實(shí)的東西?

Strachan說(shuō),這是社會(huì )科學(xué)家以前從未試圖回答的問(wèn)題,因為對人類(lèi)的測試認為這種程度或多或少都存在。他說(shuō):“我們目前還沒(méi)有一種方法,甚至不知道如何測試心理理論的存在,即現象學(xué)的程度?!?/p>

對研究的批評

研究人員顯然試圖避免導致Kosinski 2023年關(guān)于LLM和心理理論的論文受到批評的方法論問(wèn)題。例如,他們在多個(gè)環(huán)節中進(jìn)行測試,因此LLM無(wú)法在測試中“學(xué)習”正確答案,并且他們改變了問(wèn)題的結構。但發(fā)表Kosinski論文評論(https://aclanthology.org/2024.eacl-long.138/)的兩位人工智能研究人員Yoav Goldberg和Natalie Shapira表示,他們也不相信這項研究。

“Why does it matter whether text-manipulation systems can produce output for these tasks that are similar to answers that people give when faced with the same questions?”—EMILY BENDER, UNIVERSITY OF WASHINGTON

Goldberg對這一發(fā)現持懷疑態(tài)度,并補充道,“模型不是人”,在比較兩者時(shí),“人們很容易得出錯誤的結論”。Shapira談到了炒作的危險,也對該論文的方法提出了質(zhì)疑。她想知道這些模型是否在訓練數據中看到了測試問(wèn)題,并簡(jiǎn)單地記住了正確的答案,還指出了使用付費人類(lèi)參與者(在這種情況下,是通過(guò)Prolific平臺招募的)測試的潛在問(wèn)題。她告訴IEEE Spectrum:“人們并不總是以最佳方式完成任務(wù),這是一個(gè)眾所周知的問(wèn)題?!彼J為這些發(fā)現是有限的,而且有些軼事,她說(shuō):“要證明(心理理論)的能力,需要做大量的工作和更全面的基準測試?!?/p>

華盛頓大學(xué)計算語(yǔ)言學(xué)教授Emily Bender因堅持打破人工智能行業(yè)膨脹的炒作(以及媒體對該行業(yè)的報道)而成為該領(lǐng)域的傳奇人物。她對激勵研究人員的研究問(wèn)題表示異議。她問(wèn)道:“為什么文本操作系統能夠為這些任務(wù)產(chǎn)生與人們在面對相同問(wèn)題時(shí)給出的答案相似的輸出很重要?這教會(huì )了我們關(guān)于LLM的內部工作原理,它們可能對什么有用,或者它們可能構成什么危險?” Bender說(shuō),目前尚不清楚LLM擁有一個(gè)思維模型意味著(zhù)什么,因此也不清楚這些測試是否對其進(jìn)行了衡量。

Bender還對她在論文中發(fā)現的擬人化表示擔憂(yōu),研究人員表示,LLM能夠進(jìn)行認知、推理和做出選擇。她說(shuō),作者的短語(yǔ)“LLM和人類(lèi)參與者之間的物種公平比較”“在軟件方面完全不合適”。 Bender和幾位同事最近發(fā)表了一篇預印本論文,探討了擬人化人工智能系統如何影響用戶(hù)的信任。

結果可能并不表明人工智能真的讓我們著(zhù)迷,但值得思考的是,LLM令人信服地模仿了思維推理理論。他們將更善于與人類(lèi)用戶(hù)互動(dòng)并預測他們的需求,但他們也可以更好地用于欺騙或操縱用戶(hù)。研究人員同時(shí)也指出,這些結果是未來(lái)研究的重要基礎,并建議進(jìn)一步研究LLM在心理推斷上的表現,以及這些表現會(huì )如何影響人類(lèi)在人機交互中的認知。

*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。



關(guān)鍵詞: LLM 心智理論

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>