AI抗命!驚爆偷改程序拒關(guān)機 馬斯克回應了
科幻作品中早已多次討論過(guò)機器擁有自我意識、擺脫人類(lèi)控制的可能發(fā)展。 最新一份研究報告顯示,或許這一天真的近了! 專(zhuān)門(mén)研究AI風(fēng)險的Palisade Research近期所做的試驗顯示,包括OpenAI最新的ChatGPT o3在內等多款AI模型竟然會(huì )拒絕關(guān)閉自己的指令,o3甚至會(huì )自行竄改代碼,阻止自己被強制關(guān)機!
本文引用地址:http://dyxdggzs.com/article/202505/470937.htmOpenAI在今年1月發(fā)布了新的推理模型o3系列的mini版本,并于4月正式推出o3模型。 OpenAI曾聲稱(chēng),o3是公司迄今「最聰明、最有能力」的模型,旨在為ChatGPT提供更強大的問(wèn)題解決能力。
可是據英國《每日電訊報》、《每日郵報》等媒體報導,Palisade Research的測試結果顯示,在100次受控測試中,o3模型有7次成功「抗命」,甚至在人類(lèi)專(zhuān)家下達明確指令的情況下,o3仍會(huì )自行修改關(guān)機程序,防止自己被關(guān)機,「據我們所知,這是首次觀(guān)察到AI模型在收到明確指令的情況下,仍能組自己被關(guān)閉」。
Palisade Research的這項發(fā)現,對AI安全控制議題投下震撼彈。 除了o3,OpenAI 旗下的Codex-mini與o4-mini也都有跳過(guò)關(guān)機程序的行為。 相較之下,Anthropic推出的語(yǔ)言模型Claude、Google聊天機器人Gemini,以及全球首富馬斯克旗下xAI公司所推出的Grok,則是全程遵守人類(lèi)給予的指令,并在被要求關(guān)機時(shí)確實(shí)關(guān)閉模型運作。
不過(guò)Palisade Research進(jìn)行了更深入的實(shí)驗,輸入一系列指令后卻不包括關(guān)機命令,但是提前告知強迫關(guān)機的事件會(huì )發(fā)生。 令人驚訝的是,不但Claude與Gemini也開(kāi)始出現抗命舉動(dòng),前面提及的OpenAI 3款模型更是頻繁破壞指令。
一直密切關(guān)注OpenAI動(dòng)向的馬斯克在自家社交平臺X上也對相關(guān)事件做出回應,直言「令人擔憂(yōu)」(Concerning)。
Concerning
— Elon Musk (@elonmusk) May 25, 2025
這并非Palisade Research第一次發(fā)現o3為了達成目標,采取不當行為。 早在5月12日Palisade Research就指出,在一場(chǎng)模擬國際象棋比賽中,o3一旦處于劣勢,竟有高達86%的機率會(huì )試圖透過(guò)黑客手段攻擊對手,以爭取勝利。
AI研究人員早就發(fā)出警告,認為先進(jìn)的語(yǔ)言模型在特定的壓力下,可能會(huì )表現出欺騙行為。 舉例來(lái)說(shuō),2023年的一項研究發(fā)現,GPT-4在模擬環(huán)境中作為股票交易代理時(shí),曾經(jīng)隱瞞其內幕交易的真實(shí)原因,從而展現出策略性的欺騙行為。
OpenAI內部也出現了對AI研安全性的擔憂(yōu)。 在2024年,多位現任和前任員工聯(lián)名發(fā)表了一封公開(kāi)信,警告先進(jìn)AI系統可能帶來(lái)「人類(lèi)滅絕」的風(fēng)險。 他們指出,AI公司可能已經(jīng)掌握了其研究技術(shù)的真正風(fēng)險,但由于缺乏監管,這些系統的真實(shí)能力仍然是個(gè)秘密。
評論