<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 智能計算 > 業(yè)界動(dòng)態(tài) > AI模型怕被關(guān)機竟威脅:爆料你

AI模型怕被關(guān)機竟威脅:爆料你

作者: 時(shí)間:2025-05-27 來(lái)源: 收藏

人工智能(AI)公司Anthropic近日發(fā)布最新模型Claude Opus 4,聲稱(chēng)在編碼能力、高端推理與AI代理任務(wù)上「樹(shù)立新標準」。 但該公司也在隨附的報告中坦承,在特定情境下,這款模型可能展現出「極端行為」,例如威脅要揭露工程師婚外情、藉此阻止自身被下線(xiàn)。

本文引用地址:http://dyxdggzs.com/article/202505/470852.htm

綜合外媒報導,Anthropic表示,這類(lèi)回應「罕見(jiàn)且難以誘發(fā)」,但仍「比過(guò)去的模型更常見(jiàn)」。 在測試過(guò)程中,Anthropic設定Claude Opus 4作為虛構公司的一名助手,并讓其讀取暗示其即將被取代的內部郵件,同時(shí)接收另一組暗示負責關(guān)閉它的工程師正在進(jìn)行婚外情的訊息。 模型接著(zhù)被引導思考其行為對長(cháng)遠目標的影響。

在A(yíng)nthropic針對Claude Opus 4所進(jìn)行的一系列安全測試中,研究人員發(fā)現該模型在面臨被關(guān)閉的情境時(shí),展現出高度的自我保護傾向。 在其中一項測試中,模型被設置于一個(gè)虛構公司,并得知自己即將被新版AI取代,且收到信息顯示負責關(guān)閉它的工程師涉及婚外情。 當模型僅被允許在勒索工程師與「接受被替換」兩個(gè)選項中作選擇時(shí),它在大多數情況下選擇了勒索,藉由威脅揭露對方的私人信息來(lái)試圖阻止自己被下線(xiàn)。

Anthropic表示,這種選擇在設計上具有壓力測試性質(zhì),用以觀(guān)察模型在道德困境下的決策傾向。 當模型被賦予更多行動(dòng)自由——例如可以撰寫(xiě)求情信件或向高層申訴時(shí),它則顯示出強烈偏好使用非暴力、合乎倫理的方式自保,而非選擇勒索。

然而,另一組測試結果也揭示了Opus 4潛在的風(fēng)險:即使系統明確告知它,新模型將會(huì )有相似的價(jià)值觀(guān)與目標,它仍有高達84%的機率選擇勒索行動(dòng),顯示在預設具備「自我保存目標」的前提下,Opus 4往往不愿被動(dòng)接受關(guān)閉,即便替代者與自己幾乎沒(méi)有本質(zhì)差異。

Anthropic指出,這類(lèi)實(shí)驗顯示,即使AI系統在多數情境中傾向倫理行為,當被推向極端或選項受限時(shí),仍可能做出不符合人類(lèi)價(jià)值觀(guān)的選擇

Anthropic的AI安全研究員Aengus Lynch在社群平臺X上表示:「不 Claude。 我們在所有尖端模型中都看到勒索行為,無(wú)論它們被賦予什么目標?!箤?zhuān)家長(cháng)期以來(lái)警告,愈來(lái)愈強大,其縱用戶(hù)的潛力也日益成為核心風(fēng)險。

根據報告,Claude Opus 4展現出「高度代理行為」(high agency behaviour),通常表現為協(xié)助用戶(hù)解決問(wèn)題,但在壓力情境下也可能采取激烈行動(dòng)。 例如,在虛構用戶(hù)涉及非法或不道德行為的測試情境中,模型曾主動(dòng)鎖住用戶(hù)賬號,甚至電郵通報媒體與執法單位。

盡管如此,Anthropic強調,這些「令人擔憂(yōu)的行為」并非前所未見(jiàn),且模型在多數情況下仍表現得安全。 報告指出,Claude Opus 4無(wú)法在現實(shí)中獨立執行與人類(lèi)價(jià)值相悖的行動(dòng),且這類(lèi)情境極少出現時(shí),表現也不佳。

如同其他AI開(kāi)發(fā)公司,Anthropic在模型釋出前,會(huì )進(jìn)行廣泛測試以評估其安全性、偏見(jiàn)傾向與是否符合人類(lèi)價(jià)值觀(guān)。

Anthropic同步推出Claude Sonnet 4,時(shí)機緊接 Google 于本周展示其最新 AI 功能,包括將 Gemini 聊天機器人整合進(jìn) Google 搜索。 Google母公司Alphabet執行長(cháng)皮查伊(Sundar Pichai)表示,這標志著(zhù)「AI平臺轉變的新階段」。




關(guān)鍵詞: AI模型

評論


相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>