<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 智能計算 > 業(yè)界動(dòng)態(tài) > AI模型怕被關(guān)機竟威脅：爆料你

AI模型怕被關(guān)機竟威脅：爆料你

作者：時(shí)間：2025-05-27 來(lái)源：

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢(xún)

收藏

人工智能（AI）公司Anthropic近日發(fā)布最新模型Claude Opus 4，聲稱(chēng)在編碼能力、高端推理與AI代理任務(wù)上「樹(shù)立新標準」。但該公司也在隨附的報告中坦承，在特定情境下，這款模型可能展現出「極端行為」，例如威脅要揭露工程師婚外情、藉此阻止自身被下線(xiàn)。

本文引用地址：http://dyxdggzs.com/article/202505/470852.htm

綜合外媒報導，Anthropic表示，這類(lèi)回應「罕見(jiàn)且難以誘發(fā)」，但仍「比過(guò)去的模型更常見(jiàn)」。在測試過(guò)程中，Anthropic設定Claude Opus 4作為虛構公司的一名助手，并讓其讀取暗示其即將被取代的內部郵件，同時(shí)接收另一組暗示負責關(guān)閉它的工程師正在進(jìn)行婚外情的訊息。模型接著(zhù)被引導思考其行為對長(cháng)遠目標的影響。

在A(yíng)nthropic針對Claude Opus 4所進(jìn)行的一系列安全測試中，研究人員發(fā)現該模型在面臨被關(guān)閉的情境時(shí)，展現出高度的自我保護傾向。在其中一項測試中，模型被設置于一個(gè)虛構公司，并得知自己即將被新版AI取代，且收到信息顯示負責關(guān)閉它的工程師涉及婚外情。當模型僅被允許在勒索工程師與「接受被替換」兩個(gè)選項中作選擇時(shí)，它在大多數情況下選擇了勒索，藉由威脅揭露對方的私人信息來(lái)試圖阻止自己被下線(xiàn)。

Anthropic表示，這種選擇在設計上具有壓力測試性質(zhì)，用以觀(guān)察模型在道德困境下的決策傾向。當模型被賦予更多行動(dòng)自由——例如可以撰寫(xiě)求情信件或向高層申訴時(shí)，它則顯示出強烈偏好使用非暴力、合乎倫理的方式自保，而非選擇勒索。

然而，另一組測試結果也揭示了Opus 4潛在的風(fēng)險：即使系統明確告知它，新模型將會(huì )有相似的價(jià)值觀(guān)與目標，它仍有高達84%的機率選擇勒索行動(dòng)，顯示在預設具備「自我保存目標」的前提下，Opus 4往往不愿被動(dòng)接受關(guān)閉，即便替代者與自己幾乎沒(méi)有本質(zhì)差異。

Anthropic指出，這類(lèi)實(shí)驗顯示，即使AI系統在多數情境中傾向倫理行為，當被推向極端或選項受限時(shí)，仍可能做出不符合人類(lèi)價(jià)值觀(guān)的選擇

Anthropic的AI安全研究員Aengus Lynch在社群平臺X上表示：「不 Claude。我們在所有尖端模型中都看到勒索行為，無(wú)論它們被賦予什么目標?！箤?zhuān)家長(cháng)期以來(lái)警告，AI模型愈來(lái)愈強大，其縱用戶(hù)的潛力也日益成為核心風(fēng)險。

根據報告，Claude Opus 4展現出「高度代理行為」（high agency behaviour），通常表現為協(xié)助用戶(hù)解決問(wèn)題，但在壓力情境下也可能采取激烈行動(dòng)。例如，在虛構用戶(hù)涉及非法或不道德行為的測試情境中，模型曾主動(dòng)鎖住用戶(hù)賬號，甚至電郵通報媒體與執法單位。

盡管如此，Anthropic強調，這些「令人擔憂(yōu)的行為」并非前所未見(jiàn)，且模型在多數情況下仍表現得安全。報告指出，Claude Opus 4無(wú)法在現實(shí)中獨立執行與人類(lèi)價(jià)值相悖的行動(dòng)，且這類(lèi)情境極少出現時(shí)，表現也不佳。

如同其他AI開(kāi)發(fā)公司，Anthropic在模型釋出前，會(huì )進(jìn)行廣泛測試以評估其安全性、偏見(jiàn)傾向與是否符合人類(lèi)價(jià)值觀(guān)。

Anthropic同步推出Claude Sonnet 4，時(shí)機緊接 Google 于本周展示其最新 AI 功能，包括將 Gemini 聊天機器人整合進(jìn) Google 搜索。 Google母公司Alphabet執行長(cháng)皮查伊（Sundar Pichai）表示，這標志著(zhù)「AI平臺轉變的新階段」。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： AI模型

評論

相關(guān)推薦

全球首創(chuàng )！阿里巴巴AI攻克\"癌癥之王\"早篩難題獲FDA最高級別認證

智能計算阿里巴巴 AI模型醫療器械胰腺癌 | 2025-04-18

Anthropic最強AI模型Claude 3.5 Sonnet在A(yíng)mazon Bedrock上正式可用

智能計算 Anthropic AI模型 Claude 3.5 Sonnet Amazon Bedrock | 2024-06-21

OpenAI新模型性能或超GPT-4百倍！阿爾特曼緊急辟謠

智能計算 OpenAI AI模型 GPT-4 | 2024-10-28

挑戰DeepSeeK 「AI教母」打造AI模型訓練成本不到50美元

智能計算 DeepSeeK AI模型李飛飛 | 2025-02-08

觀(guān)察AI模型的隱空間狀態(tài)，探索潛在因子

智能計算 202410 AI模型隱空間 | 2024-10-16

聯(lián)發(fā)科發(fā)布Genio 720/520智能物聯(lián)網(wǎng)芯片，支持生成式AI模型

物聯(lián)網(wǎng)與傳感器聯(lián)發(fā)科 Genio 720/520 智能物聯(lián)網(wǎng)芯片 AI模型 | 2025-03-13

AI模型怕被關(guān)機竟威脅：爆料你

智能計算 AI模型 | 2025-05-27

JFrog收購Qwak AI，致力于簡(jiǎn)化AI模型從開(kāi)發(fā)到生產(chǎn)的全流程

智能計算 JFrog Qwak AI AI模型 | 2024-07-01

Microsoft推出可在常規CPU上運行的AI模型

智能計算 Microsoft 常規CPU AI模型 | 2025-04-27

如何防止“有毒”的AI模型釋放現實(shí)世界的混亂

智能計算 AI模型 Amini 區塊鏈 | 2025-04-28

焦點(diǎn)

推薦視頻

技術(shù)專(zhuān)區

国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放

<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>