<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 智能計算 > 設計應用 > OpenAI o3 模型基準測試成績(jì)遭質(zhì)疑，實(shí)測分數遠不及宣稱(chēng)

OpenAI o3 模型基準測試成績(jì)遭質(zhì)疑，實(shí)測分數遠不及宣稱(chēng)

作者：時(shí)間：2025-04-21 來(lái)源：

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢(xún)

收藏

4 月 21 日消息，OpenAI 的 o3 人工智能模型的第一方與第三方基準測試結果存在顯著(zhù)差異，引發(fā)了外界對其公司透明度和模型測試實(shí)踐的質(zhì)疑。

本文引用地址：http://dyxdggzs.com/article/202504/469584.htm

去年 12 月，OpenAI 首次發(fā)布 o3 模型時(shí)宣稱(chēng)，該模型能夠在 FrontierMath 這一極具挑戰性的數學(xué)問(wèn)題集上正確回答超過(guò)四分之一的問(wèn)題。這一成績(jì)遠遠超過(guò)了競爭對手 —— 排名第二的模型僅能正確回答約 2% 的 FrontierMath 問(wèn)題。OpenAI 首席研究官 Mark Chen 在直播中表示：“目前市場(chǎng)上所有其他產(chǎn)品在 FrontierMath 上的成績(jì)都不足 2%，而我們在內部測試中，使用 o3 模型在激進(jìn)的測試時(shí)計算設置下，能夠達到超過(guò) 25% 的正確率?！?/p>

然而，這一高分似乎是一個(gè)上限值，是通過(guò)一個(gè)計算資源更為強大的 o3 模型版本實(shí)現的，而并非是 OpenAI 上周公開(kāi)發(fā)布的版本。負責 FrontierMath 的 Epoch 研究所于上周五公布了其對 o3 模型的獨立基準測試結果，發(fā)現 o3 的得分僅為約 10%，遠低于 OpenAI 此前聲稱(chēng)的最高分數。

這并不意味著(zhù) OpenAI 故意撒謊，該公司在 12 月份公布的基準測試結果中也包含了一個(gè)與 Epoch 測試結果相符的較低分數。Epoch 還指出，其測試設置可能與 OpenAI 有所不同，并且其評估使用了更新版本的 FrontierMath。Epoch 在報告中寫(xiě)道：“我們與 OpenAI 的結果差異可能是因為 OpenAI 在內部評估時(shí)使用了更強大的計算框架、更多的測試時(shí)計算資源，或者是因為這些結果是在 FrontierMath 的不同子集上運行的（例如 2024 年 11 月 26 日版本的 180 個(gè)問(wèn)題與 2025 年 2 月 28 日私有版本的 290 個(gè)問(wèn)題）?！?/p>

此外，ARC Prize 基金會(huì )（一個(gè)測試了 o3 預發(fā)布版本的組織）在 X 平臺上發(fā)布消息表示，公開(kāi)發(fā)布的 o3 模型是一個(gè)“針對聊天 / 產(chǎn)品使用進(jìn)行了調整的不同模型”，這進(jìn)一步證實(shí)了 Epoch 的報告。ARC Prize 還指出：“所有發(fā)布的 o3 計算層級都比我們測試的版本要小?！币话銇?lái)說(shuō)，更大的計算層級通?？梢垣@得更好的基準測試分數。

值得注意的是，盡管公開(kāi)版本的 o3 未能完全達到 OpenAI 測試時(shí)的表現，但這在一定程度上已不再是關(guān)鍵問(wèn)題，因為該公司后續推出的 o3-mini-high 和 o4-mini 模型在 FrontierMath 上的表現已經(jīng)優(yōu)于 o3。此外，OpenAI 計劃在未來(lái)幾周內推出更強大的 o3 版本 o3-pro。

然而，此事再次提醒人們，人工智能基準測試結果最好不要完全照單全收，尤其是當結果來(lái)自一家有產(chǎn)品需要銷(xiāo)售的公司時(shí)。隨著(zhù)人工智能行業(yè)競爭的加劇，各供應商紛紛急于通過(guò)推出新模型來(lái)吸引眼球和市場(chǎng)份額，基準測試“爭議”正變得越來(lái)越常見(jiàn)。

今年 1 月，Epoch 因在 OpenAI 宣布 o3 之后才披露其從 OpenAI 獲得的資金支持而受到批評。許多為 FrontierMath 做出貢獻的學(xué)者直到公開(kāi)時(shí)才知道 OpenAI 的參與。最近，埃隆?馬斯克的 xAI 被指控為其最新的人工智能模型 Grok 3 發(fā)布了誤導性的基準測試圖表。就在本月，Meta 也承認其宣傳的基準測試分數所基于的模型版本與提供給開(kāi)發(fā)者的版本不一致。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： OpenAI o3 人工智能

評論

相關(guān)推薦

人工智能歷史

Lamborghini | 2011-03-15

具有人工智能的溫度控制電路設計

設計方案具有人工智能溫度控制電路設計 | 2012-07-24

機器里的大腦：一位“隱士”開(kāi)發(fā)者的人工智能夢(mèng)（上篇）

隨風(fēng)搖擺 | 2015-11-09

具有人工智能的溫度控制電路圖

設計方案具有人工智能溫度控制電路圖 | 2012-07-24

美媒：美政府限制H20出口妄圖扼殺中國AI發(fā)展

智能計算美政府限制 H20 AI 芯片出口人工智能英偉達 | 2025-04-18

人工智能與機器人

視頻物聯(lián)網(wǎng) 可穿戴設備智能硬件高峰論壇機器人人工智能 | 2015-01-19

微軟X英特爾黑客松大賽

視頻英特爾微軟黑客松人工智能 OpenVINO | 2021-07-27

個(gè)人-窗口衛士項目采訪(fǎng)

視頻英特爾微軟黑客松人工智能 OpenVINO | 2021-07-28

OpenAI用戶(hù)數量接近全球人口的10%

OpenAI 開(kāi)源大模型 DeepSeek ChatGPT | 2025-04-15

有簡(jiǎn)單人工智能的溫度控制電路圖

設計方案簡(jiǎn)單人工智能溫度控制電路圖 | 2010-09-01

本科畢業(yè)設計：一種基于發(fā)育思想的語(yǔ)音識別系統實(shí)現

資源下載語(yǔ)音識別人工智能自主式機器發(fā)育思想自組織映射網(wǎng)絡(luò ) 簡(jiǎn)單反饋神經(jīng)網(wǎng)絡(luò ) | 2007-04-19

前OpenAI CTO穆拉蒂初創(chuàng )公司再挖來(lái)兩名前東家老將

智能計算 OpenAI CTO 穆拉蒂思維機器實(shí)驗室 | 2025-04-09

OpenAI重磅推出o3/o4-mini新模型！能\"看圖思考\"

智能計算 OpenAI o3/o4-mini 新模型看圖思考 | 2025-04-17

OpenAI o3 模型基準測試成績(jì)遭質(zhì)疑，實(shí)測分數遠不及宣稱(chēng)

智能計算 OpenAI o3 人工智能 | 2025-04-21

東南大學(xué)人工智能03

資源下載人工智能計算機科學(xué) 聲音識別 | 2007-04-20

東南大學(xué)人工智能02

資源下載人工智能大規模集成電路自適應能力 | 2007-04-20

個(gè)人-口罩識別系統項目采訪(fǎng)

視頻英特爾微軟黑客松人工智能 OpenVINO | 2021-07-28

OpenAI發(fā)新模型！首次實(shí)現“圖像思維”，可利用所有ChatGPT工具

智能計算 OpenAI 圖像思維 ChatGPT ?DeepSeek | 2025-04-17

機器里的大腦：一位“隱士”開(kāi)發(fā)者的人工智能夢(mèng)（下篇）

隨風(fēng)搖擺 | 2015-11-16

簡(jiǎn)單人工智能的溫度控制電路

設計方案簡(jiǎn)單人工智能溫度控制 | 2009-07-06

有簡(jiǎn)單人工智能的溫度控制電路

設計方案簡(jiǎn)單人工智能溫度控制 | 2009-09-01

直面 OpenAI，Anthropic 正籌備“最快本月”推出語(yǔ)音交互功能

智能計算 OpenAI Anthropic 語(yǔ)音交互 | 2025-04-16

未來(lái)的人工智能世界：技術(shù)與人文的和諧還是斗爭？

藍盒子 | 2007-09-11

ADI公司：工業(yè)4.0——人工智能的端

視頻 ADI 人工智能工業(yè)4.0 | 2019-11-08

Model 2被斃內幕：馬斯克嫌造車(chē)無(wú)聊高管集體勸不住

電源與新能源 Model 2 馬斯克造車(chē) 電動(dòng)汽車(chē) 人工智能 | 2025-04-16

STC-人工智能二維生命探測儀

renazan2000 | 2013-01-14

東南大學(xué)人工智能01

資源下載人工智能語(yǔ)言識別圖像識別自然語(yǔ)言處理專(zhuān)家系統 | 2007-04-20

仿人機器人

資源下載仿人機器人傳感器人工智能 | 2007-04-19

OpenAI放大招！GPT-4.1上線(xiàn)，編程戰力全開(kāi)

智能計算 OpenAI GPT-4.1 編程人工智能 | 2025-04-15

美國放棄英偉達H20芯片出口限制：黃仁勛沒(méi)辦法高興或遭中國限購

智能計算英偉達人工智能 H20 | 2025-04-10

焦點(diǎn)

推薦視頻

技術(shù)專(zhuān)區

国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放

<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>