成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

滿血o3降智和幻覺倍增的原因可能找到了

人工智能 新聞
OpenAI隆重推出O3模型時,公布了一個當(dāng)時看來非常驚人的成績:在專門針對數(shù)學(xué)問題的挑戰(zhàn)性基準(zhǔn)測試 FrontierMath 上,O3的得分超過了?25%!

OpenAI推出的滿血O3“跑分”(Benchmark)貌似又被獨(dú)立測試揭穿是刷榜了,而奇怪的測試基準(zhǔn)數(shù)據(jù)可能就是o3降智和幻覺倍增的原因?

圖片

你可能要問了,一個數(shù)學(xué)基準(zhǔn)測試,與降智和幻覺有什么關(guān)系?

事情要從去年12月說起。OpenAI隆重推出O3模型時,公布了一個當(dāng)時看來非常驚人的成績:在專門針對數(shù)學(xué)問題的挑戰(zhàn)性基準(zhǔn)測試 FrontierMath 上,O3的得分超過了 25%

這個成績有多厲害?要知道,當(dāng)時的頂尖模型在這個榜單上也只能勉強(qiáng)達(dá)到約 2%。OpenAI O3的這個數(shù)字,基本上是斷崖式領(lǐng)先。

真實(shí)成績只有10%...?

然而,Epoch AI ( FrontierMath測試基準(zhǔn)公司)這兩天發(fā)布了他們對 滿血版O3 的獨(dú)立測試結(jié)果。

這一測不要緊,結(jié)果卻讓人大跌眼鏡:Epoch發(fā)現(xiàn),滿血O3在同一基準(zhǔn)測試上的得分竟然只有約 10%! 這個分?jǐn)?shù),雖然相對其他模型依然有優(yōu)勢,但和OpenAI最初那個25%+的“王牌”表現(xiàn)相比,差距可不是一點(diǎn)半點(diǎn)。Epoch直言,這個分?jǐn)?shù)遠(yuǎn)低于OpenAI最初公布的最高成績,測試成績放在o3mini high和o4 mini當(dāng)中看起來很奇怪,滿血的o3竟然不如早先發(fā)布的o3 mini high。

圖片

為什么會有這么大的差距?原因找到了

根據(jù)Epoch和相關(guān)方的說法,主要有幾點(diǎn):

測試環(huán)境與方法不同: Epoch 提到,OpenAI最初公布的那個高分,可能是在更強(qiáng)大的內(nèi)部計算環(huán)境、或使用了更復(fù)雜的測試時間計算資源(比如多輪思考、內(nèi)部推理鏈等)下得出的。這就像運(yùn)動員平時訓(xùn)練時有教練指導(dǎo)、使用輔助器材,和正式比賽時的表現(xiàn)可能不一樣。

測試數(shù)據(jù)集不同: FrontierMath 基準(zhǔn)測試本身也在更新。OpenAI最初可能使用了包含180道問題的舊版數(shù)據(jù)集進(jìn)行測試,而Epoch測試的是包含290道問題的新版數(shù)據(jù)集。題目難度和數(shù)量變了,分?jǐn)?shù)自然可能不一樣。

模型版本不同: 這是最關(guān)鍵的一點(diǎn)!據(jù)ARC Prize基金會等機(jī)構(gòu)透露(他們也測試過O3的預(yù)發(fā)布版本),OpenAI 公開發(fā)布給用戶使用的 O3 模型,特別是針對聊天和產(chǎn)品應(yīng)用進(jìn)行過優(yōu)化的版本,與OpenAI最初用于跑分的那個性能更強(qiáng)的預(yù)發(fā)布版本是“不同的模型”。簡單來說,公開版的計算層級(可以理解為模型的“大小”或“算力”)更小。通常來說,計算層級更大的模型能獲得更好的跑分成績。

定位不同: OpenAI技術(shù)人員Wenda Zhou也在一次直播中解釋說,公開發(fā)布的O3是針對成本效率和通用性進(jìn)行了優(yōu)化,以便更好地服務(wù)于實(shí)際應(yīng)用。因此,它的表現(xiàn)可能與純粹追求最高跑分、不計成本的演示版本存在“基準(zhǔn)測試差異”。

寫在最后

看起來這個所謂的滿血版的o3也是一個優(yōu)化的版本,一切都可以說通了,本來滿血o3是要被整合到GPT5里邊的,但是由于deepseek的沖擊,還有成本等原因,最終奧特曼還是改變了注意,優(yōu)化版o3還是單獨(dú)推出了,有可能更好的模型被雪藏了,個人揣測這可能就是o3降智和幻覺增加的原因。

責(zé)任編輯:張燕妮 來源: AI寒武紀(jì)
相關(guān)推薦

2025-04-21 16:25:58

OpenAI測試模型

2025-04-17 08:59:59

2020-03-02 19:51:40

戴爾

2023-11-07 14:58:26

2025-04-21 09:27:00

2025-04-16 09:35:03

2025-06-11 08:56:54

2022-02-12 00:08:28

安卓iOS

2025-04-17 06:10:57

2025-04-23 08:30:05

2025-06-11 12:44:40

2018-02-07 14:31:57

顯卡顯存價格

2024-12-24 16:15:04

2012-03-13 16:55:02

2023-04-25 07:48:01

顯示器屏幕數(shù)字化

2017-11-02 13:05:12

PC3D NAND內(nèi)存

2022-07-04 09:12:09

AI技術(shù)論文

2025-05-13 08:24:14

2020-11-25 11:48:12

比特幣加密貨幣區(qū)塊鏈

2025-04-07 07:18:48

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 日韩成人在线播放 | 日韩欧美在线不卡 | 日本又色又爽又黄的大片 | 精品亚洲视频在线 | 国产精品高清一区二区三区 | 成人在线视频一区 | 成人国产精品免费观看视频 | 一区视频在线免费观看 | 九九国产 | 亚洲一区视频 | 在线免费观看一区二区 | 日韩在线一区二区三区 | 天堂网avav| 日本精品视频一区二区 | 国产一级精品毛片 | 日韩毛片中文字幕 | 国产成人精品久久二区二区91 | 一区二区三区在线免费观看 | 国产美女久久 | 一区二区三区免费网站 | 亚洲国产精品一区二区久久 | 久久精彩视频 | 欧美黑人国产人伦爽爽爽 | 九色在线观看 | 免费看91| 91久久精品日日躁夜夜躁欧美 | 欧美精品成人一区二区三区四区 | 黄色一级大片在线观看 | 美国一级黄色片 | 四虎影院免费在线 | 在线观看中文字幕 | 天天视频一区二区三区 | 久久一本 | 欧美激情综合网 | 久久久久久久久久久久久91 | 国产精品久久福利 | 亚洲欧美在线免费观看 | 国产高清视频在线观看 | 亚洲精品一区二区三区蜜桃久 | 日韩电影在线 | 国产精品成人一区二区 |