成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

o3-mini數學推理暴打DeepSeek-R1?AIME 2025初賽曝數據集污染大瓜

人工智能
MathArena是一個用于評估大模型在最新數學競賽和奧林匹克競賽中的表現的平臺。它的核心使命便是,對LLM在「未見過的數學問題」上的推理能力和泛化能力進行嚴格評估。

大語言模型,到底是學會了解決數學問題,還是只是背下了答案?

LLM的「Generalize VS  Memorize」之爭,迎來最新進展。

蘇黎世聯邦理工的研究員Mislav Balunovi?,在X上公布了一眾頂級AI推理模型在AIME 2025 I比賽中的結果。

圖片圖片

其中,o3-mini (high)令人印象非常深刻,以非常低的成本解決了78%的問題。

DeepSeek-R1,則解決了65%的問題,而且它的蒸餾變體也表現不錯,不愧是領先的開源模型!

綠色表示問題的解答率超過75%,黃色表示解答率在25%-75%之間,紅色表示解答率低于25%綠色表示問題的解答率超過75%,黃色表示解答率在25%-75%之間,紅色表示解答率低于25%

然而,結果真的是這樣嗎?

圖片圖片

AI做出奧數題,只因原題已在網上泄露?

威斯康星大學麥迪遜分校教授,目前在微軟擔任研究員的Dimitris Papailiopoulos,對這一測試的結果提出了質疑。

圖片圖片

教授表示,自己對AI模型在數學題上取得的進步,非常驚訝。

原本他以為,一些較小的蒸餾模型遇到這些題就寄了,沒想到它們卻拿到了25%到50%的分數。

這可太令人意外了!

要知道,如果這些題完全是新的,模型在訓練過程中從未見過,按理說小模型能拿0分以上的分數就很好了。

一個1.5B參數的模型連三位數的相乘都做不出,結果卻能做出奧數題,這合理嗎?

這就不由得讓人懷疑,其中有什么問題了。

AIME I是指2025年首場美國邀請數學考試,學生們需要在三個小時內挑戰15道難題AIME I是指2025年首場美國邀請數學考試,學生們需要在三個小時內挑戰15道難題

您猜怎么著?

教授在用OpenAI Deep Research搜索之后發現,AIME 2025第1題,在Quora上就有「原題」!

圖片圖片

而且這還真不是巧合,教授再次使用Deep Research查找了第3題。結果呢?一個非常相似的問題出現在 math.stackexchange 上:

圖片圖片

仍然感到懷疑的教授,用DeepResearch繼續查找了第7題。

然后就發現,一個完全相同的問題,出現在2023年佛羅里達在線數學公開賽第9題中。

圖片圖片

接下來,教授放棄了,因為p值已經低到不行了。

他發出詰問:這對數學基準意味著什么?對RL的突飛猛進又意味著什么?

教授表示自己并不確定,但他也不排除GRPO(一種強化學習優化策略)在強化了模型記憶的同時,也提高了它數學技能的可能性。

至少,這件事表明了一點:數據凈化很難。

永遠不要低估你在互聯網上能找到的東西。幾乎所有東西都能在網上找到。

網友們也表示,雖然數學奧賽每年都會出新題,但根本無法100%保證之前沒有同樣的問題出現過。

圖片圖片

圖片圖片

還有好奇的網友也來搜索了一把。

其中,問題6似乎有原題,問題8和問題10都有略微相似的題型。

圖片圖片

這不禁讓人想起OpenAI秘密資助某數據集的舊聞:如果沒有特殊目的,為什么不告訴出題的數學家呢?

難道真如網友Noorie所言「數據去污才是新的Scaling Law」?

圖片圖片

什么是MathArena?

MathArena是一個用于評估大模型在最新數學競賽和奧林匹克競賽中的表現的平臺。

它的核心使命便是,對LLM在「未見過的數學問題」上的推理能力和泛化能力進行嚴格評估。

為了確保評估的公平性和數據的純凈性,研究人員僅在模型發布后進行競賽測試,避免使用可能泄漏的或預先訓練的材料進行回溯評估。

圖片圖片

通過標準化評估,MathArena能夠確保模型的得分可以實際比較,而不會受到模型提供方特定評估設置的影響。

與此同時,研究人員會為每個競賽發布一個排行榜,顯示不同模型在各個單獨問題上的得分。

此外,他們還將公開一個主表格,展示各個模型在所有競賽中的整體表現。

為公平評估模型的表現,針對每個問題,每個模型均會進行4次重復評估,最后計算出平均得分以及模型運行成本(以美元計)。

參考資料:

https://x.com/mbalunovic/status/1887962694659060204

https://matharena.ai/

https://x.com/DimitrisPapail/status/1887977460664352795

https://olympiads.us/past-exams/2025-aime-i

責任編輯:武曉燕 來源: 新智元
相關推薦

2025-02-18 09:00:00

2025-02-03 14:06:32

2025-02-14 10:47:40

2025-02-08 17:00:11

2025-03-03 07:30:00

谷歌模型AI

2025-02-17 08:12:00

AI模型生成

2025-03-31 08:00:00

AI模型測評

2024-12-24 16:15:04

2025-02-03 12:38:28

2025-03-05 03:00:00

DeepSeek大模型調優

2025-02-18 08:15:03

2025-02-13 08:51:23

DeepSeek大模型

2025-02-19 08:00:00

2025-04-22 09:12:00

AI模型數據

2025-02-03 14:17:27

2025-01-20 19:52:50

2025-02-24 14:05:00

LLM模型AI

2025-02-20 12:09:22

2025-02-10 00:00:01

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日本中文字幕一区 | 国产视频福利在线观看 | 欧美在线视频一区 | 一区二区三区播放 | 拍真实国产伦偷精品 | 久久久一二三区 | 欧美在线视频观看 | 99热这里有精品 | 99久久免费精品国产免费高清 | 精品日韩一区 | a在线观看 | 久久亚洲一区 | 国产精品久久国产精品 | 久草免费在线视频 | 亚洲中国字幕 | 中文字幕在线一区 | 国产91久久久久蜜臀青青天草二 | 羞羞视频网站在线观看 | 一级欧美 | 欧美在线一区二区三区四区 | 黄色成人免费看 | 日韩精品一区二区三区在线观看 | 中文字幕在线视频免费视频 | 久久久精品综合 | 中文字幕亚洲专区 | 亚洲精品在线免费 | 日本不卡高清视频 | 成人h视频在线 | 亚洲国产一区视频 | 浴室洗澡偷拍一区二区 | 国产精品久久久久免费 | 正在播放国产精品 | 日本久草视频 | 在线视频一区二区三区 | 精品精品视频 | 亚洲国产精品va在线看黑人 | 亚洲视频中文字幕 | 日韩毛片网| 欧美精选一区二区 | 国产jizz女人多喷水99 | 国产精品国产a级 |