成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

2025 IMO真題撕碎AI數學神話,全球頂尖模型齊翻車!冠軍銅牌都拿不到

人工智能 新聞
AI做奧數的神話,剛剛被戳破了!最新出爐的2025 IMO數學競賽中,全球頂尖AI模型無一例外翻車了。即便是冠軍Gemini也只拿下可憐的31分,連銅牌都摸不到。Grok-4更是擺爛到底,連DeepSeek-R1都令人失望。看來,AI想挑戰人類奧數大神,還為時尚早。

如果你以為,如今的LLM已經無所不能,那剛剛出爐的2025大模型數學競賽結果,恐怕要讓你大跌眼鏡了。

現在,各模型的分數已經在MathArena上發布。

怎么說呢,所有大模型都翻車了。

即使得分最高的冠軍Gemini,也只拿到了31%的分數。憑這個成績,連拿銅牌都不大可能。

圖片

也就是說,AI想超越目前頂級的人類數學選手,還差得遠呢。

圖片

蘇黎世聯邦理工學院SRI實驗室的博士生Jasper Dekoninck,發了一篇博客記錄此次大賽的詳細過程。

圖片

大模型參加數學競賽,全部翻車!

在今年4月,來自ETH Zurich等機構的MathArena團隊,就曾推翻AI會做數學題這個神話。

當時他們發現,在美國數學奧賽上,頂級AI模型得分不足5%,當時的DeepSeek-R1還是冠軍來著,得分4.76%。

圖片

圖片

而在這屆2025國際數學奧林匹克(IMO)上,全球的AI頂流們又齊聚一堂了。

為了測驗AI們的數學能力天花板,MathArena項目組這次祭出了數學界的終極boss——2025年IMO真題。

國際學生奧林匹克競賽(IMO)是全球18歲以下數學學生的頂尖賽事。參賽者都經過了大量訓練,每道題都有數小時的解答時間。

IMO真題是什么水平呢?它們能難倒全球數學能力最頂尖的高中生,甚至還能分分鐘勸退無數大學數學教授。

在2024年,美國隊的六名參賽者得分在87-99%之間。而陶哲軒在13歲時,就獲得了IMO的金牌。

圖片

這次,組委會希望了解,這些大模型是否能達到拿到奧數獎牌的里程碑級別,比如銅牌(前50%)、銀牌(前25%)甚至金牌(前8%)。

另外,為了防止「開卷作弊」這個問題,評測團隊特意選了一個巧妙的時間:題目剛剛發布,他們就開始讓AI們答題了,所以這些大模型不太可能在數據集中提前見過這些數學題。

可以說,這些基準測試是既未受污染,又是可解釋的。

而AI們的所有答案,都是由兩位奧數專家評委雙盲評分的,標準的嚴苛程度堪比IMO官方。每道題滿分7分。

此次的參賽選手,陣容也是空前豪華,堪稱是AI界的夢之隊。

· o3(OpenAI扛把子) 

· o4-mini(OpenAI小鋼炮) 

· Gemini 2.5 Pro(谷歌第一大將) 

· Grok-4(馬斯克家的理工男) 

· DeepSeek-R1(國產尖子生)

之所以選擇這五位參賽選手,是因為它們此前都在MathArena中有出色的表現。

其中,每個模型都使用推薦的超參數運行,并且設置了64000的最大token限制。

Prompt如下——

你的任務是為以下問題寫出一個證明解決方案。你的證明將由人工評委根據準確性、全面性和清晰性進行評分。在撰寫證明時,請遵循以下指南: 

-你正在撰寫一份證明,而不是證明大綱。每一步都應該仔細解釋并記錄。如果解釋不充分,評委將認為你無法解釋清楚,從而降低你的分數。 

-你可以使用通用的定理和引理,但前提是它們必須是眾所周知的。一個簡單的判斷標準是:如果該結果有名稱,并且足夠有名以至于有維基百科頁面或類似的內容對其進行描述,則允許使用。任何來自論文的結果,如果它不會在高中或本科低年級數學課程中教授,則不應使用。任何此類結果的使用將立即導致你的成績為零。 

-在你的證明中不要跳過計算步驟。清楚地解釋做了哪些變換,以及為什么在計算的每一步中這些變換是被允許的。 

-你應該使用正確的LaTeX符號來編寫公式和數學符號。你應當將這些公式包含在適當的符號中(行內公式使用 "\\(" 和 "\\)",塊狀公式使用 "\\[" 和 "\\]"),以增強證明的清晰度。不要使用任何Unicode字符。 

-你的證明應該是自包含的。 

-如果你對某個具體步驟不確定,或者不知道如何證明一個中間結果,請明確說明。指出你的不確定性比做出錯誤的陳述或主張要好得多。

為了公平,項目組這次采取了一種「best of 32」的策略。

也就是,每道題都會跑出32個不同答案,然后讓AI自己當裁判,通過一輪輪PK選出最強解法后,才會送去給人類評審打分。這樣,模型在推理時,就會盡可能多地擴展計算資源。

因此,這次比賽可以說不僅是卷得離譜,燒錢也燒得令人心疼——

比如,Grok-4的單題評測成本就高達20美元,所以24題的總成本,就超過了480刀!

所以,大模型們的表現如何?

金銀銅,全軍覆沒

Gemini 2.5 Pro,全場最高分

Gemini 2.5 Pro在滿分42分的考卷中,拿到了13分,約等于31%。

這個分數,連銅牌的門檻都沒摸到。

而即使是作為表現最好的AI,Gemini也依然有不少毛病。

比如,遇到不會做的題時,它會編出一些看起來似乎很權威的假定理,比如「根據史密斯-約翰遜超平方引理可得」。

但實際上,這個定理根本就不存在!

圖片

圖片

此前Gemini 2.5 Pro的答題情況

Grok-4:翻車最嚴重,基本沒救了

而最近因為AI女友事件大出風頭的Grok-4,則嚴重翻車了。

它的表現堪稱災難:它給出的絕大多數答案只有最終結果,完全不解釋,整個就是一副「我懶得證明,我就是知道」的擺爛態度。

而顯著落后的一個選手除了Grok-4,還有DeepSeek-R1。

這兩個AI在此次奧數中的成績,相較于它們在MathArena基準測試中的早期成績,退步明顯。

圖片

此前Grok 3 mini的答題情況

AI解題的獨特姿勢:做不出來,我就跳過

在這個過程中,研究者們還發現了AI做數學題的一個有趣現象。

通常,在人類選手參加IMO比賽時,他們要么一題全部做對,要么干脆拿0分,拿3分、4分這樣的中等分數,其實是很少見的。

不過大模型可就完全不一樣了,它們特別擅長考個「及格邊緣線」。

也就是說,它們時常能捕捉到正確的解題思路,方向是對的,但是一到最關鍵的地方就會掉鏈子,邏輯跳躍嚴重。

尤其是到了該證明的關鍵一步,它們就不證明了。而這恰恰是人類選手最不容易出錯的地方。

對此,評審組的感受是:AI現在已經能抓住「人類感」的思路,但是在細節能力上,還是差點火候。

而如果AI們能把這些邏輯問題給搞定,未來它們的成績說不定還真能沖上領獎臺。

圖片

此前DeepSeek-R1的答題情況

2025 IMO真題

我們來看看,今年幾道IMO真題長什么樣子。

問題1:

圖片

問題2:

圖片

問題3:

圖片

問題4:

圖片

問題5:

圖片

問題6:

圖片

AI離成為奧數大師,究竟還有多遠?

也許你會有疑問,自己平時測這些大模型的時候,做數學題并沒有這么強啊。

原因當然就在于,這次大模型們的「Best-of-32」大法了,如果不是用了這個策略,很多模型的得分連10分都沒有。

這也就揭示出這樣一個現實:想要讓模型發揮得好,就得拼資源、拼算力、拼試錯次數。

如果只是普通用戶隨便跑一遍模型,根本不可能達到這種效果。

總之,這場「AI數學奧賽」,已經暴露出了很多關鍵問題。比如想法沒問題,但存在邏輯鏈的短板;會判斷解法質量,但還得靠大量計算。

或許再過幾年,某個AI真的能打出滿分42的神級操作,但顯然,今天的AI還達不到這個成就。

目前來說,人類數學選手們還是安全的,還可以放心睡個好覺。

責任編輯:張燕妮 來源: 新智元
相關推薦

2025-04-03 02:25:00

2025-07-21 09:00:00

2025-07-22 10:27:27

2025-05-28 11:44:24

AI模型研究

2020-10-05 21:47:30

AI 數據人工智能

2025-04-03 09:42:05

2025-05-19 17:18:57

AI模型o3

2024-07-26 09:33:22

2025-05-22 09:13:47

2024-11-12 09:14:52

2024-04-11 12:30:40

2019-05-06 10:50:44

AI智能算法

2024-06-11 08:17:00

2024-03-28 13:18:47

AI訓練

2025-07-24 16:30:48

陶哲軒金牌AI

2022-04-02 10:18:04

AI棋牌程序

2013-07-04 11:06:13

IBM亞馬遜甲骨文
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 成人aaa| 国产精品毛片久久久久久久 | 国产自在线 | 日韩视频免费大全中文字幕 | 国产精品一区三区 | 国产色视频一区二区三区qq号 | 波多野结衣久久 | 青青在线| 亚洲影院在线 | 国产精彩视频 | 亚洲永久免费视频 | 亚洲免费久久 | 亚洲第一区视频 | 亚洲小视频在线观看 | 国产性色av| 国产永久精品 | 欧美久久久久久久 | av黄色在线| 一区二区三区高清 | www.av在线视频| 成人在线视频播放 | 成人免费毛片嘿嘿连载视频 | 国产欧美一区二区精品性色超碰 | 99久久久久久久 | 国产精品高潮呻吟久久 | 91成人精品一区在线播放 | 中文字幕一区二区在线播放 | 黄色影视大全 | 天天操天天干天天爽 | 色在线播放 | 久久久久网站 | 天堂一区二区三区 | 久草免费福利视频 | 婷婷亚洲综合 | 日本黄色三级视频 | 五月婷婷丁香花 | 久久一二三区 | 日韩黄色大片 | 国产精品一区二区av | 欧美日韩国产三级 | 久久精品一区二区三区四区五区 |