AI拿下數(shù)學(xué)奧賽金牌,人類智力優(yōu)勢(shì)正式告破?
為什么一個(gè)AI模型,能在被譽(yù)為"數(shù)學(xué)天才搖籃"的國際數(shù)學(xué)奧林匹克競(jìng)賽中拿到金牌?
昨天看到OpenAI研究員Alexander Wei在X上發(fā)布的消息,說實(shí)話,我當(dāng)時(shí)就愣了。他們的實(shí)驗(yàn)性推理模型在2025年IMO競(jìng)賽中取得了35分(滿分42分)的成績,成功達(dá)到金牌標(biāo)準(zhǔn)。
這意味著什么?IMO可不是什么普通的數(shù)學(xué)競(jìng)賽。自1959年以來,這項(xiàng)競(jìng)賽一直被認(rèn)為是世界上最頂級(jí)的高中數(shù)學(xué)比賽,參賽的都是各國數(shù)學(xué)天才中的天才。很多參賽者后來都成了菲爾茲獎(jiǎng)得主或者頂級(jí)數(shù)學(xué)家。
現(xiàn)在AI也拿金牌了。
這次突破到底有多震撼?
我查了一下今年IMO的情況。6道題目,每題7分,總共42分。AI解決了前5道題,只有第6題沒有給出解答。35分的金牌線是IMO歷史上最高的,連人類選手都覺得今年的題目格外有挑戰(zhàn)性。
更關(guān)鍵的是,IMO的評(píng)分標(biāo)準(zhǔn)非常嚴(yán)格。每道題的解答都要寫成多頁的數(shù)學(xué)證明,三位前IMO金牌得主獨(dú)立評(píng)分,必須達(dá)成一致意見才能確定最終分?jǐn)?shù)。這不是選擇題,也不是簡單的計(jì)算,而是需要?jiǎng)?chuàng)造性思維和嚴(yán)密邏輯推理的完整證明。
Alexander Wei在推文中提到:"IMO問題需要全新水平的持續(xù)創(chuàng)造性思維。在推理時(shí)間范圍上,我們已經(jīng)從GSM8K(頂級(jí)人類約0.1分鐘)→ MATH基準(zhǔn)(約1分鐘)→ AIME(約10分鐘)→ IMO(約100分鐘)取得了進(jìn)展。"
換句話說,AI現(xiàn)在能夠進(jìn)行長達(dá)100分鐘的復(fù)雜數(shù)學(xué)推理了。這在幾個(gè)月前還是不可想象的事情。
菲爾茲獎(jiǎng)得主怎么看?
有意思的是,菲爾茲獎(jiǎng)得主陶哲軒對(duì)這個(gè)結(jié)果發(fā)表了評(píng)論。他基本上是說,AI和人類的思維方式本質(zhì)上不同,不應(yīng)該直接對(duì)比。
但我覺得這個(gè)觀點(diǎn)可能低估了AI的能力。不管思維方式如何,能在IMO這種級(jí)別的競(jìng)賽中拿金牌,本身就說明了AI已經(jīng)具備了某種形式的"數(shù)學(xué)智能"。
更讓人印象深刻的是,OpenAI強(qiáng)調(diào)這不是通過專門針對(duì)數(shù)學(xué)問題的算法實(shí)現(xiàn)的,而是通過通用強(qiáng)化學(xué)習(xí)和測(cè)試時(shí)計(jì)算擴(kuò)展取得的突破。這意味著這種推理能力可能會(huì)遷移到其他領(lǐng)域。
技術(shù)細(xì)節(jié)值得關(guān)注
我仔細(xì)看了GitHub上AI給出的解題過程,發(fā)現(xiàn)它的表達(dá)風(fēng)格確實(shí)很特別。句子簡潔有力,邏輯清晰,但缺少了一些人類證明中常見的"潤色"。有點(diǎn)像一個(gè)極度專注的數(shù)學(xué)天才在草稿紙上快速記錄思路。
OpenAI提到,這種特殊的表達(dá)風(fēng)格來自于大量的強(qiáng)化學(xué)習(xí)訓(xùn)練,可能是為了優(yōu)化token使用效率。但同時(shí)也擔(dān)心,如果這種趨勢(shì)繼續(xù)下去,AI的思維鏈可能會(huì)變得越來越難以被人類理解。
不過話說回來,只要結(jié)果正確,思維過程的表達(dá)方式或許并不是最重要的。
這個(gè)突破意味著什么?
我想了想,這個(gè)事情可能比很多人意識(shí)到的更重要。
首先,數(shù)學(xué)一直被認(rèn)為是人類智力的皇冠。如果AI能在數(shù)學(xué)競(jìng)賽中擊敗人類精英,那它在其他需要邏輯推理的領(lǐng)域表現(xiàn)如何?編程、科學(xué)研究、法律分析... 這些都可能受到影響。
其次,這是真正的"通用智能"進(jìn)步。不是專門為數(shù)學(xué)設(shè)計(jì)的系統(tǒng),而是一個(gè)通用的推理模型。這種泛化能力才是最可怕的。
第三,時(shí)間線比預(yù)期快得多。Alexander Wei提到,他在2021年預(yù)測(cè)AI在2025年7月前在MATH基準(zhǔn)上只能達(dá)到30%(當(dāng)時(shí)覺得別人太樂觀了),結(jié)果現(xiàn)在直接拿了IMO金牌。
順便說一句,OpenAI表示GPT-5即將發(fā)布,但這個(gè)數(shù)學(xué)能力要等幾個(gè)月才會(huì)公開。所以現(xiàn)在看到的還只是他們實(shí)驗(yàn)室的研究原型。
教育體系該怎么辦?
這個(gè)問題我覺得挺現(xiàn)實(shí)的。如果AI已經(jīng)能在最頂級(jí)的數(shù)學(xué)競(jìng)賽中獲勝,那我們還需要培養(yǎng)那么多數(shù)學(xué)天才嗎?
可能需要重新思考數(shù)學(xué)教育的目標(biāo)了。不再是培養(yǎng)"計(jì)算機(jī)器",而是培養(yǎng)能與AI協(xié)作、能提出好問題、能判斷AI結(jié)果正確性的人才。
或者說,數(shù)學(xué)教育的重點(diǎn)應(yīng)該從"解題"轉(zhuǎn)向"理解"和"直覺"。這些可能還是人類的優(yōu)勢(shì)領(lǐng)域。
總之,這個(gè)消息讓我重新思考了很多東西。AI的進(jìn)步速度確實(shí)超出了大多數(shù)人的預(yù)期,我們可能需要更快地適應(yīng)這個(gè)新現(xiàn)實(shí)。
不過話說回來,能見證這樣的歷史時(shí)刻,還是挺興奮的。