o4-mini暴擊六大數學天團，攻破陶哲軒難題！4.5h激戰人類陣地失守

2025-05-28 10:30:41

人工智能新聞

不到兩年，我們會見證AI數學家的重大突破！最新實驗中，o4-mini與40位數學家，一同挑戰300道菲爾茲獎級難題。o4-mini一舉擊敗6組團隊，超越人類平均水平。

八支「數學家天團」和o4-mini-medium同臺競技，誰會最終勝出？

最近，Epoch AI團隊舉辦了一場競賽，專門考察AI數學能力的進展。

這場比賽邀請了約40位數學精英，分成8組，每組由學科專家和優秀本科生組成。

他們要與AI一同在陶哲軒等人提出的FrontierMath基準上，展開終極對決。

比賽一共23題，限時4.5小時，實驗最終得出：

o4-mini-medium碾壓人類平均水平（19%），解決了約22%題目。

不過，o4-mini能夠解決的問題，至少被一組數學家團隊破解。由此，人類團隊總體上解決了約35%的題目。

結果顯示，o4-mini一共擊敗六組團隊，在數學領域展現了驚人的潛力。

谷歌前CEO Eric Schmidt預測，未來1-2年內，「超級程序員」和「AI數學家」將取得重大突破。

o4-mini，作為AI的代表，便是一個很好的開始。

菲爾茲獎得主出題，AI擊敗6隊

提及FrontierMath，想必圈內人無人不知。

這一基準于24年11月首次亮相，由菲爾茲獎得主與業內多位著名數學家共同出題，挑戰AI數學能力的極限。

它包含300個問題，難度從高年級本科生水平到菲爾茲獎得主都認為具有挑戰性的問題。

那么，這么多數學難題，人類在其表現中如何呢？

為了確定人類極限，Epoch AI便在MIT組織了這場比賽——FrontierMath Competition。

如上所述，每組被分成4-5人的8組團隊，在聯網情況下，最多用4.5h去解決23個數學題。最后，再與o4-mini-medium進行比拼。

o4-mini-medium的表現雖超過了平均人類團隊，但不如所有團隊的綜合得分。

因此，在FrontierMath上，AI尚未完全超越人類，但Epoch AI認為頂尖模型很快就會做到。

目前，這份數據僅代表FrontierMath的一個小型非代表性子集。

若綜合考慮，人類整體基準大約在30-50%之間。

接下來，Epoch AI詳細解釋了關于人類基準結果的四個關鍵點，包括其中來源和含義。

人類選手，并不代表數學SOTA

人類團隊的表現，因團隊而異構成。

由于參賽者主要來自波士頓數學社區，分析領域的專家較少，導致了整體專長分布不均。

每隊雖至少有一名某一領域的專家，但也沒有哪支隊伍在所有高級領域，如拓撲學、代數幾何、組合數學、數論等都有專家覆蓋。

這使得人類平均分，可能低估了真實水平。

最重要的是，比賽4.5小時時間，可能限制了人類的表現。AI解決每題只需5-20分鐘，而人類平均耗時約40分鐘。

此前研究表明，人類在長時間任務上表現更具潛力，而AI性能可能在一定時間后趨于平穩。

為了更全面評估，研究團隊采用了兩種方式計算人類基準：

1. 團隊平均得分：每支隊伍獨立表現，得分約19%

2. 綜合得分：如果任一隊答對某題就算正確，得分提升至約35%

若要為整個FrontierMath設定人類基準，還需解決第二個問題：比賽問題的難度分布與完整 FrontierMath數據集不同。

為此，研究人員按難度層級拆分結果，并根據完整基準的難度分布加權總體得分。

結果，按整體難度分布加權后，人類基準提升到約30%，基于「多次嘗試」方法，更是刷新到了52%。

而此時，AI的加權得分約為37%。

Epoch AI指出，o4-mini-medium得分提升，是因為比賽中的Tier 1/Tier 2問題相對完整基準的同級問題較簡單，說明了這一調整方法仍不理想。

設計巧思：推理而非知識

FrontierMath比賽的獨特之處在于，它更注重數學推理能力，而非單純的知識儲備。

當前，AI在知識廣度上遠超人類——可以輕松調用數學、微分幾何等龐大知識庫，而人類很難精通所有領域。

因此，比賽題目被精心設計，盡量減少對背景知識的依賴。

比如，研究人員選用了7道適合優秀本科生的「通用問題」，以及16道專為專家定制的「高級問題」。

這些題目主要覆蓋了四大類：拓撲學、代數幾何、組合數學和數論。

為了激勵參賽者挑戰高難度題目，比賽還采用了特殊計分規則：

高級題目每題2分，通用題目每題1分；每個領域至少答對一題可額外加1分。

此外，獎金池也非常誘人，第一名1000美元，第二名800美元，第三名400美元。

全面超越人類，指日可待？

盡管o4-mini-medium在FrontierMath上，尚未完全超越人類，但其表現已令人矚目。

它在比賽的得分不僅于人類頂尖團隊相當，而且在知識廣度上占據巨大優勢。

Epoch AI預測，到2025年底，AI和可能明確超越30%-50%的人類基準。

有網友對此表示，要讓AI成為超人的存在，必須定期解決人類數學家無法解決的問題。

然而，AI的成功機制依然是一道謎題。

它們究竟是靠猜測解題，還是真正掌握了數學推理？與人類的方法相比，有何不同？

在研究人員看來，這些問題有待進一步探索。

此外，FrontierMath的題目并非實際數學研究的直接代表，o4-mini的超人表現是否會轉化為研究突破，仍需要時間來驗證。

責任編輯：張燕妮來源：新智元

AI 陶哲軒模型

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

o4-mini暴擊六大數學天團，攻破陶哲軒難題！4.5h激戰人類陣地失守

菲爾茲獎得主出題，AI擊敗6隊

人類選手，并不代表數學SOTA

設計巧思：推理而非知識

全面超越人類，指日可待？