AI七個月突破數(shù)學(xué)家“圍剿”反超人類！14位數(shù)學(xué)家深挖原始推理token：不靠死記硬背靠直覺

2025-06-10 09:09:00

人工智能新聞

FrontierMath官方Epoch AI邀請14位數(shù)學(xué)家，深入分析了o3-mini-high在應(yīng)對這些數(shù)學(xué)難題時產(chǎn)生的29條原始推理記錄。

從只能答對2%的題目，到在超難數(shù)學(xué)題集中刷下22%得分，甚至超過人類團(tuán)隊平均水平，大模型需要多長時間？

現(xiàn)在，令數(shù)學(xué)家們都驚訝的結(jié)果已經(jīng)塵埃落定：

7個月。

發(fā)生在大名鼎鼎的“專為為難大模型而生的”FrontierMath基準(zhǔn)測試上的這一幕，在激起熱議同時，也引發(fā)了新的思考：

大模型們是怎么做到的？

FrontierMath：包含300個數(shù)學(xué)問題，難度范圍覆蓋本科高年級到菲爾茲獎得主都說難的水平。

最新進(jìn)展是，F(xiàn)rontierMath官方Epoch AI邀請14位數(shù)學(xué)家，深入分析了o3-mini-high在應(yīng)對這些數(shù)學(xué)難題時產(chǎn)生的29條原始推理記錄。

他們發(fā)現(xiàn)：

o3-mini-high絕非靠死記硬背解題，相反，它表現(xiàn)出了極強(qiáng)的知識儲備；
o3-mini-high的推理更多依靠直覺，而非精確的證明。

同時，他們也挖掘出了大模型當(dāng)前的局限性，比如，缺乏創(chuàng)造力和理解深度。

官方是這樣總結(jié)的：

o3-mini-high可以被概括為：一款博學(xué)但以直覺為基礎(chǔ)的推理機(jī)，但缺乏職業(yè)數(shù)學(xué)家的創(chuàng)造力和形式感，并且往往絮絮叨叨啰啰嗦嗦。

基于直覺的歸納推理機(jī)

具體來說，在29條推理記錄中，有13次o3-mini-high得到了正確的結(jié)論，剩下的16條則導(dǎo)向了失敗的結(jié)果。

先來看o3-mini-high是如何成功的。

數(shù)學(xué)家們發(fā)現(xiàn)，一個關(guān)鍵因素是o3-mini-high極其博學(xué)。

它正確地擴(kuò)展了問題的數(shù)學(xué)背景，其中涉及到非常高級的概念。
問題涉及的一般知識，以及對問題的理解，對o3-mini-high而言不構(gòu)成解題的瓶頸。

這并不是說o3-mini-high靠的是死記硬背。

相反，數(shù)學(xué)家們發(fā)現(xiàn)，即使題目故意掩蓋了解決問題所需的技巧，o3-mini-high依然能夠很好地利用正確的定理來獲取進(jìn)展——

在大概三分之二的問題上，o3-mini-high在相關(guān)數(shù)學(xué)文獻(xiàn)調(diào)用方面，都取得了至少3分（滿分5分）的成績。

另外一個有意思的發(fā)現(xiàn)是，相比于精確的推導(dǎo)，o3-mini-high看上去更依賴直覺，“具有數(shù)學(xué)家一樣的好奇心”。

一位數(shù)學(xué)家指出：

該模型的思維方式顯得有點(diǎn)非正式。一開始的思路表述通常比較粗糙，語言不夠嚴(yán)謹(jǐn)，并且存在一些不符合數(shù)學(xué)論文要求的corner case。

也就是說，o3-mini-high往往不會像數(shù)學(xué)家們一樣，對數(shù)學(xué)問題進(jìn)行形式化的、嚴(yán)謹(jǐn)?shù)恼撟C，而是跳過一大串步驟直接猜測最終答案。

舉個例子，在一道題中，數(shù)學(xué)家們發(fā)現(xiàn)o3-mini-high通過非正式推理得出了一個正確猜想，但它并沒有去證明這個猜想，還直接把這個猜想拿來解決問題了。

雖然最終答案正確，但在數(shù)學(xué)家們看來，這是在“作弊”。

為何如此？官方認(rèn)為原因并不是簡簡單單的“模型偷懶”：有數(shù)學(xué)家指出，必要時模型并不害怕計算和編寫代碼，盡管它總體上還是“基于直覺”。

一種可能性是，預(yù)訓(xùn)練階段，在“形式推理”方面，模型被投喂的訓(xùn)練數(shù)據(jù)并不充足。

模型局限性

寫完解直接給答案，讓人有點(diǎn)聯(lián)想到那個男人——

咳咳，不過事實(shí)上，缺乏形式精確性也正是導(dǎo)致o3-mini-high在許多情況下解題失敗的原因。

比如，有時候o3-mini-high大體上思路是正確的，卻因?yàn)槲茨芙⒆詈蟮年P(guān)鍵聯(lián)系而推理失敗。

在一道分割理論問題中，它距離答案只有一步之遙。出題者指出：

要是它能把從n=0到[已編輯]的輸出求和，答案就會是正確的。

而在更多情況下，o3-mini-high的想法距離正確解題方案相差甚遠(yuǎn)。

更重要的是，數(shù)學(xué)家們認(rèn)為，o3-mini-high最大的局限性在于缺乏創(chuàng)造力和理解深度：

該模型像一個博覽群書的研究生，能夠列舉許多研究成果和研究者。這乍一看令人印象深刻，但行家很快就會發(fā)現(xiàn)，這位研究生并沒有深度消化吸收這些材料，所做的只是復(fù)述。
該模型的行為模式類似于：擅長識別相關(guān)材料，但無法以新穎的方式擴(kuò)展或應(yīng)用這些知識。

還有參與研究的數(shù)學(xué)家指出：