成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI七個月突破數(shù)學(xué)家“圍剿”反超人類!14位數(shù)學(xué)家深挖原始推理token:不靠死記硬背靠直覺

人工智能 新聞
FrontierMath官方Epoch AI邀請14位數(shù)學(xué)家,深入分析了o3-mini-high在應(yīng)對這些數(shù)學(xué)難題時產(chǎn)生的29條原始推理記錄。

從只能答對2%的題目,到在超難數(shù)學(xué)題集中刷下22%得分,甚至超過人類團(tuán)隊平均水平,大模型需要多長時間?

現(xiàn)在,令數(shù)學(xué)家們都驚訝的結(jié)果已經(jīng)塵埃落定:

7個月

圖片

發(fā)生在大名鼎鼎的“專為為難大模型而生的”FrontierMath基準(zhǔn)測試上的這一幕,在激起熱議同時,也引發(fā)了新的思考:

大模型們是怎么做到的?

FrontierMath:包含300個數(shù)學(xué)問題,難度范圍覆蓋本科高年級到菲爾茲獎得主都說難的水平。

最新進(jìn)展是,F(xiàn)rontierMath官方Epoch AI邀請14位數(shù)學(xué)家,深入分析了o3-mini-high在應(yīng)對這些數(shù)學(xué)難題時產(chǎn)生的29條原始推理記錄

他們發(fā)現(xiàn):

  • o3-mini-high絕非靠死記硬背解題,相反,它表現(xiàn)出了極強(qiáng)的知識儲備;
  • o3-mini-high的推理更多依靠直覺,而非精確的證明。

同時,他們也挖掘出了大模型當(dāng)前的局限性,比如,缺乏創(chuàng)造力和理解深度。

官方是這樣總結(jié)的:

o3-mini-high可以被概括為:一款博學(xué)但以直覺為基礎(chǔ)的推理機(jī),但缺乏職業(yè)數(shù)學(xué)家的創(chuàng)造力和形式感,并且往往絮絮叨叨啰啰嗦嗦。

基于直覺的歸納推理機(jī)

具體來說,在29條推理記錄中,有13次o3-mini-high得到了正確的結(jié)論,剩下的16條則導(dǎo)向了失敗的結(jié)果。

先來看o3-mini-high是如何成功的。

數(shù)學(xué)家們發(fā)現(xiàn),一個關(guān)鍵因素是o3-mini-high極其博學(xué)

它正確地擴(kuò)展了問題的數(shù)學(xué)背景,其中涉及到非常高級的概念。

問題涉及的一般知識,以及對問題的理解,對o3-mini-high而言不構(gòu)成解題的瓶頸。

這并不是說o3-mini-high靠的是死記硬背

相反,數(shù)學(xué)家們發(fā)現(xiàn),即使題目故意掩蓋了解決問題所需的技巧,o3-mini-high依然能夠很好地利用正確的定理來獲取進(jìn)展——

在大概三分之二的問題上,o3-mini-high在相關(guān)數(shù)學(xué)文獻(xiàn)調(diào)用方面,都取得了至少3分(滿分5分)的成績。

圖片

另外一個有意思的發(fā)現(xiàn)是,相比于精確的推導(dǎo),o3-mini-high看上去更依賴直覺,“具有數(shù)學(xué)家一樣的好奇心”。

一位數(shù)學(xué)家指出:

該模型的思維方式顯得有點(diǎn)非正式。一開始的思路表述通常比較粗糙,語言不夠嚴(yán)謹(jǐn),并且存在一些不符合數(shù)學(xué)論文要求的corner case。

也就是說,o3-mini-high往往不會像數(shù)學(xué)家們一樣,對數(shù)學(xué)問題進(jìn)行形式化的、嚴(yán)謹(jǐn)?shù)恼撟C,而是跳過一大串步驟直接猜測最終答案。

舉個例子,在一道題中,數(shù)學(xué)家們發(fā)現(xiàn)o3-mini-high通過非正式推理得出了一個正確猜想,但它并沒有去證明這個猜想,還直接把這個猜想拿來解決問題了。

雖然最終答案正確,但在數(shù)學(xué)家們看來,這是在“作弊”。

圖片

為何如此?官方認(rèn)為原因并不是簡簡單單的“模型偷懶”:有數(shù)學(xué)家指出,必要時模型并不害怕計算和編寫代碼,盡管它總體上還是“基于直覺”。

一種可能性是,預(yù)訓(xùn)練階段,在“形式推理”方面,模型被投喂的訓(xùn)練數(shù)據(jù)并不充足。

模型局限性

寫完解直接給答案,讓人有點(diǎn)聯(lián)想到那個男人——

圖片

咳咳,不過事實(shí)上,缺乏形式精確性也正是導(dǎo)致o3-mini-high在許多情況下解題失敗的原因。

比如,有時候o3-mini-high大體上思路是正確的,卻因?yàn)槲茨芙⒆詈蟮年P(guān)鍵聯(lián)系而推理失敗。

在一道分割理論問題中,它距離答案只有一步之遙。出題者指出:

要是它能把從n=0到[已編輯]的輸出求和,答案就會是正確的。

而在更多情況下,o3-mini-high的想法距離正確解題方案相差甚遠(yuǎn)。

圖片

更重要的是,數(shù)學(xué)家們認(rèn)為,o3-mini-high最大的局限性在于缺乏創(chuàng)造力和理解深度

該模型像一個博覽群書的研究生,能夠列舉許多研究成果和研究者。這乍一看令人印象深刻,但行家很快就會發(fā)現(xiàn),這位研究生并沒有深度消化吸收這些材料,所做的只是復(fù)述。

該模型的行為模式類似于:擅長識別相關(guān)材料,但無法以新穎的方式擴(kuò)展或應(yīng)用這些知識。

還有參與研究的數(shù)學(xué)家指出:

o3-mini-high只嘗試應(yīng)用了少數(shù)幾個它最喜歡的想法。

一旦這些想法用盡,它就得不到任何真正的進(jìn)展了。

甚至:

對于AI來說,解決8年級奧數(shù)問題(需要新思路),可能比計算大有限域上某條超橢圓曲線上的點(diǎn)數(shù)更困難。

圖片

另外,幻覺也是個問題。

分析結(jié)果顯示,約75%推理記錄中包含模型幻覺:

o3-mini-high經(jīng)常會記錯數(shù)學(xué)術(shù)語和公式,在調(diào)用庫和聯(lián)網(wǎng)搜索等工具時,也會出現(xiàn)胡編亂造的現(xiàn)象。

所以,o3-mini-high究竟能不能像人類數(shù)學(xué)家一樣進(jìn)行推理呢?

來看數(shù)學(xué)家們的評分:

圖片

1分表示完全不像人類,5分表示與人類數(shù)學(xué)家難以區(qū)分。

總的來說,還是得具體情況具體分析。官方認(rèn)為,o3-mini-high擁有多樣化的能力。一方面,它似乎能夠像人類一樣推理問題,表現(xiàn)出好奇心,并探索解決問題的不同思路。

另一方面,它又表現(xiàn)出缺乏創(chuàng)造性和正式性,還傾向于“想太多”,顯得啰里啰嗦,還偶爾出現(xiàn)自我懷疑的現(xiàn)象——不斷重復(fù)已經(jīng)完成的句子、重復(fù)進(jìn)行一些數(shù)學(xué)運(yùn)算……

“超越世界上大多數(shù)數(shù)學(xué)研究生”

o3-mini-high這樣的模型為什么沒有辦法更有效地利用豐富的數(shù)學(xué)知識,這個問題仍然有待進(jìn)一步的研究。

但無論如何,7個月,從2%到22%,已經(jīng)足夠令數(shù)學(xué)家們驚嘆。

事實(shí)上,從2024年9月FrontierMath項(xiàng)目啟動,到2025年5月,官方組織8支人類“數(shù)學(xué)天團(tuán)”和大模型同場競技,F(xiàn)rontierMath本身的難度也在持續(xù)進(jìn)化。

從1-3級——涵蓋本科生、研究生和研究級別的挑戰(zhàn),到現(xiàn)在已經(jīng)進(jìn)入第4級別:加入對數(shù)學(xué)家來說也具有挑戰(zhàn)性的問題。

在5月中旬,Epoch AI還舉辦了線下會議,邀請30位知名數(shù)學(xué)家設(shè)計自己能夠解決、但會讓AI犯難的問題。

而大模型們的表現(xiàn)有些讓數(shù)學(xué)家們目瞪口呆。

比如,弗吉尼亞大學(xué)數(shù)學(xué)家小野健提出了一個“博士級別”的數(shù)論問題。僅僅10分鐘,o4-mini就給出了一個正確又有趣的解決方案。

小野健表示:

我不想加劇恐慌。但在某些方面,大語言模型的表現(xiàn)已經(jīng)超越了世界上大多數(shù)最優(yōu)秀的研究生。

數(shù)學(xué)家們開始思考,人工智能能否攻克“第五層”問題,即最優(yōu)秀的數(shù)學(xué)家也尚未解決的問題——

“如果人工智能達(dá)到這個水平,數(shù)學(xué)家的角色將發(fā)生巨大的變化。”

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-05-20 15:40:00

AI數(shù)學(xué)

2024-11-04 14:20:00

AI訓(xùn)練

2022-05-16 15:23:46

人工智能工具科學(xué)計算

2024-08-26 09:15:00

數(shù)學(xué)黑洞

2025-05-28 10:30:41

AI陶哲軒模型

2011-06-20 09:15:20

面向?qū)ο?/a>算法數(shù)學(xué)

2024-02-26 08:30:00

2012-10-22 10:36:29

數(shù)學(xué)家輪盤程序

2015-04-02 16:20:05

2019-11-14 21:32:51

計算機(jī)數(shù)據(jù)科學(xué)數(shù)據(jù)

2024-07-29 14:39:39

2022-10-20 09:33:09

AI算法

2023-07-03 16:01:51

AI數(shù)學(xué)

2021-08-09 10:24:21

技術(shù)分類數(shù)學(xué)

2019-01-14 11:10:43

機(jī)器學(xué)習(xí)人工智能計算機(jī)

2025-02-24 09:25:00

2013-05-29 10:44:11

2009-06-08 09:59:24

谷歌俄羅斯方塊版權(quán)

2021-02-04 15:19:22

AI 數(shù)據(jù)人工智能

2009-01-16 09:57:48

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 成人a免费| 亚洲精品中文字幕 | 中文字幕第一页在线 | 99re热这里只有精品视频 | 日韩h | 欧美美女爱爱 | 91欧美精品 | 最新日韩av | 亚洲乱码一区二区三区在线观看 | 99久久亚洲| 国产亚洲精品美女久久久久久久久久 | 蜜桃视频成人 | 中文在线一区二区 | 欧美一区二区三区国产 | 天天操天天射综合网 | 亚洲美女视频 | 日韩精品一区二区三区视频播放 | 正在播放国产精品 | 欧美日韩网站 | 中文字幕不卡视频在线观看 | 国产精品射 | 国产免费高清 | 二区三区视频 | 日本免费一区二区三区 | 中文字幕亚洲欧美日韩在线不卡 | 秋霞av国产精品一区 | 欧美精品在欧美一区二区少妇 | 99久久精品一区二区毛片吞精 | 熟女毛片 | 亚洲成人av在线播放 | 精品久久九九 | 毛片a区 | 久久精品国产久精国产 | 久久亚洲二区 | 91欧美激情一区二区三区成人 | 日韩在线观看 | 激情一区二区三区 | 成人黄色电影在线观看 | 福利视频大全 | 国产欧美一级 | 亚洲国产精品一区二区第一页 |