成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

o4-mini暴擊六大數學天團,攻破陶哲軒難題!4.5h激戰人類陣地失守

人工智能 新聞
不到兩年,我們會見證AI數學家的重大突破!最新實驗中,o4-mini與40位數學家,一同挑戰300道菲爾茲獎級難題。o4-mini一舉擊敗6組團隊,超越人類平均水平。

八支「數學家天團」和o4-mini-medium同臺競技,誰會最終勝出?

最近,Epoch AI團隊舉辦了一場競賽,專門考察AI數學能力的進展。

圖片

這場比賽邀請了約40位數學精英,分成8組,每組由學科專家和優秀本科生組成。

他們要與AI一同在陶哲軒等人提出的FrontierMath基準上,展開終極對決。

比賽一共23題,限時4.5小時,實驗最終得出:

o4-mini-medium碾壓人類平均水平(19%),解決了約22%題目。  

不過,o4-mini能夠解決的問題,至少被一組數學家團隊破解。由此,人類團隊總體上解決了約35%的題目。

圖片

結果顯示,o4-mini一共擊敗六組團隊,在數學領域展現了驚人的潛力。

谷歌前CEO Eric Schmidt預測,未來1-2年內,「超級程序員」和「AI數學家」將取得重大突破。

圖片

o4-mini,作為AI的代表,便是一個很好的開始。

菲爾茲獎得主出題,AI擊敗6隊

提及FrontierMath,想必圈內人無人不知。

這一基準于24年11月首次亮相,由菲爾茲獎得主與業內多位著名數學家共同出題,挑戰AI數學能力的極限。

圖片

它包含300個問題,難度從高年級本科生水平到菲爾茲獎得主都認為具有挑戰性的問題。

那么,這么多數學難題,人類在其表現中如何呢?

為了確定人類極限,Epoch AI便在MIT組織了這場比賽——FrontierMath Competition。

圖片

如上所述,每組被分成4-5人的8組團隊,在聯網情況下,最多用4.5h去解決23個數學題。最后,再與o4-mini-medium進行比拼。

o4-mini-medium的表現雖超過了平均人類團隊,但不如所有團隊的綜合得分。

因此,在FrontierMath上,AI尚未完全超越人類,但Epoch AI認為頂尖模型很快就會做到。

目前,這份數據僅代表FrontierMath的一個小型非代表性子集。

若綜合考慮,人類整體基準大約在30-50%之間。

接下來,Epoch AI詳細解釋了關于人類基準結果的四個關鍵點,包括其中來源和含義。

人類選手,并不代表數學SOTA

人類團隊的表現,因團隊而異構成。

由于參賽者主要來自波士頓數學社區,分析領域的專家較少,導致了整體專長分布不均。

每隊雖至少有一名某一領域的專家,但也沒有哪支隊伍在所有高級領域,如拓撲學、代數幾何、組合數學、數論等都有專家覆蓋。

這使得人類平均分,可能低估了真實水平。

最重要的是,比賽4.5小時時間,可能限制了人類的表現。AI解決每題只需5-20分鐘,而人類平均耗時約40分鐘。

此前研究表明,人類在長時間任務上表現更具潛力,而AI性能可能在一定時間后趨于平穩。

為了更全面評估,研究團隊采用了兩種方式計算人類基準:

1. 團隊平均得分:每支隊伍獨立表現,得分約19%

2. 綜合得分:如果任一隊答對某題就算正確,得分提升至約35%

若要為整個FrontierMath設定人類基準,還需解決第二個問題:比賽問題的難度分布與完整 FrontierMath數據集不同。

為此,研究人員按難度層級拆分結果,并根據完整基準的難度分布加權總體得分。

圖片

結果,按整體難度分布加權后,人類基準提升到約30%,基于「多次嘗試」方法,更是刷新到了52%。

而此時,AI的加權得分約為37%。

Epoch AI指出,o4-mini-medium得分提升,是因為比賽中的Tier 1/Tier 2問題相對完整基準的同級問題較簡單,說明了這一調整方法仍不理想。

設計巧思:推理而非知識

FrontierMath比賽的獨特之處在于,它更注重數學推理能力,而非單純的知識儲備。

當前,AI在知識廣度上遠超人類——可以輕松調用數學、微分幾何等龐大知識庫,而人類很難精通所有領域。

圖片

因此,比賽題目被精心設計,盡量減少對背景知識的依賴。

比如,研究人員選用了7道適合優秀本科生的「通用問題」,以及16道專為專家定制的「高級問題」。

這些題目主要覆蓋了四大類:拓撲學、代數幾何、組合數學和數論。

為了激勵參賽者挑戰高難度題目,比賽還采用了特殊計分規則:

高級題目每題2分,通用題目每題1分;每個領域至少答對一題可額外加1分。

此外,獎金池也非常誘人,第一名1000美元,第二名800美元,第三名400美元。

全面超越人類,指日可待?

盡管o4-mini-medium在FrontierMath上,尚未完全超越人類,但其表現已令人矚目。

它在比賽的得分不僅于人類頂尖團隊相當,而且在知識廣度上占據巨大優勢。

Epoch AI預測,到2025年底,AI和可能明確超越30%-50%的人類基準。

圖片

有網友對此表示,要讓AI成為超人的存在,必須定期解決人類數學家無法解決的問題。

圖片

然而,AI的成功機制依然是一道謎題。

它們究竟是靠猜測解題,還是真正掌握了數學推理?與人類的方法相比,有何不同?

在研究人員看來,這些問題有待進一步探索。

此外,FrontierMath的題目并非實際數學研究的直接代表,o4-mini的超人表現是否會轉化為研究突破,仍需要時間來驗證。

責任編輯:張燕妮 來源: 新智元
相關推薦

2025-05-15 08:52:00

2024-09-06 13:54:08

2024-09-29 14:00:00

AI數學自動化

2024-11-25 09:15:00

2024-07-08 13:08:04

2024-07-03 17:13:32

2024-10-14 14:31:36

2024-10-12 12:30:04

2023-10-04 08:07:06

CopilotGitHub

2025-06-03 08:15:00

2024-12-23 07:40:00

AI模型數學

2024-08-07 14:59:00

2023-12-16 12:47:59

2025-04-21 16:25:58

OpenAI測試模型

2024-07-29 08:49:00

AI數學

2024-12-24 12:19:45

2023-10-10 13:51:46

GPT-4GitHubAI

2023-02-14 15:00:38

開發者ChatGPT

2024-02-26 08:30:00

2023-12-06 13:44:00

模型訓練
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 狠狠色综合网站久久久久久久 | 一级片子 | 久久小视频| 国产精品久久久久婷婷二区次 | 欧美伊人久久久久久久久影院 | 一本久久a久久精品亚洲 | 欧美一级网站 | 99精品国自产在线观看 | 久久男人 | 国产a级黄色录像 | 亚洲欧美一区二区三区在线 | 午夜免费av | 91久久国产综合久久 | 激情一区二区三区 | 91久久精品国产91久久性色tv | 成人做爰9片免费看网站 | 午夜成人免费视频 | 国产免费播放视频 | 欧美一区二区三区在线 | 日本午夜视频 | 精品欧美 | 中国一级毛片免费 | 羞羞视频在线观看 | 在线免费观看毛片 | 亚洲精品一区中文字幕乱码 | 国产精品乱码一二三区的特点 | 免费观看羞羞视频网站 | 国产色黄 | 亚洲日本欧美 | 国产免费xxx | 国产精品视频久久 | www国产亚洲精品久久网站 | 久国产精品 | 国产精品久久久久久久久久尿 | 成人免费日韩 | av在线一区二区三区 | 久久国产精品无码网站 | 免费在线视频a | 成人在线免费网站 | 欧美一级免费看 | 黄色毛片在线观看 |