成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

陶哲軒回應(yīng)OpenAI新模型IMO奪金!GPT-5測試版也曝光了

人工智能 新聞
IMO被公認(rèn)為全球最頂尖的數(shù)學(xué)競賽,每年只有不到8%的參賽者能夠獲得金牌。而現(xiàn)在,一個(gè)AI模型做到了。

OpenAI最新模型曝光了,在2025年國際數(shù)學(xué)奧林匹克競賽(IMO)上達(dá)到了金牌水平!

IMO被公認(rèn)為全球最頂尖的數(shù)學(xué)競賽,每年只有不到8%的參賽者能夠獲得金牌。而現(xiàn)在,一個(gè)AI模型做到了。

新模型最終成績:新模型在總共6道題中成功解決了5道,獲得35分(滿分42分),超過了今年的金牌線。

圖片

OpenAI員工Alexander Wei還透露,GPT-5即將發(fā)布,但I(xiàn)MO金牌模型是一個(gè)實(shí)驗(yàn)性研究,在幾個(gè)月內(nèi)都沒有計(jì)劃發(fā)布。

他特別強(qiáng)調(diào),這次成功并非依靠針對特定任務(wù)的狹隘方法,而是在通用強(qiáng)化學(xué)習(xí)和測試時(shí)計(jì)算擴(kuò)展方面取得了新突破。

圖片

與此同時(shí),第三方機(jī)構(gòu)的開源代碼中被發(fā)現(xiàn)GPT-5-reasoning-alpha-2025-07-13的字樣。

圖片

這段代碼被挖出來后很快就被刪除或隱藏,結(jié)合OpenAI在新模型發(fā)布前會(huì)找第三方機(jī)構(gòu)進(jìn)行安全測試的慣例——

種種跡象表明,GPT-5離我們不遠(yuǎn)了。

35分?jǐn)孬@金牌,解題過程完全模擬人類考試

具體來看OpenAI的實(shí)驗(yàn)性新模型,這次評測可不是隨便做個(gè)題那么簡單。

OpenAI團(tuán)隊(duì)讓模型在與人類選手完全相同的條件下參加考試:兩場各4.5小時(shí)的考試,不能使用任何工具或聯(lián)網(wǎng),只能閱讀官方題目陳述,然后用自然語言寫出證明過程。

圖片

最終成績出來了:模型在6道題中成功解決了5道,獲得35分(滿分42分),穩(wěn)穩(wěn)超過了今年的金牌線。

今年IMO的金牌分?jǐn)?shù)線正好是35分,這個(gè)成績放在人類選手中也是妥妥的金牌水平。今年約600名參賽者中,只有5人拿到了滿分。

更讓人印象深刻的是評分過程的嚴(yán)謹(jǐn)性。每道題的解答都由三位前IMO獎(jiǎng)牌獲得者獨(dú)立評分,只有在三人達(dá)成一致意見后才確定最終分?jǐn)?shù)。

這次突破的意義不止于成績,正如研究團(tuán)隊(duì)所說,IMO問題需要的是一種全新水平的持續(xù)創(chuàng)造性思維。

從推理時(shí)間跨度來看,AI的進(jìn)步速度簡直讓人瞠目結(jié)舌:從GSM8K(頂尖人類約需0.1分鐘)到MATH基準(zhǔn)測試(約1分鐘),再到AIME(約10分鐘),現(xiàn)在終于攻克了IMO(約100分鐘)這個(gè)需要長時(shí)間深度思考的難題。

更重要的是,IMO的答案是難以驗(yàn)證的多頁證明,這與之前那些有明確正確答案的數(shù)學(xué)題完全不同。OpenAI團(tuán)隊(duì)表示,他們突破了傳統(tǒng)強(qiáng)化學(xué)習(xí)中依賴明確可驗(yàn)證獎(jiǎng)勵(lì)的范式,創(chuàng)造出了能夠像人類數(shù)學(xué)家一樣構(gòu)建精巧論證的模型。

圖片

唯一沒能攻克的是第六題——這道被參賽者稱為“最終Boss”的組合數(shù)學(xué)難題:

有一個(gè)2025×2025的單位正方形網(wǎng)格。瑪?shù)贍栠_(dá)希望在網(wǎng)格上放置一些矩形塊,這些塊的大小可能不同,使得每個(gè)塊的每一條邊都位于網(wǎng)格線上,并且每個(gè)單位正方形最多被一個(gè)塊覆蓋。求瑪?shù)贍栠_(dá)需要放置的最小塊數(shù),使得網(wǎng)格的每一行和每一列都恰好有一個(gè)單位正方形未被任何塊覆蓋。

圖片

去年IMO題目中,谷歌用Alphaproof和AlphaGeometry完成了四道題,未完成的兩道也屬于組合數(shù)學(xué)。

不過這一次,DeepMind研究員Archit Sharma在OpenAI宣布后回復(fù):“恭喜!搶在我們前面宣布了——第6題是新的基準(zhǔn)了嗎?”

但這條推文很快就被刪除了。

這個(gè)小插曲引發(fā)了網(wǎng)友們的各種猜測:莫非Google的模型也達(dá)到了類似水平。

圖片

如果感興趣的話,還可以進(jìn)一步查看OpenAI公開的AI解題過程,鏈接在文末獲取。

圖片

引發(fā)圈內(nèi)熱議,陶哲軒發(fā)表長評

OpenAI模型斬獲IMO金牌的消息一出,AI圈炸開了鍋。不過,在一片贊嘆聲中,也出現(xiàn)了一些不同的聲音。

其中最受關(guān)注的,當(dāng)屬數(shù)學(xué)界頂尖學(xué)者陶哲軒的表態(tài),他在社交媒體上針對此事發(fā)表了長篇評論。

陶哲軒指出,雖然多家AI公司都聲稱在IMO題目上取得了好成績,但由于缺乏統(tǒng)一的測試環(huán)境和標(biāo)準(zhǔn),很難進(jìn)行公平比較。

人們很容易將當(dāng)前AI的能力視為一個(gè)單一的量化指標(biāo)——要么能搞定某件事,要么就完全不行。但其實(shí)不是這樣,AI到底有多厲害,這得看給它多少資源、多少輔助手段以及不同的結(jié)果呈現(xiàn)方式,種種因素影響下,AI能力能差出好幾個(gè)量級。

圖片

他特別強(qiáng)調(diào):“在沒有預(yù)先公布方法論的情況下,不會(huì)對任何自我報(bào)告的AI競賽表現(xiàn)發(fā)表評論。”

圖片

陶哲軒用生動(dòng)的比喻列舉了多項(xiàng)AI可能采取的措施:

給學(xué)生幾天時(shí)間來完成每道題,而非用四個(gè)半小時(shí)解答三道題。(稍微延伸一下:給學(xué)生的時(shí)間仍只有四個(gè)半小時(shí),但領(lǐng)隊(duì)將他們放入某種昂貴且耗能巨大的時(shí)間加速裝置,在這段時(shí)間里,學(xué)生們會(huì)經(jīng)歷數(shù)月甚至數(shù)年的時(shí)光。)

考試開始前,領(lǐng)隊(duì)將題目改寫成學(xué)生更易理解的形式。

領(lǐng)隊(duì)讓學(xué)生可以無限制使用計(jì)算器、計(jì)算機(jī)代數(shù)軟件、形式化證明輔助工具、教科書,或者擁有上網(wǎng)搜索的權(quán)限

領(lǐng)隊(duì)讓6名學(xué)生組成的團(tuán)隊(duì)共同攻關(guān)同一道題,就各自的部分進(jìn)展和遇到的瓶頸進(jìn)行交流。

領(lǐng)隊(duì)給學(xué)生提示可行的解題方向,若發(fā)現(xiàn)有學(xué)生在明知不太可能成功的方向上耗費(fèi)過多時(shí)間,便會(huì)進(jìn)行干預(yù)。

團(tuán)隊(duì)的6名學(xué)生都提交了解答,但領(lǐng)隊(duì)只挑選出“最佳”解答提交給競賽,其余的則棄之不用。

若團(tuán)隊(duì)中沒有任何一名學(xué)生得出令人滿意的解答,領(lǐng)隊(duì)就完全不提交任何解答,悄無聲息地退出競賽,且無人知曉他們曾參與過。

而這些措施均改變了競賽形式從而影響題目難度。

圖片

與此同時(shí),數(shù)學(xué)競賽評測平臺(tái)MathArena發(fā)布了獨(dú)立評測結(jié)果。

在他們的測試中,即使是表現(xiàn)最好的Gemini 2.5 Pro也只獲得了13分(31%),遠(yuǎn)低于銅牌線19分。

圖片

測試使用了best-of-32的選擇策略,即對于每個(gè)模型的解答,首先生成32份回應(yīng),隨后借助“大語言模型評審系統(tǒng)”對這些回應(yīng)進(jìn)行評估,兩兩比對選出更優(yōu)答案。

每份最終的模型答案生成成本至少為3美元,其中Grok-4模型每份答案的成本超過20美元,但即便如此,仍然沒有任何模型能達(dá)到獲獎(jiǎng)牌的水平。

MathArena團(tuán)隊(duì)也同步更新了OpenAI宣布實(shí)驗(yàn)?zāi)P湍玫絀MO金牌的消息:

無法驗(yàn)證這些結(jié)果是如何實(shí)現(xiàn),期待該模型的發(fā)布以及使用MathArena基準(zhǔn)進(jìn)行獨(dú)立評估。

圖片

雖然OpenAI模型拿金牌的方法論未公開,但也有不少網(wǎng)友表示,不看過程,結(jié)果同樣具有意義。

圖片

OpenAI團(tuán)隊(duì)對自己的成果充滿信心。

參與此項(xiàng)目的研究員Alexander Wei回憶說:“2021年,我的博士導(dǎo)師讓我預(yù)測2025年7月AI在數(shù)學(xué)上的進(jìn)展,我當(dāng)時(shí)預(yù)測MATH基準(zhǔn)測試能達(dá)到30%(還覺得其他人都太樂觀了)。結(jié)果現(xiàn)在我們拿到了IMO金牌。”

圖片

OpenAI新模型解題過程:
https://github.com/aw31/openai-imo-2025-proofs/

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-07-21 11:48:54

OpenAIIMOLLM

2024-12-09 09:35:00

AI數(shù)據(jù)訓(xùn)練

2025-07-21 09:04:00

OpenAI谷歌模型

2025-07-24 16:30:48

陶哲軒金牌AI

2023-10-04 08:07:06

CopilotGitHub

2023-06-08 07:58:29

2024-07-29 13:28:52

2023-12-16 12:47:59

2023-06-19 09:57:23

GPT-4技術(shù)

2024-08-08 13:40:00

2023-10-10 12:30:51

AI模型

2024-02-26 08:30:00

2023-10-10 13:51:46

GPT-4GitHubAI

2023-04-15 19:37:50

OpenAIGPT-5

2023-09-20 08:55:00

模型工具

2023-04-10 11:45:26

GPT-4AI

2024-01-18 12:30:03

2023-06-25 14:59:07

2023-04-06 13:59:50

人工智能系統(tǒng)

2024-03-21 06:56:03

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 久久精选视频 | 国产精品一区二区三 | 亚洲天堂第一页 | 99精品网站 | 黄色片在线 | 欧美理伦| 欧美操操操 | 日韩国产精品一区二区 | 久久99精品久久久久久 | 中文字幕在线观看第一页 | 最新国产在线视频 | 成人午夜网站 | 久久日av| 国产午夜在线观看 | 亚洲国产第一页 | 操操操av| 超碰精品在线 | 欧美午夜精品一区二区三区 | 日日干av | 亚洲欧美日韩一区 | 亚洲精品乱码久久久久 | 黄色大片av | 日日干av| 毛片视频免费观看 | 在线中文字幕网站 | 每日更新av| 欧美色综合天天久久综合精品 | 日韩毛片网站 | 亚洲国产精品成人无久久精品 | 欧美成人精品一区二区三区在线看 | 午夜免费福利视频 | 黄色大片在线播放 | 亚洲欧美一区二区三区四区 | 久久小视频 | 精品在线观看视频 | 国产h在线| a毛片视频| 视频一区在线播放 | 日韩毛片网 | a级片网站| 国产a久久麻豆入口 |