35分?jǐn)亟穑emini 成首個(gè) IMO 認(rèn)證 AI 金牌 ,OpenAI 未獲許可強(qiáng)蹭 IMO 熱度
Gemini Deep Think正式跨入國(guó)際數(shù)學(xué)奧林匹克(IMO)金牌行列。
谷歌DeepMind宣布,其搭載Deep Think模式的先進(jìn)版本Gemini,在2025年IMO中斬獲35分,成功達(dá)到了金牌標(biāo)準(zhǔn)。
這一成績(jī)來(lái)自對(duì)6道題中的5道完美解答,評(píng)分標(biāo)準(zhǔn)、比賽時(shí)間、參賽流程與人類選手完全一致。
圖片
更關(guān)鍵的是,這是IMO官方首次對(duì)AI參賽結(jié)果進(jìn)行正式認(rèn)證,并給出與學(xué)生相同的評(píng)分機(jī)制。
IMO主席Gregor Dolinar明確表示:“我們可以確認(rèn),Google DeepMind達(dá)到了這一備受期待的里程碑。解答清晰、精準(zhǔn),大多數(shù)都易于理解?!?/p>
圖片
要知道,去年的銀牌得主是DeepMind旗下的AlphaProof與AlphaGeometry組合系統(tǒng),用了兩到三天的時(shí)間、依賴形式語(yǔ)言翻譯,才完成28分的成績(jī)。
今年的Gemini Deep Think,在4.5小時(shí)內(nèi)用英語(yǔ)讀題、用英語(yǔ)寫出完整證明,全程自然語(yǔ)言,端到端完成任務(wù),完成了從“翻譯數(shù)學(xué)”到“思維數(shù)學(xué)”的跨越。
DeepMind科學(xué)家Thang Luong稱,這是AI在數(shù)學(xué)理解領(lǐng)域的“范式轉(zhuǎn)變”。
更引人注目的是,這款Gemini新模型尚未公開(kāi),但DeepMind已承諾將先開(kāi)放給受信任的數(shù)學(xué)家進(jìn)行測(cè)試,后續(xù)逐步向Google AI Ultra用戶推出。
一、技術(shù)之上,是節(jié)奏與分寸
然而,在DeepMind宣布突破之前,另一場(chǎng)圍繞“誰(shuí)先發(fā)聲”的風(fēng)波,先點(diǎn)燃了整個(gè)AI圈。
知情者透露,DeepMind其實(shí)在7月19日(周五)下午就完成了內(nèi)部驗(yàn)證。但為了配合IMO官方“閉幕式后一周再公布”的非正式約定,他們決定等到下周一再正式發(fā)布。
圖片
沒(méi)想到,OpenAI在19日凌晨突然宣布:“我們也做到了!”
結(jié)果,所有注意力一夜之間傾斜向了OpenAI,DeepMind的節(jié)奏被徹底打亂。
社交平臺(tái)瞬間炸開(kāi)了鍋。有推特網(wǎng)友一針見(jiàn)血地指出:“在這個(gè)游戲里,速度大于官僚主義。錯(cuò)過(guò)時(shí)機(jī),你就失去了話語(yǔ)權(quán)。”
而據(jù)IMO相關(guān)協(xié)調(diào)員透露,OpenAI并未與IMO官方合作測(cè)試其模型,可能“并不知道”需要等待閉幕式之后才宣布。
圖片
OpenAI研究員Noam Brown隨后澄清稱,他們確實(shí)在閉幕式結(jié)束后才公布成績(jī),并事先知會(huì)了部分組織者。
但據(jù)IMO內(nèi)部人員披露,OpenAI其實(shí)在閉幕晚會(huì)前就公布了結(jié)果,這種行為被評(píng)價(jià)為“粗魯和不恰當(dāng)”。
圖片
DeepMind CEO哈薩比斯雖然在推文中“只字未提”O(jiān)penAI,卻通過(guò)強(qiáng)調(diào)三個(gè)點(diǎn)回應(yīng)了全部質(zhì)疑:我們沒(méi)有搶跑,成績(jī)是IMO官方認(rèn)證,模型也會(huì)正式發(fā)布。
這三點(diǎn),恰恰擊中了OpenAI的三個(gè)軟肋。
不僅DeepMind的節(jié)奏更體面,他們?cè)诩夹g(shù)層面也選擇了更高成本、更針對(duì)性的AI模型研發(fā)路徑。
Gemini Deep Think并非通用模型,而是一個(gè)專為復(fù)雜問(wèn)題設(shè)計(jì)的增強(qiáng)推理系統(tǒng),融合了DeepMind最新的研究成果。
而OpenAI的做法,則被不少網(wǎng)友評(píng)價(jià)為“通用模型,低資源,博營(yíng)銷”。
二、增強(qiáng)推理,邁向直覺(jué)
圖片
Gemini Deep Think最核心的優(yōu)勢(shì),來(lái)自它獨(dú)特的“并行思維”能力。
在解題過(guò)程中,模型不再像傳統(tǒng)AI那樣順著一條邏輯線推演,而是同時(shí)展開(kāi)多個(gè)可能的解法路徑,并在最終組合成最優(yōu)方案后給出答案。
這讓它擁有比人類更廣闊的思維幅度,又不失推理的嚴(yán)謹(jǐn)性。
此外,為進(jìn)一步發(fā)揮推理能力,DeepMind采用了多項(xiàng)技術(shù)升級(jí):使用全新的強(qiáng)化學(xué)習(xí)方式訓(xùn)練模型;提供高質(zhì)量的數(shù)學(xué)問(wèn)題和解答數(shù)據(jù)集;加入專門的IMO題目解題提示與策略指令。
更驚人的是,在今年的第三題中,大部分人類選手使用了研究生級(jí)別的技巧完成,而Gemini僅用初等數(shù)論,就完成了一個(gè)邏輯自洽的完整證明。
至于那唯一沒(méi)有解出的第六題?據(jù)說(shuō)人類選手中也僅有五人解出。Gemini只是“選錯(cuò)了方向”。
目前,DeepMind已將Gemini解答的五道題目完整公開(kāi),接受全網(wǎng)檢驗(yàn)。
與Gemini Deep Think同時(shí)被提及的,還有DeepMind之前的形式化系統(tǒng):AlphaProof和AlphaGeometry。
圖片
雖然今年Gemini完全依賴自然語(yǔ)言完成任務(wù),但DeepMind明確表示,這兩條路線仍會(huì)并行推進(jìn)。
他們的目標(biāo),是構(gòu)建一個(gè)既能理解人類語(yǔ)言,又能進(jìn)行嚴(yán)格形式證明的“超級(jí)數(shù)學(xué)助手”。
這種AI,將不止用于數(shù)學(xué)競(jìng)賽,還能成為科學(xué)研究、工程設(shè)計(jì)、理論建模等領(lǐng)域的核心工具。