剛剛！UCLA楊林團(tuán)隊(duì)證明：僅憑提示詞，Gemini 2.5 Pro就可以拿到IMO2025金牌

2025-07-24 10:36:51

剛剛發(fā)布在arXiv上的研究論文《Gemini 2.5 Pro Capable of Winning Gold at IMO 2025*》證明Gemini 2.5 Pro本體通過(guò)適當(dāng)提示就可以獲得IMO 2025金牌。

最近，大家應(yīng)該都被OpenAI和谷歌的內(nèi)部模型獲得IMO2025金牌的消息刷屏了，但是正式參賽的公開(kāi)的模型03high，Gemini 2.5 pro等表現(xiàn)很差，連銅牌都沒(méi)拿到，不過(guò)現(xiàn)在又有了一個(gè)新情況。

剛剛發(fā)布在arXiv上的研究論文《Gemini 2.5 Pro Capable of Winning Gold at IMO 2025*》證明Gemini 2.5 Pro本體通過(guò)適當(dāng)提示就可以獲得IMO 2025金牌。

論文地址：https://arxiv.org/pdf/2507.15855

該論文由加州大學(xué)洛杉磯分校的楊林（UCLA 電子與計(jì)算機(jī)工程系副教授）和黃溢辰撰寫，詳細(xì)闡述了他們?nèi)绾卫霉雀枳钚碌腉emini 2.5 Pro模型，成功解決了6道2025年國(guó)際數(shù)學(xué)奧林匹克（IMO）競(jìng)賽題目中的5道，達(dá)到了IMO金牌得主水平。

核心方法

該研究的真正創(chuàng)新之處，在于設(shè)計(jì)了一套由兩個(gè)核心角色解題者和驗(yàn)證者構(gòu)成的自我驗(yàn)證流水線。這兩個(gè)角色均由Gemini 2.5 Pro扮演，但通過(guò)截然不同且高度特化的提示詞（Prompt）來(lái)引導(dǎo)，使其各司其職，形成了高效的協(xié)作與迭代機(jī)制。

流水線流程如下圖所示：

初始解題：模型首先嘗試對(duì)問(wèn)題進(jìn)行解答。作者發(fā)現(xiàn)，由于IMO問(wèn)題的復(fù)雜性，模型的首次嘗試往往不完美，甚至存在錯(cuò)誤。

自我改進(jìn)：模型被提示審視并改進(jìn)自己的初步解答，相當(dāng)于進(jìn)行第一輪反思。

嚴(yán)格驗(yàn)證：引入一個(gè)驗(yàn)證器角色（同樣由Gemini 2.5 Pro扮演）。驗(yàn)證器會(huì)逐行審查解答，生成一份詳細(xì)的錯(cuò)誤報(bào)告，將問(wèn)題分為關(guān)鍵錯(cuò)誤（如邏輯謬誤）和論證缺陷如步驟跳躍、缺乏足夠論證）。

修正與迭代：解題模型根據(jù)驗(yàn)證器提供的錯(cuò)誤報(bào)告來(lái)修正自己的證明。修正后的版本會(huì)再次提交給驗(yàn)證器進(jìn)行審核。

接受或拒絕：這個(gè)驗(yàn)證-修正的循環(huán)會(huì)持續(xù)進(jìn)行。一個(gè)解答只有在連續(xù)5次通過(guò)驗(yàn)證器且未發(fā)現(xiàn)任何問(wèn)題后，才會(huì)被最終接受。如果一個(gè)方案在10輪迭代后仍存在重大問(wèn)題，則被拒絕。

提示詞設(shè)計(jì)

解題者提示詞：強(qiáng)調(diào)嚴(yán)謹(jǐn)與誠(chéng)實(shí)

解題者的目標(biāo)是生成初步的數(shù)學(xué)證明。研究者為其設(shè)計(jì)的提示詞，旨在根除大型語(yǔ)言模型常見(jiàn)的幻覺(jué)和走捷徑的弊病。核心指令包括：

嚴(yán)謹(jǐn)性至上：提示詞明確要求：你的首要目標(biāo)是產(chǎn)出完整且嚴(yán)格論證的解法。解題的每一步都必須邏輯上無(wú)懈可擊且解釋清晰。一個(gè)從有缺陷或不完整的推理中得出的正確答案，將被視為失敗。這條指令將模型的重心從得出答案轉(zhuǎn)移到了構(gòu)建嚴(yán)謹(jǐn)?shù)淖C明過(guò)程。

對(duì)完整性的誠(chéng)實(shí)：這是對(duì)抗模型編造內(nèi)容的關(guān)鍵。提示詞指示：如果你找不到完整的解法，你絕不能猜測(cè)或創(chuàng)造一個(gè)看似正確但包含隱藏缺陷或論證空白的解法。相反，你應(yīng)該只呈現(xiàn)你能夠嚴(yán)格證明的重要部分成果。這使得模型在遇到困難時(shí)，會(huì)選擇回退到可靠的、已證明的子結(jié)論，而不是強(qiáng)行完成整個(gè)證明。

結(jié)構(gòu)化輸出：要求模型必須按照摘要和詳細(xì)解法的格式輸出。摘要部分又必須包含對(duì)解題結(jié)果的定論（例如我成功解決了問(wèn)題或我未能找到完整解法，但我嚴(yán)格證明了……），以及一個(gè)方法草圖。這種格式強(qiáng)迫模型在輸出最終答案前，進(jìn)行一次自我評(píng)估和梳理。

驗(yàn)證者提示詞：精細(xì)化的錯(cuò)誤診斷

當(dāng)解題者完成一次嘗試后，驗(yàn)證者登場(chǎng)。它的任務(wù)不是解題，而是像一位經(jīng)驗(yàn)豐富的競(jìng)賽評(píng)委一樣，對(duì)證明進(jìn)行逐行審查。其提示詞設(shè)計(jì)得更為精妙：

角色定位：你是一位IMO級(jí)別的專家數(shù)學(xué)家和一絲不茍的評(píng)分人。你的唯一任務(wù)是嚴(yán)格驗(yàn)證所提供的數(shù)學(xué)解法。

非建設(shè)性審查：明確指示你必須扮演驗(yàn)證者，而非解題者。不要嘗試修正你發(fā)現(xiàn)的錯(cuò)誤或填補(bǔ)空白。這確保了驗(yàn)證過(guò)程的客觀性。

創(chuàng)新的錯(cuò)誤分類系統(tǒng)：這是整個(gè)方法論的點(diǎn)睛之筆。驗(yàn)證者被要求將發(fā)現(xiàn)的問(wèn)題分為兩類，并按不同規(guī)則處理：

a.關(guān)鍵錯(cuò)誤 : 指的是邏輯謬誤或計(jì)算錯(cuò)誤，這類錯(cuò)誤會(huì)直接破壞證明鏈條。一旦發(fā)現(xiàn)，驗(yàn)證者會(huì)指出錯(cuò)誤，并停止對(duì)該條推理后續(xù)步驟的檢查，但會(huì)繼續(xù)檢查證明中其他獨(dú)立的部分（例如，證明題設(shè)的另一種情況）。

b.論證缺陷 :指的是結(jié)論可能正確，但論證過(guò)程過(guò)于簡(jiǎn)略、想當(dāng)然或缺乏足夠嚴(yán)謹(jǐn)性。處理這類問(wèn)題時(shí)，驗(yàn)證者會(huì)指出論證的不足，然后假設(shè)這一步的結(jié)論是正確的，并繼續(xù)檢查后續(xù)的證明是否在邏輯上成立。這種方法極具價(jià)值，因?yàn)樗茉u(píng)估即使在某個(gè)局部存在瑕疵的情況下，整個(gè)證明的宏觀結(jié)構(gòu)是否依然穩(wěn)固。

我把論文里的提示詞整理了一下，完整提示詞如下：

生成-驗(yàn)證-修正”閉環(huán)

通過(guò)這套雙提示詞系統(tǒng)，研究建立了一個(gè)迭代循環(huán)：

解題者根據(jù)強(qiáng)調(diào)嚴(yán)謹(jǐn)和誠(chéng)實(shí)的提示詞生成證明
驗(yàn)證者根據(jù)精細(xì)化的診斷提示詞，對(duì)證明進(jìn)行審查，并輸出一份結(jié)構(gòu)化的錯(cuò)誤報(bào)告
解題者接收這份報(bào)告，并針對(duì)性地修正自己的證明
修正后的版本再次進(jìn)入驗(yàn)證環(huán)節(jié)，如此循環(huán)往復(fù)，直至證明連續(xù)多次通過(guò)驗(yàn)證，沒(méi)有任何瑕疵

數(shù)據(jù)污染？

評(píng)估大型語(yǔ)言模型能力時(shí)，一個(gè)核心挑戰(zhàn)是數(shù)據(jù)污染——即測(cè)試數(shù)據(jù)可能已存在于模型的訓(xùn)練集中，導(dǎo)致評(píng)估結(jié)果虛高。

為了規(guī)避這一問(wèn)題，研究團(tuán)隊(duì)專門使用了剛剛發(fā)布的2025年IMO競(jìng)賽題目進(jìn)行測(cè)試。由于這些題目是在評(píng)估前幾天才公布的，可以確保模型此前從未見(jiàn)過(guò)它們，從而提供了一個(gè)純凈的測(cè)試環(huán)境，真實(shí)地反映了Gemini 2.5 Pro的泛化和原創(chuàng)性解題能力。

另外論文作者的回應(yīng)，也沒(méi)有開(kāi)啟網(wǎng)絡(luò)搜索功能。

結(jié)果是否可驗(yàn)證？

通過(guò)上述方法，作者宣稱Gemini 2.5 Pro成功地為IMO 2025的前5道題提供了完整且嚴(yán)謹(jǐn)?shù)淖C明。

問(wèn)題1（組合數(shù)學(xué)）和問(wèn)題2（幾何）： 研究人員在使用模型解題時(shí)，額外加入了一句提示，分別建議嘗試歸納法和解析幾何。他們認(rèn)為，這兩種方法是解決此類問(wèn)題的通用策略，一個(gè)先進(jìn)的多智能體系統(tǒng)本就會(huì)分配智能體去探索這些路徑，因此這并不算提供捷徑，而更像是節(jié)約計(jì)算資源。模型在處理幾何問(wèn)題時(shí)尤其得心應(yīng)手，被認(rèn)為是6道題中最簡(jiǎn)單的一道。

問(wèn)題3（數(shù)論）： 團(tuán)隊(duì)通過(guò)20次采樣和迭代改進(jìn)，成功獲得嚴(yán)謹(jǐn)解。這展示了其迭代方法相比于純粹暴力采樣的更高效率。

問(wèn)題4和問(wèn)題5 也被成功解決。

問(wèn)題6： 模型未能解決，只給出了一個(gè)平凡的上界。

綜合來(lái)看，解決6道題中的5道，結(jié)果請(qǐng)看論文，文章中有詳細(xì)過(guò)程。

解題過(guò)程和結(jié)果正確性得到了手動(dòng)驗(yàn)證。