多元推理刷新「人類的最后考試」記錄,o3-mini(high)準確率最高飆升到37%
近段時間,DeepSeek R1 推理模型引爆了國內外社交媒體,讓人們見識到了大語言模型類人的深度思考能力。
雖然 DeepSeek R1、OpenAI o1 和 o3 等推理模型在數學和編程領域取得了重大進展,但在面對一些測試基準時仍然力不從心,比如國際數學奧林匹克競賽(IMO)組合問題、抽象和推理語料庫(ARC)謎題和人類的最后考試(HLE)問題。以 HLE 為例,主流的推理模型集體翻車,結果顯示 DeepSeekR1、o1 的準確率都低于 10%。
如何提升推理模型在這些較難基準上的準確率呢?近日,波士頓大學、 NotBadMath.AI、谷歌等機構的研究者在最新的論文中,提出了一種在測試時結合多種模型和方法的多元推理方法。結果顯示,該推理方法在驗證數學和編碼問題以及其他問題的拒絕采樣時簡單而高效。
具體來講,研究者通過交互式定理證明器 Lean 來自動驗證 IMO 問題答案的正確性,通過代碼自動驗證 ARC 謎題,以及通過 best-of-N 算法有效地回答 HLE 問題。
- 論文標題:Diverse Inference and Verification for Advanced Reasoning
- 論文地址:https://arxiv.org/pdf/2502.09955
從實驗結果來看,研究者將 IMO 組合問題答案的準確率從 33.3% 提升到 77.8%,將 HLE 問題的準確率從 8% 提升到 37%,并解決了 948 名人類無法攻克的 80%的 ARC 謎題和 o3 high 無法解決的 26.5 % 的 ARC 謎題。
研究者表示,通過調整代理圖表示和不同的提示詞、代碼和數據集,測試時模擬、強化學習和具有推理反饋的元學習等可以提高推理模型的泛化能力。
此外,研究者還發現了基礎語言模型的第三個實證性 scaling law,即多種模型、方法的數量與可驗證問題性能之間的關系,它們呈正向關系。前兩個 scaling law 分別如下:
- 模型大小、數據大小和損失之間的關系,即更多參數、訓練數據和訓練時的語言模型表現更好。
- 模型性能和測試時算力之間的關系,早期棋盤游戲中驗證了訓練時和測試時算力之間的權衡,增加其中任何一項都會帶來更好的性能。最近 DeepMind 的 AlphaCode 2 和 OpenAI 的 o1、o3-mini 展示了測試時算力擴展對推理型 LLM 的助益。
方法概覽
研究者在方法部分主要有以下三項成果:
一是多元推理(diverse inference)。研究者在測試時聚合了多個模型、方法和代理,而不是依賴單個模型和方法。任何一個正確的解決方案都會對 IMO 組合題和 ARC 謎題的可驗證任務進行自動驗證。具體如下:
- IMO:研究者使用 8 種不同的方法,分別是 LEAP、Z3、RTO、BoN、SC、MoA、MCTS、PV,可以顯著提高推理模型準確率。其中將英語題目自動形式化為 Lean,從而完成了完美驗證。
- ARC:合成代碼解決方案在訓練示例上作為單元測試(unit test)進行驗證。
- HLE:使用 best-of-N 作為不完美驗證器,隨著示例增加而解決率提升。
二是測試時模擬和強化學習。研究者在推理時生成了額外的特定于問題的信息,其中:
- IMO:將組合題轉化為了可交互游戲環境,并使用組合搜索或深度強化學習來得出部分結果或邊界。
- ARC:通過合成代碼來探索謎題轉換,從而刪除不正確的解決方案并優化候選解決方案。
另外,研究者表示,在給定相同數據集的情況下,使用訓練過的驗證器進行搜索往往比監督微調效果要好,這激發了強化學習微調。他們通過運行測試時模擬和強化學習來生成額外數據,從而能夠正確證明 2024 IMO 組合題并求解困難的 ARC 謎題。
下圖 1 展示了研究者求解 IMO 組合題所用方法的高級架構,其流程包含了幾個組件,分別是編碼、模擬以及深度強化學習和解碼。
在編碼階段,研究者通過將問題形式化為狀態空間、動作空間和獎勵來找到答案,然后提示 LLM 將問題轉化為一個游戲環境。研究者將問題表示為 Gymnasium 開源項目中的 Python 代碼,其中包括代理和策略,并使用模擬和深度強化學習來找到最優策略。他們重復此過程,為每個問題生成具有不同維的多個游戲,并為每個游戲的不同情節生成對應的數據和視頻。
在解碼階段,研究者提取數據和幀并通過轉換對它們進行擴充,并使用 LLM 以摘要的形式為每個序列的圖像和策略解釋編寫文本表示。最后,研究者利用這些信息以及附錄 M 和 N 中的問題陳述、答案、書籍和指南,通過上下文學習來自動形式化證明。
三是代碼圖的元學習。研究者使用 LLM 和其他工具來追蹤 pipeline 運行,并生成超參數、提示詞、代碼標題和數據的 A/B 測試,并自適應地修改代理圖。
實驗結果
研究者使用了不同的模型和方法對 IMO 組合問題進行了廣泛的評估,他們測試了來自未污染(non-contaminated)考試中的所有組合問題。
結果顯示,零樣本 o1 回答對了 1/9(準確率約 11%)的問題,使用 o3-mini 的最佳方法回答對了 3/9(準確率約 33.3%)的問題,而使用了 o3-mini high 的 8 種多元方法回答對了 7/9(準確率約 77.8%)的問題,并進行了自動驗證。
類似地,使用 o1 的最佳方法回答對了 3/9(準確率約 33.3%)的問題,而使用了 o1 的多元方法回答對了 6/9(準確率約 66.7%)的問題,也進行了自動驗證。
其次,研究者使用了 400 個 ARC 評估謎題,對 16 個模型和方法進行了廣泛的評估,結果如下圖 4 和圖 5 所示,共有以下幾項發現
- 沒有 o3,16 個多元模型和方法將模型性能從 53%提升到了 69.5%。
- 有了 o3,16 個多元模型和方法將模型性能從 91.5% 提升到了 93.75%。
- 16 個多元模型和方法解決了 948 名人類無法解決的 80% 的謎題。
- 16 個多元模型和方法解決了 o3 high 失敗的 26.5% 的謎題。
最后對于 HLE 問題,由于計算成本的原因,研究者隨機抽取了 100 個問題進行測試。不同模型和方法的準確率如下表 1 所示,其中 o3-mini high 非多模態,取得了 13.0%的準確率;Deep Research 使用了網絡搜索和代碼,取得了最高 26.6%的準確率。
此外,使用 o3-mini high 對這 100 個隨機采樣問題進行 best-of-N 拒絕采樣(N=3),所有類別的準確率為 37%,數學問題的準確率為 33.3%;使用 o1 時所有類別的準確率為 21%,數學問題的準確率為 29.6%,具體如下圖 6 和圖 7 所示。
更多方法細節和實驗結果請參閱論文附錄。