給大模型裝上"認知工具",數學推理能力直接起飛
為GPT-4.1提供"認知工具"可將其在AIME2024上的表現從26.7%提升至43.3%。太驚人了!這個成績已經非常接近o1-preview的水平。
論文提出了一種模塊化、基于工具的方法來激發大語言模型的推理能力,靈感來源于認知科學。作者沒有單純依賴強化學習或思維鏈(CoT)提示,而是引入了一個框架,讓大語言模型能夠調用獨立的"認知工具"來模塊化和支撐內部推理過程。
圖片
agent工具調用:這些工具封裝了理解問題、回憶類似案例、檢查答案和回溯等操作。系統采用agent工具調用的方式實現,允許大語言模型在推理過程中動態調用工具,無需額外的微調。千萬不要低估一個連接了合適工具集的agent系統的威力。只需要一個好的框架就能完成強大的任務。
認知工具作為內部模塊:每個工具(如理解問題、回憶相關內容、檢查答案、回溯)都被構造為獨立的提示模板,大語言模型可以根據需要調用。與傳統工具使用(如計算器API)不同,這些工具在大語言模型自身的架構和內存中運行。這就是為什么我一直在說,能夠交替進行思考和工具調用的推理模型將會解鎖令人驚嘆的應用。這也強調了以模塊化方式構建agent的理念及其巨大價值。我培訓過的AI開發者完全明白我在說什么。
圖片
持續的性能提升:在AIME 2024、MATH500和AMC等數學推理基準測試中,認知工具管道顯著提升了包括Qwen2.5、Llama3和GPT-4.1在內的各種模型的pass@1準確率。例如,Llama3.3-70B在AIME2024上從13.1%提升到29.8%,GPT-4.1從26.7%上升到43.3%,幾乎匹敵經過強化學習訓練的o1-preview推理模型的44.6%。
圖片
優于認知提示:與之前的認知提示工作相比,模塊化工具方法展現出更強的泛化能力和更少的推理干擾。工具可以靈活調用,每次調用都在干凈的上下文窗口中運行,在Smolbenchmark上相比基線提升高達+27.2%的準確率。模塊化提示非常有趣,值得密切關注。
可解釋且可遷移:工具的模塊化特性增強了透明度,其即插即用的設計允許在不同模型和基準測試間輕松遷移,幾乎無需修改。該方法還通過展示中間推理步驟和決策來支持可解釋性。
論文標題:Eliciting Reasoning in Language Models with Cognitive Tools
論文鏈接:???https://arxiv.org/abs/2506.12115??
本文轉載自????AI帝國????,作者:無影寺
