成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

給大模型裝上"認知工具",數學推理能力直接起飛

發布于 2025-6-27 00:02
瀏覽
0收藏

為GPT-4.1提供"認知工具"可將其在AIME2024上的表現從26.7%提升至43.3%。太驚人了!這個成績已經非常接近o1-preview的水平。

論文提出了一種模塊化、基于工具的方法來激發大語言模型的推理能力,靈感來源于認知科學。作者沒有單純依賴強化學習或思維鏈(CoT)提示,而是引入了一個框架,讓大語言模型能夠調用獨立的"認知工具"來模塊化和支撐內部推理過程。


給大模型裝上"認知工具",數學推理能力直接起飛-AI.x社區圖片

agent工具調用:這些工具封裝了理解問題、回憶類似案例、檢查答案和回溯等操作。系統采用agent工具調用的方式實現,允許大語言模型在推理過程中動態調用工具,無需額外的微調。千萬不要低估一個連接了合適工具集的agent系統的威力。只需要一個好的框架就能完成強大的任務。

認知工具作為內部模塊:每個工具(如理解問題、回憶相關內容、檢查答案、回溯)都被構造為獨立的提示模板,大語言模型可以根據需要調用。與傳統工具使用(如計算器API)不同,這些工具在大語言模型自身的架構和內存中運行。這就是為什么我一直在說,能夠交替進行思考和工具調用的推理模型將會解鎖令人驚嘆的應用。這也強調了以模塊化方式構建agent的理念及其巨大價值。我培訓過的AI開發者完全明白我在說什么。


給大模型裝上"認知工具",數學推理能力直接起飛-AI.x社區圖片

持續的性能提升:在AIME 2024、MATH500和AMC等數學推理基準測試中,認知工具管道顯著提升了包括Qwen2.5、Llama3和GPT-4.1在內的各種模型的pass@1準確率。例如,Llama3.3-70B在AIME2024上從13.1%提升到29.8%,GPT-4.1從26.7%上升到43.3%,幾乎匹敵經過強化學習訓練的o1-preview推理模型的44.6%。


給大模型裝上"認知工具",數學推理能力直接起飛-AI.x社區圖片

優于認知提示:與之前的認知提示工作相比,模塊化工具方法展現出更強的泛化能力和更少的推理干擾。工具可以靈活調用,每次調用都在干凈的上下文窗口中運行,在Smolbenchmark上相比基線提升高達+27.2%的準確率。模塊化提示非常有趣,值得密切關注。

可解釋且可遷移:工具的模塊化特性增強了透明度,其即插即用的設計允許在不同模型和基準測試間輕松遷移,幾乎無需修改。該方法還通過展示中間推理步驟和決策來支持可解釋性。

論文標題:Eliciting Reasoning in Language Models with Cognitive Tools

論文鏈接:???https://arxiv.org/abs/2506.12115??

本文轉載自????AI帝國????,作者:無影寺

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 一区二区三区免费 | 免费污视频 | 色综合成人网 | 91一区二区三区在线观看 | 亚洲精品久久久久久首妖 | 成人在线激情 | 看片国产 | 另类专区成人 | 免费在线观看一区二区 | 国产精品久久久久久高潮 | 日韩在线免费观看视频 | 伊人伊人伊人 | 欧美舔穴 | 亚洲毛片一区二区 | 888久久久 | 91精品国产综合久久久密闭 | 精产国产伦理一二三区 | 999热视频 | 国产成人99久久亚洲综合精品 | 久久人人网 | 性色av香蕉一区二区 | 麻豆一区一区三区四区 | 91精品国产乱码久久久久久久久 | 盗摄精品av一区二区三区 | 户外露出一区二区三区 | 武道仙尊动漫在线观看 | 亚洲日本激情 | 亚洲精选一区二区 | 中文字幕在线观看日韩 | 欧美日韩黄色一级片 | 亚洲天堂免费 | 欧美v日韩| 福利视频亚洲 | 欧美精品91 | 成人福利网站 | 日日摸日日碰夜夜爽2015电影 | 一区二区三区免费 | 色综合天天天天做夜夜夜夜做 | 国产在线视频一区二区 | 欧美在线一区视频 | av一级|