從思考到行動：大模型自主工具調用能力的深度實現

作者：機器之心 2025-04-17 09:12:00

GPT - 4o、Deepseek - R1 等高級模型已展現出令人驚嘆的「深度思考」能力：理解上下文關聯、拆解多步驟問題、甚至通過思維鏈（Chain - of - Thought）進行自我驗證、自我反思等推理過程。

本項目由復旦大學知識工場實驗室肖仰華教授、梁家卿青年副研究員領導，博士生韓槿一，碩士生李廷云、熊程元、姜子上、王昕奕等同學共同參與完成。

但是，多數主流模型仍在基礎問題上犯錯，復雜四則運算計算失誤，簡單「兩個小數比大小」出錯、甚至連數清楚 strawberry 里有幾個「r」都能翻車……即使提示像 R1 這樣具備深度思考能力的大模型也要消耗大量的 token 才能勉強答對。

合適的工具調用能夠拓展大模型的能力邊界，但現有工具調用方式將大模型限制在預設的工具使用框架內，更像是一個被動的「提線木偶」，而非真正具備主動性的智能體。主要體現在以下幾個方面：

淺層模仿而非深度理解：SFT 只是學會了特定場景下工具調用的表面模式，而非真正理解工具的功能邊界、適用場景和內部工作機制
上下文依賴性強：基于 Prompt 的工具調用方法高度依賴于提示的精確性和完整性。一旦用戶描述模糊或提示設計不當，模型就無法正確選擇和使用工具
工具組合能力受限：當需要多個工具協同解決復雜問題時，現有方法難以支持模型進行靈活的工具組合

復旦大學知識工場實驗室團隊在開源項目 SimpleGRPO 中開源實現了大模型自主工具調用機制，通過引入大模型的深度思考能力，從根本上重構了大模型工具調用的范式。該技術使大模型實現了從被動執行的「提線木偶」到具備自主決策能力的智能體的根本躍遷。

項目開源地址為：https://github.com/lsdefine/simple_GRPO/tree/main/Auto_Program

為什么大模型需要自主調用工具的能力？

深度整合：大模型不僅是工具的「操控者」，而是能在推理過程中深度理解工具的功能，知道什么時候、如何使用工具才能更高效地解決問題。
動態調整：每次調用工具后，模型會根據新獲得的信息自動調整思路，不斷改進解決方案，讓每一次思考都更精確。
連續性與靈活性：不同于傳統的單次工具調用，自主工具調用能力可以使得模型能夠在復雜任務中多次調用工具，通過連續的交互獲取最佳答案。
創新組合：當一個工具無法完成任務時，模型能創新性地將多個工具結合起來，解決更為復雜的挑戰。

表. 一般模型和融入思考進行自主工具調用的模型在工具調用上的能力表現的差異

如何實現大模型的工具自主調用？

我們使用強化學習算法給 LLM 裝上「決策中樞」，實現兩種神仙模式：

方案 1【邊想邊干】：LLM 思考到一半突然寫代碼輔助解決 → 編譯器運行 → 繼續思考完成后續的推理

當大模型在生成推理或解決問題的過程中，意識到某些步驟需要借助編程工具（如 Python）來完成時，它會直接生成相應的代碼片段，并通過編譯器執行這些代碼，執行結果會被捕獲并作為輸入重新融入到大模型的推理過程中。

這種即時反饋機制使得模型能夠動態調整后續的生成內容。這種方式類似于人類在解決問題時，發現某個計算或分析任務復雜到需要用程序來輔助，便動手編寫代碼并運行結果。

方案 2【專業分工】：LLM 負責提需求，直接說「我需要計算 38 和 16 的最小公倍數」，專屬代碼小弟秒速響應！強強聯手更精準！

生成模型在推理過程中，當遇到需要編程工具協助的任務時，會明確描述出需求。例如，「我需要計算一組數據的標準差」或「請幫我實現一個排序算法」。這種需求描述通常以自然語言的形式表達，清晰且易于理解。接收到需求后，專門的代碼生成模型會根據描述生成對應的 Python 代碼。

該模型經過大量代碼訓練，擅長將自然語言需求轉化為準確的代碼實現。生成的代碼通過編譯器執行，執行結果被返回給生成模型。生成模型根據結果調整后續推理路徑，確保整個過程連貫一致。

大模型邊思考邊行動

大模型自主調用 Python 命令行

我們首先在簡單數學題上驗證模型能否通過強化學習學會調用工具計算器來輔助解決問題，并觀察其泛化性。我們設定模型可在回答中通過「>>>」調用 Python 命令行，檢測到需要調用 python 程序時，編譯執行并將代碼運行結果插入到先前的生成過程中。以 Qwen2.5 - 7B 為基礎模型，在 GSM8K 上訓練。