谷歌DeepMind：大模型也很任性，知道最優路徑偏要撞南墻

作者：機器之心 2025-05-06 09:08:00

人工智能新聞

該研究對 LLM 常見的失敗模式貪婪性、頻率偏差和知 - 行差距，進行了深入研究。

大語言模型（LLMs）的成功激發了人們對各種智能體的興趣。將 LLM 用于智能體的一個關鍵假設是，LLMs 利用常識和思維鏈（Chain-of-Thought, CoT）進行推理，從而智能體可以有效地探索并高效地解決復雜領域的問題。

然而，LLM 智能體存在次優探索和知 - 行差距（knowing-doing gap）的問題，即無法有效地將模型中的知識轉化為行動。

本文，來自谷歌 DeepMind 的研究者系統地研究了為什么 LLM 在決策場景中表現次優的原因。特別是，本文深入研究了三種常見的失敗模式：貪婪性、頻率偏差和知 - 行差距。

在此基礎上，本文提出通過強化學習對自動生成的 CoT 推理過程進行微調，以緩解這些不足。實驗表明 RL 微調能有效提升 LLMs 的決策能力 —— 既增強了智能體探索性行為，又縮小了知 - 行差距。

論文標題： LLMs are Greedy Agents: Effects of RL Fine-tuning on Decision-Making Abilities
論文地址：https://www.alphaxiv.org/abs/2504.16078

方法介紹

本文系統性地分析了中小規模 LLMs 存在的三種典型缺陷：貪婪性策略、頻率偏差以及知行差距。分析表明，由于 LLMs 過早陷入貪婪動作選擇策略，導致動作覆蓋率停滯（最高達 55% 未探索），最終性能持續低于最優水平。

具體而言，本文發現小規模 LLMs（2B）傾向于機械復制上下文中的高頻動作（無視其獎勵差異），這種現象被定義為頻率偏差。

相比之下，大規模 LLMs（27B）雖能顯著減弱頻率偏差，但依舊維持貪婪行為。

同樣值得注意的是，本文通過量化知 - 行差距發現：LLMs 雖能正確理解任務要求，卻因執著于貪婪動作而無法有效執行所知方案。

為克服這些缺陷，本文提出在自動生成思維鏈（CoT）推理的基礎上進行強化學習微調方法（RLFT）。

RLFT 方法依賴于從環境交互中獲得的獎勵，對自生成的 CoT 原理進行微調。在 RLFT 過程中，模型會學習迭代地優化其推理過程，從而傾向于選擇能夠帶來更高獎勵的 CoT 模式和動作（參見圖 1）。本文方法更專注于決策場景。

上下文表示：在步驟 t 時，輸入 Token 包括輸入指令，輸出指令和最近的交互歷史。歷史表示包含最近 C 個狀態、動作和獎勵的軌跡。

微調目標：本文使用 Schulman 等人引入的裁剪目標進行微調，并對參考策略進行額外的 KL 約束：

實驗結果

比較模型：實驗比較了 Gemma2 模型的三種尺寸大小：2B、9B 和 27B 。

環境：多臂老虎機（MAB，Multi-Armed Bandit）以及井字棋游戲。

為什么 LLM 在決策方面表現不佳？

先前的研究發現，LLM 智能體在交互環境中表現欠佳，且探索不足。因此，本文首先研究模型表現欠佳的原因，并確定了三種常見的故障模式：(1) 貪婪，(2) 頻率偏差，以及 (3) 知 - 行差距。發現三種故障模式在各個模型尺寸上均持續存在。

貪婪是第一個也是最普遍的故障模式，其特征是 LLM 過度偏向于迄今為止看到的一小部分操作中表現最佳的操作。為了說明這種故障模式，本文展示了 Gemma2 2B/9B/27B 在啟用和禁用 CoT 的情況下，在 64 個 MAB（包含 10 個和 20 個分支）上，并且在 50 個交互步驟中實現的平均操作覆蓋率（見圖 3 a 和 b）。