谷歌DeepMind:大模型也很任性,知道最優路徑偏要撞南墻
大語言模型(LLMs)的成功激發了人們對各種智能體的興趣。將 LLM 用于智能體的一個關鍵假設是,LLMs 利用常識和思維鏈(Chain-of-Thought, CoT)進行推理,從而智能體可以有效地探索并高效地解決復雜領域的問題。
然而,LLM 智能體存在次優探索和知 - 行差距(knowing-doing gap)的問題,即無法有效地將模型中的知識轉化為行動。
本文,來自谷歌 DeepMind 的研究者系統地研究了為什么 LLM 在決策場景中表現次優的原因。特別是,本文深入研究了三種常見的失敗模式:貪婪性、頻率偏差和知 - 行差距。
在此基礎上,本文提出通過強化學習對自動生成的 CoT 推理過程進行微調,以緩解這些不足。實驗表明 RL 微調能有效提升 LLMs 的決策能力 —— 既增強了智能體探索性行為,又縮小了知 - 行差距。
- 論文標題: LLMs are Greedy Agents: Effects of RL Fine-tuning on Decision-Making Abilities
- 論文地址:https://www.alphaxiv.org/abs/2504.16078
方法介紹
本文系統性地分析了中小規模 LLMs 存在的三種典型缺陷:貪婪性策略、頻率偏差以及知行差距。分析表明,由于 LLMs 過早陷入貪婪動作選擇策略,導致動作覆蓋率停滯(最高達 55% 未探索),最終性能持續低于最優水平。
具體而言,本文發現小規模 LLMs(2B)傾向于機械復制上下文中的高頻動作(無視其獎勵差異),這種現象被定義為頻率偏差。
相比之下,大規模 LLMs(27B)雖能顯著減弱頻率偏差,但依舊維持貪婪行為。
同樣值得注意的是,本文通過量化知 - 行差距發現:LLMs 雖能正確理解任務要求,卻因執著于貪婪動作而無法有效執行所知方案。
為克服這些缺陷,本文提出在自動生成思維鏈(CoT)推理的基礎上進行強化學習微調方法(RLFT)。
RLFT 方法依賴于從環境交互中獲得的獎勵,對自生成的 CoT 原理進行微調。在 RLFT 過程中,模型會學習迭代地優化其推理過程,從而傾向于選擇能夠帶來更高獎勵的 CoT 模式和動作(參見圖 1)。本文方法更專注于決策場景。
上下文表示:在步驟 t 時,輸入 Token 包括輸入指令,輸出指令
和最近的交互歷史
。歷史表示包含最近 C 個狀態、動作和獎勵的軌跡
。
微調目標:本文使用 Schulman 等人引入的裁剪目標進行微調,并對參考策略進行額外的 KL 約束:
實驗結果
比較模型:實驗比較了 Gemma2 模型的三種尺寸大小:2B、9B 和 27B 。
環境:多臂老虎機(MAB,Multi-Armed Bandit)以及井字棋游戲。
為什么 LLM 在決策方面表現不佳?
先前的研究發現,LLM 智能體在交互環境中表現欠佳,且探索不足。因此,本文首先研究模型表現欠佳的原因,并確定了三種常見的故障模式:(1) 貪婪,(2) 頻率偏差,以及 (3) 知 - 行差距。發現三種故障模式在各個模型尺寸上均持續存在。
貪婪是第一個也是最普遍的故障模式,其特征是 LLM 過度偏向于迄今為止看到的一小部分操作中表現最佳的操作。為了說明這種故障模式,本文展示了 Gemma2 2B/9B/27B 在啟用和禁用 CoT 的情況下,在 64 個 MAB(包含 10 個和 20 個分支)上,并且在 50 個交互步驟中實現的平均操作覆蓋率(見圖 3 a 和 b)。
結果顯示模型過早地采用貪婪策略,導致動作覆蓋率在 10 步之后停滯不前。增加分支數量會使貪婪更加明顯,最大的模型僅覆蓋了所有動作的 45%。因此,盡管這些模型比隨機智能體有顯著改進(參見圖 3c),但與 UCB ( Upper-confidence Bound )相比,遺憾值仍然很高。
本文探索的下一個常見故障模式是頻率偏差,其特點是模型重復選擇上下文中出現頻率最高的動作,即使該動作的獎勵很低。
結果顯示,Gemma2 2B 嚴重受到重復動作的影響,隨著重復次數的增加,熵值不斷降低(見圖 4a)。相反,27B 模型擺脫了頻率偏差(見圖 4c)。事實上,對于 2B 來說,頻率偏差隨著重復次數的增加而不斷增加。雖然 27B 擺脫了頻率偏差,但它嚴重受到貪婪的影響。
知 - 行差距。智能體清楚地知道如何解決任務,所有推理中有 87% 是正確的(見圖 5)。然而,即使對于正確計算的推理,模型也經常會選擇貪婪動作(58%)而不是最優動作(21%)。這種差異凸顯了 LLM 在了解算法的情況下采取行動不一的缺陷。
RL 微調的有效性
接下來,本文研究 RLFT 對累積遺憾的影響(相對于最優策略),以及它是否能緩解這些故障模式。
結果顯示 RLFT 降低了遺憾值。在各種環境中,LLM 的表現明顯優于隨機基線,并且 RLFT 降低了 2B 和 9B 的遺憾值。
此外,RLFT 可緩解貪婪性,通過 RLFT,智能體學會了探索,從而緩解了貪婪性。