成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

谷歌DeepMind:大模型也很任性,知道最優路徑偏要撞南墻

人工智能 新聞
該研究對 LLM 常見的失敗模式貪婪性、頻率偏差和知 - 行差距,進行了深入研究。

大語言模型(LLMs)的成功激發了人們對各種智能體的興趣。將 LLM 用于智能體的一個關鍵假設是,LLMs 利用常識和思維鏈(Chain-of-Thought, CoT)進行推理,從而智能體可以有效地探索并高效地解決復雜領域的問題。

然而,LLM 智能體存在次優探索和知 - 行差距(knowing-doing gap)的問題,即無法有效地將模型中的知識轉化為行動。

本文,來自谷歌 DeepMind 的研究者系統地研究了為什么 LLM 在決策場景中表現次優的原因。特別是,本文深入研究了三種常見的失敗模式:貪婪性、頻率偏差和知 - 行差距。

在此基礎上,本文提出通過強化學習對自動生成的 CoT 推理過程進行微調,以緩解這些不足。實驗表明 RL 微調能有效提升 LLMs 的決策能力 —— 既增強了智能體探索性行為,又縮小了知 - 行差距。

圖片

  • 論文標題: LLMs are Greedy Agents: Effects of RL Fine-tuning on Decision-Making Abilities 
  • 論文地址:https://www.alphaxiv.org/abs/2504.16078

方法介紹

本文系統性地分析了中小規模 LLMs 存在的三種典型缺陷:貪婪性策略、頻率偏差以及知行差距。分析表明,由于 LLMs 過早陷入貪婪動作選擇策略,導致動作覆蓋率停滯(最高達 55% 未探索),最終性能持續低于最優水平。

具體而言,本文發現小規模 LLMs(2B)傾向于機械復制上下文中的高頻動作(無視其獎勵差異),這種現象被定義為頻率偏差。

相比之下,大規模 LLMs(27B)雖能顯著減弱頻率偏差,但依舊維持貪婪行為。

同樣值得注意的是,本文通過量化知 - 行差距發現:LLMs 雖能正確理解任務要求,卻因執著于貪婪動作而無法有效執行所知方案。

為克服這些缺陷,本文提出在自動生成思維鏈(CoT)推理的基礎上進行強化學習微調方法(RLFT)。

RLFT 方法依賴于從環境交互中獲得的獎勵,對自生成的 CoT 原理進行微調。在 RLFT 過程中,模型會學習迭代地優化其推理過程,從而傾向于選擇能夠帶來更高獎勵的 CoT 模式和動作(參見圖 1)。本文方法更專注于決策場景。

圖片

上下文表示:在步驟 t 時,輸入 Token 包括輸入指令圖片,輸出指令圖片和最近的交互歷史圖片。歷史表示包含最近 C 個狀態、動作和獎勵的軌跡圖片

微調目標:本文使用 Schulman 等人引入的裁剪目標進行微調,并對參考策略圖片進行額外的 KL 約束:

圖片

實驗結果

比較模型:實驗比較了 Gemma2 模型的三種尺寸大小:2B、9B 和 27B 。

環境:多臂老虎機(MAB,Multi-Armed Bandit)以及井字棋游戲。

圖片

為什么 LLM 在決策方面表現不佳?

先前的研究發現,LLM 智能體在交互環境中表現欠佳,且探索不足。因此,本文首先研究模型表現欠佳的原因,并確定了三種常見的故障模式:(1) 貪婪,(2) 頻率偏差,以及 (3) 知 - 行差距。發現三種故障模式在各個模型尺寸上均持續存在。

貪婪是第一個也是最普遍的故障模式,其特征是 LLM 過度偏向于迄今為止看到的一小部分操作中表現最佳的操作。為了說明這種故障模式,本文展示了 Gemma2 2B/9B/27B 在啟用和禁用 CoT 的情況下,在 64 個 MAB(包含 10 個和 20 個分支)上,并且在 50 個交互步驟中實現的平均操作覆蓋率(見圖 3 a 和 b)。

圖片

結果顯示模型過早地采用貪婪策略,導致動作覆蓋率在 10 步之后停滯不前。增加分支數量會使貪婪更加明顯,最大的模型僅覆蓋了所有動作的 45%。因此,盡管這些模型比隨機智能體有顯著改進(參見圖 3c),但與 UCB ( Upper-confidence Bound )相比,遺憾值仍然很高。

本文探索的下一個常見故障模式是頻率偏差,其特點是模型重復選擇上下文中出現頻率最高的動作,即使該動作的獎勵很低。

結果顯示,Gemma2 2B 嚴重受到重復動作的影響,隨著重復次數的增加,熵值不斷降低(見圖 4a)。相反,27B 模型擺脫了頻率偏差(見圖 4c)。事實上,對于 2B 來說,頻率偏差隨著重復次數的增加而不斷增加。雖然 27B 擺脫了頻率偏差,但它嚴重受到貪婪的影響。

圖片

知 - 行差距。智能體清楚地知道如何解決任務,所有推理中有 87% 是正確的(見圖 5)。然而,即使對于正確計算的推理,模型也經常會選擇貪婪動作(58%)而不是最優動作(21%)。這種差異凸顯了 LLM 在了解算法的情況下采取行動不一的缺陷。

圖片

RL 微調的有效性

接下來,本文研究 RLFT 對累積遺憾的影響(相對于最優策略),以及它是否能緩解這些故障模式。

結果顯示 RLFT 降低了遺憾值。在各種環境中,LLM 的表現明顯優于隨機基線,并且 RLFT 降低了 2B 和 9B 的遺憾值。

圖片

此外,RLFT 可緩解貪婪性,通過 RLFT,智能體學會了探索,從而緩解了貪婪性。

圖片

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-02-27 09:48:30

谷歌模型

2024-04-07 14:48:00

模型訓練

2025-03-13 10:28:07

2015-04-28 07:47:12

2022-08-22 15:47:48

谷歌模型

2024-06-03 06:49:53

2024-06-14 08:36:57

2024-04-22 12:22:15

2015-11-24 09:45:00

谷歌重返中國

2023-09-21 10:29:01

AI模型

2022-06-06 10:58:52

訓練DeepMind研究

2023-10-17 12:34:04

2015-09-21 09:51:26

2018-01-14 23:07:36

戴爾

2013-07-22 15:36:48

谷歌秘密項目

2023-06-27 13:37:17

谷歌AI

2024-02-27 14:55:00

AI數據

2015-06-10 22:26:26

WPSHTML5

2024-12-13 12:07:15

2025-01-07 08:40:00

視頻生成AI
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲国产一区在线 | 亚洲狠狠 | 日本三级全黄三级三级三级口周 | 国产亚洲成av人在线观看导航 | 亚洲系列第一页 | 久草在线在线精品观看 | 日韩精品一区二区三区免费视频 | 亚洲精品一区二区三区蜜桃久 | 亚洲午夜视频 | 日韩在线观看网站 | 成人毛片一区二区三区 | 亚洲乱码一区二区三区在线观看 | 91精品国产91久久久久久最新 | 毛片黄| 国产精品18久久久久久白浆动漫 | 视频在线观看一区二区 | 国产精品高潮呻吟久久 | 国产精品欧美精品日韩精品 | 欧美日韩精品一区二区天天拍 | 久久久做| 国产精品jizz在线观看老狼 | 超碰成人在线观看 | 中文字幕亚洲精品 | 不卡在线视频 | 国产一区二区精品 | 久久蜜桃av | 国产精品a一区二区三区网址 | 毛片一区二区 | 国产最好的av国产大片 | 亚洲午夜三级 | 亚洲福利精品 | 日本一区二区高清不卡 | 一级黄色片毛片 | 亚洲精品一区二区网址 | 亚洲欧洲成人av每日更新 | 国产露脸对白88av | 久久久久久中文字幕 | 一区二区久久精品 | 天天干天天操天天看 | 在线视频一区二区 | 狠狠av |