「大模型+強化學習」最新綜述!港中文深圳130余篇論文:詳解四條主流技術路線
強化學習(RL)通過與環境交互的試錯反饋來優化順序決策問題。
雖然RL在允許大量試錯的復雜電子游戲環境中實現了超越人類的決策能力(例如王者榮耀,Dota 2等),但很難在包含大量自然語言和視覺圖像的現實復雜應用中落地,原因包括但不限于:數據獲取困難、樣本利用率低、多任務學習能力差、泛化性差、稀疏獎勵等。
大語言模型(LLM),通過在海量數據集上的訓練,展現了超強的多任務學習、通用世界知識目標規劃以及推理能力。以ChatGPT為代表的LLM已經被廣泛應用到各種現實領域中,包括但不限于:機器人、醫療、教育、法律等。
在此背景下,LLM可以提高強化學習在例如多任務學習、樣本利用率、任務規劃等方面的能力,幫助提高強化學習在復雜應用下的學習表現,例如自然語言指令跟隨、談判、自動駕駛等。
為此,來自香港中文大學(深圳)的團隊調研了130余篇大語言模型及視覺-語言模型(VLM)在輔助強化學習(LLM-enhanced RL)方面的最新研究進展,形成了該領域的綜述文章一篇,目前以預印版形式上傳到arXiv網站,期望能為各位研究人員和工程人員提供一定的技術參考。
論文鏈接:https://arxiv.org/abs/2404.00282
該綜述總結了LLM-enhanced RL的主要技術框架、特性以及四種主要技術路線;并分析了未來該方向的機會與挑戰。
下面針對文章主要內容概括介紹,詳細內容請參閱英文綜述論文。
LLM-enhanced RL 框架
LLM-enhanced RL 定義:指利用已預訓練、內含知識(knowledge-inherent)的AI模型的多模態(multi-modal)信息處理、生成、推理等能力來輔助RL范式的各種方法。
主要特性(Characteristics):
1. 多模態信息理解(multi-modal information understanding)
2. 多任務學習和泛化(multi-task learning and generalization)
3. 樣本利用率的提高(improved sample efficiency)
4. 長期軌跡規劃能力(long-horizon handling)
5. 獎勵信號生成能力(reward signal generation)
LLM的主要角色分類
1. 信息處理者(information processor):包括1)文字和視覺表征提??;2)復雜自然語言翻譯。
2. 獎勵設計者(reward designer):即隱式獎勵模型與顯式獎勵模型(獎勵函數代碼生成)。
3. 決策者(decision-maker):包含直接決策與間接輔助決策兩種。
4. 生成者(generator):即1)世界模型中的軌跡生成和2)強化學習中的策略(行為)解釋生成。
LLM 作為信息處理者(LLM as Information Processor)
在富含文字和視覺信息的環境中,深度強化學習(deep RL)通常需要同時學習多模態的信息處理和決策控制策略,因此學習效率大幅下降。且不規范、多變的自然語言和視覺信息往往會對代理學習產生大量干擾。
LLM在此情況下可以(1)有效表征提取,加速下游神經網絡學習;(2)自然語言翻譯,將不規范、冗余復雜的自然語言指令和環境信息翻譯為規范的任務語言,幫助代理過濾無效信息。
LLM 作為獎勵設計者(LLM as Reward Designer)
獎勵函數設計和有效獎勵信號生成一直是強化學習在復雜任務或者稀疏獎勵環境下的兩大難題。
大模型可以通過以下兩種方式緩解該問題
1. 隱式獎勵函數設計:利用上下文理解能力、推理能力和知識,通過任務prompt或文字-視覺對齊的方式生成獎勵。
2. 顯式獎勵函數設計:通過輸入環境規范信息,LLM生成可執行獎勵函數代碼(例如 Python 等),顯式地邏輯計算獎勵函數的各個部分,且可以根據評估自主修正。
LLM 作為決策者(LLM as Decision-Maker)
在決策問題中,大模型可以作為:
1. 直接決策者:Decision Transformer在離線強化學習中展現了巨大的潛力,大語言模型可視作增強版的大型預訓練Transformer模型,利用本身強大的時序建模能力和自然語言理解能力解決離線強化學習的長期決策問題。
2. 間接決策者:作為一個指導者,結合預訓練專家知識和任務理解能力,生成動作候選(action candidates),縮小動作選擇范圍;或者生成參考策略(reference policy)指導RL策略更新。
LLM 作為生成者(LLM as Generator)
在基于模型的強化學習(model-based RL)中,LLM可以作為多模態世界模型(world model),結合自身知識和建模能力來生成高質量長期軌跡或者學習世界狀態轉移表征。
在可解釋強化學習中,大模型可以通過理解軌跡、環境與任務,根據prompt自動生成代理的自然語言行為解釋,增加用戶在調用、調優RL模型時的理解。
討論(Discussion)
LLM-enhanced RL的未來潛在應用包括但不限于:
1. 機器人:利用多模態理解能力和推理能力,LLM-enhanced RL可以提升人-機器的交互效率;幫助機器人理解人類需求邏輯;提高任務決策和規劃能力。
2. 自動駕駛:自動駕駛使用強化學習做復雜動態場景下的決策問題,涉及多傳感器數據與道路規范、行人舉止等。大模型可以幫助強化學習處理多模態信息以及設計綜合獎勵函數,例如安全、效率、乘客舒適度等。
3. 電力系統能量管理:在能量系統中,運營者或者用戶使用強化學習來高效管理多種能力的使用、轉換和存儲等,其中涉及高不確定性的可再生能源。大模型可以幫助設計多目標函數與提高樣本利用效率。
LLM-enhanced方向的潛在機會:
1. 在強化學習方面:目前的工作都集中在通用強化學習,而針對特定強化學習分支的工作較少,包括多代理強化學習、安全強化學習、遷移強化學習和可解釋強化學習等。
2. 在大模型方面:目前的工作大部分僅僅是使用prompt技術,而檢索增強生成(RAG)技術和API、工具調用能力可以顯著提高LLM在特定情況下的表現。
LLM-enhanced RL 的挑戰:
1. 對大模型的能力依賴:大模型的能力決定了強化學習代理學習到的策略,大模型固有的偏見、幻覺等問題也會影響代理的能力。
2. 交互效率:目前大模型的計算開銷較大、交互效率慢,在在線強化學習中會影響代理與環境的交互速度。
3. 道德、倫理問題:實際人-機器的應用中,大模型的道德、倫理等問題需要被認真考慮。
總結
該綜述文章系統總結了大模型在輔助強化學習方面的最近研究進展,定義了LLM-enhanced RL這樣一類方法,并總結了大模型在其中的四種主要角色及其方法,最后討論了未來的潛在應用、機會與挑戰,希望能給未來該方向的研究者一定啟發。
1. 信息處理者:大模型為強化學習代理提取觀測表征和規范語言,提高樣本利用效率。
2. 獎勵設計者:在復雜或無法量化的任務中,大模型利用知識和推理能力設計復雜獎勵函數和生成獎勵信號。
3. 決策者:大模型直接生成動作或間接生成動作建議,提高強化學習探索效率。
4. 生成者:大模型被用于:(1)作為高保真多模態世界模型減少現實世界學習成本及(2)生成代理行為的自然語言解釋。