成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<ul id="4yi2i"><small id="4yi2i"></small></ul>

<tr id="4yi2i"><ul id="4yi2i"></ul></tr>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

「大模型+強化學習」最新綜述！港中文深圳130余篇論文：詳解四條主流技術路線

作者：新智元 2024-04-11 12:30:52

人工智能新聞

用大模型來輔助強化學習，可以提高模型在多任務學習、樣本利用率、任務規劃等復雜任務下的能力，該論文綜述了LLM-enhanced RL領域的最新進展，總結了LLM-enhanced RL的主要技術框架、特性以及四種主要技術路線；并分析了未來該方向的機會與挑戰。

強化學習（RL）通過與環境交互的試錯反饋來優化順序決策問題。

雖然RL在允許大量試錯的復雜電子游戲環境中實現了超越人類的決策能力（例如王者榮耀，Dota 2等），但很難在包含大量自然語言和視覺圖像的現實復雜應用中落地，原因包括但不限于：數據獲取困難、樣本利用率低、多任務學習能力差、泛化性差、稀疏獎勵等。

大語言模型（LLM），通過在海量數據集上的訓練，展現了超強的多任務學習、通用世界知識目標規劃以及推理能力。以ChatGPT為代表的LLM已經被廣泛應用到各種現實領域中，包括但不限于：機器人、醫療、教育、法律等。

在此背景下，LLM可以提高強化學習在例如多任務學習、樣本利用率、任務規劃等方面的能力，幫助提高強化學習在復雜應用下的學習表現，例如自然語言指令跟隨、談判、自動駕駛等。

為此，來自香港中文大學（深圳）的團隊調研了130余篇大語言模型及視覺-語言模型（VLM）在輔助強化學習（LLM-enhanced RL）方面的最新研究進展，形成了該領域的綜述文章一篇，目前以預印版形式上傳到arXiv網站，期望能為各位研究人員和工程人員提供一定的技術參考。

論文鏈接：https://arxiv.org/abs/2404.00282

該綜述總結了LLM-enhanced RL的主要技術框架、特性以及四種主要技術路線；并分析了未來該方向的機會與挑戰。

下面針對文章主要內容概括介紹，詳細內容請參閱英文綜述論文。

LLM-enhanced RL 框架

LLM-enhanced RL 定義：指利用已預訓練、內含知識（knowledge-inherent）的AI模型的多模態（multi-modal）信息處理、生成、推理等能力來輔助RL范式的各種方法。

主要特性（Characteristics）：

1. 多模態信息理解（multi-modal information understanding）

2. 多任務學習和泛化（multi-task learning and generalization）

3. 樣本利用率的提高（improved sample efficiency）

4. 長期軌跡規劃能力（long-horizon handling）

5. 獎勵信號生成能力（reward signal generation）

LLM的主要角色分類

1. 信息處理者（information processor）：包括1）文字和視覺表征提??；2）復雜自然語言翻譯。

2. 獎勵設計者（reward designer）：即隱式獎勵模型與顯式獎勵模型（獎勵函數代碼生成）。

3. 決策者（decision-maker）：包含直接決策與間接輔助決策兩種。

4. 生成者（generator）：即1）世界模型中的軌跡生成和2）強化學習中的策略（行為）解釋生成。

LLM 作為信息處理者（LLM as Information Processor）

在富含文字和視覺信息的環境中，深度強化學習（deep RL）通常需要同時學習多模態的信息處理和決策控制策略，因此學習效率大幅下降。且不規范、多變的自然語言和視覺信息往往會對代理學習產生大量干擾。

LLM在此情況下可以（1）有效表征提取，加速下游神經網絡學習；（2）自然語言翻譯，將不規范、冗余復雜的自然語言指令和環境信息翻譯為規范的任務語言，幫助代理過濾無效信息。

LLM 作為獎勵設計者（LLM as Reward Designer）

獎勵函數設計和有效獎勵信號生成一直是強化學習在復雜任務或者稀疏獎勵環境下的兩大難題。

大模型可以通過以下兩種方式緩解該問題

1. 隱式獎勵函數設計：利用上下文理解能力、推理能力和知識，通過任務prompt或文字-視覺對齊的方式生成獎勵。

2. 顯式獎勵函數設計：通過輸入環境規范信息，LLM生成可執行獎勵函數代碼（例如 Python 等），顯式地邏輯計算獎勵函數的各個部分，且可以根據評估自主修正。

LLM 作為決策者（LLM as Decision-Maker）

在決策問題中，大模型可以作為：

1. 直接決策者：Decision Transformer在離線強化學習中展現了巨大的潛力，大語言模型可視作增強版的大型預訓練Transformer模型，利用本身強大的時序建模能力和自然語言理解能力解決離線強化學習的長期決策問題。

2. 間接決策者：作為一個指導者，結合預訓練專家知識和任務理解能力，生成動作候選（action candidates），縮小動作選擇范圍；或者生成參考策略（reference policy）指導RL策略更新。

LLM 作為生成者（LLM as Generator）

在基于模型的強化學習（model-based RL）中，LLM可以作為多模態世界模型（world model），結合自身知識和建模能力來生成高質量長期軌跡或者學習世界狀態轉移表征。

在可解釋強化學習中，大模型可以通過理解軌跡、環境與任務，根據prompt自動生成代理的自然語言行為解釋，增加用戶在調用、調優RL模型時的理解。

討論（Discussion）

LLM-enhanced RL的未來潛在應用包括但不限于：

1. 機器人：利用多模態理解能力和推理能力，LLM-enhanced RL可以提升人-機器的交互效率；幫助機器人理解人類需求邏輯；提高任務決策和規劃能力。

2. 自動駕駛：自動駕駛使用強化學習做復雜動態場景下的決策問題，涉及多傳感器數據與道路規范、行人舉止等。大模型可以幫助強化學習處理多模態信息以及設計綜合獎勵函數，例如安全、效率、乘客舒適度等。

3. 電力系統能量管理：在能量系統中，運營者或者用戶使用強化學習來高效管理多種能力的使用、轉換和存儲等，其中涉及高不確定性的可再生能源。大模型可以幫助設計多目標函數與提高樣本利用效率。

LLM-enhanced方向的潛在機會：

1. 在強化學習方面：目前的工作都集中在通用強化學習，而針對特定強化學習分支的工作較少，包括多代理強化學習、安全強化學習、遷移強化學習和可解釋強化學習等。

2. 在大模型方面：目前的工作大部分僅僅是使用prompt技術，而檢索增強生成（RAG）技術和API、工具調用能力可以顯著提高LLM在特定情況下的表現。

LLM-enhanced RL 的挑戰：

1. 對大模型的能力依賴：大模型的能力決定了強化學習代理學習到的策略，大模型固有的偏見、幻覺等問題也會影響代理的能力。

2. 交互效率：目前大模型的計算開銷較大、交互效率慢，在在線強化學習中會影響代理與環境的交互速度。

3. 道德、倫理問題：實際人-機器的應用中，大模型的道德、倫理等問題需要被認真考慮。

總結

該綜述文章系統總結了大模型在輔助強化學習方面的最近研究進展，定義了LLM-enhanced RL這樣一類方法，并總結了大模型在其中的四種主要角色及其方法，最后討論了未來的潛在應用、機會與挑戰，希望能給未來該方向的研究者一定啟發。

1. 信息處理者：大模型為強化學習代理提取觀測表征和規范語言，提高樣本利用效率。

2. 獎勵設計者：在復雜或無法量化的任務中，大模型利用知識和推理能力設計復雜獎勵函數和生成獎勵信號。

3. 決策者：大模型直接生成動作或間接生成動作建議，提高強化學習探索效率。

4. 生成者：大模型被用于：（1）作為高保真多模態世界模型減少現實世界學習成本及（2）生成代理行為的自然語言解釋。

責任編輯：張燕妮來源：新智元

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板：在线伊人网 | 久久精品国产亚洲一区二区 | 国产一级毛片精品完整视频版 | 日韩精品一区二区三区在线观看 | 精品永久| 一级做受毛片免费大片 | 国产韩国精品一区二区三区 | 久久久久国产一区二区三区 | 日韩欧美三级在线 | 成人欧美一区二区三区在线观看 | 99re6热在线精品视频播放 | www.婷婷亚洲基地 | 亚洲精品99 | 色视频一区二区 | 午夜影院视频 | 免费视频一区二区 | 亚洲综合视频一区 | 亚洲国产精品99久久久久久久久 | 亚洲综合大片69999 | 一级a性色生活片久久毛片波多野 | 综合精品在线 | 国产成人免费视频网站高清观看视频 | 成人免费一区二区三区牛牛 | www狠狠干 | 爱爱视频在线观看 | av一区二区三区 | 日本三级黄视频 | 99久久99 | 久久福利电影 | 亚洲精品视频免费 | 亚洲一区二区三区在线观看免费 | 中文在线播放 | 九九精品影院 | 免费看黄色片 | 国产精品片aa在线观看 | 97偷拍视频 | 在线免费av观看 | 日本电影网站 | 97久久精品 | 成人在线观看免费 | 国产精品久久精品 |

<center id="oekqg"><pre id="oekqg"></pre></center>