PWM: 基于世界模型的策略學習原創

發布于 2024-7-8 08:01

瀏覽

0收藏

強化學習（RL）在復雜任務上取得了令人矚目的成果，但在具有不同實施方式的多任務設置中存在困難。世界模型通過學習環境的模擬來提供可伸縮性，但它們通常依賴于低效的無梯度優化方法。近日，佐治亞理工學者聯合英偉達、加州大學圣地亞哥分校等學者提出了基于大世界模型的策略學習（PWM），這是一種新穎的基于模型的RL算法，它從大型多任務世界模型中學習連續控制策略。通過對離線數據進行世界模型的預訓練，并將其用于一階梯度策略學習，PWM有效地解決了具有多達152個動作維度的任務，并且勝過使用真實動力學的方法。此外，PWM在80個任務設置中進行了擴展，相比于現有基準方法，其獎勵提高了高達27％，而無需昂貴的在線規劃。

PWM: 基于世界模型的策略學習-AI.x社區

方法概述

PWM是一種新穎的基于模型的RL（MBRL）算法和框架，旨在從大型多任務世界模型中得出有效的連續控制策略。利用預訓練的TD-MPC2世界模型，在每個任務中以小于10分鐘的時間高效地學習控制策略。對復雜的運動任務進行的實證評估表明，PWM不僅在獎勵上超過了基準方法，還勝過了使用真實模擬動力學的方法。

PWM的預告結果

PWM: 基于世界模型的策略學習-AI.x社區

對高維連續控制任務上的PWM進行評估（左圖），發現它不僅勝過了無模型的基準方法SAC和PPO，還在獎勵上超過了直接使用模擬器動力學和獎勵函數的SHAC方法。在一個包含80個任務的設置中（右圖），使用了一個龐大的4800萬參數的世界模型，PWM能夠持續勝過使用相同世界模型的TD-MPC2方法，而無需在線規劃。

單任務結果

PWM: 基于世界模型的策略學習-AI.x社區

圖中顯示了50％的IQM（實線）、均值（虛線）和所有5個任務和5個隨機種子的95％置信區間。PWM能夠獲得比無模型的基準方法PPO和SAC、使用與PWM相同世界模型的TD-MPC2以及使用真實動力學和獎勵函數的SHAC更高的獎勵。這些結果表明，經過良好正則化的世界模型可以平滑優化空間，從而實現更好的一階梯度優化。

多任務結果

PWM: 基于世界模型的策略學習-AI.x社區

圖中顯示了PWM和TD-MPC2在30個和80個多任務基準測試上的性能，結果基于10個隨機種子。PWM能夠在使用相同世界模型且無需任何形式的在線規劃的情況下勝過TD-MPC2，這使其成為大型世界模型更可擴展的方法。右圖將PWM（多任務策略）與單任務專家SAC和DreamerV3進行了比較。令人印象深刻的是，PWM能夠在多任務情況下與它們的性能相匹配，同時只使用離線數據進行訓練。

譯自（有刪改）：https://www.imgeorgiev.com/pwm

本文轉載自公眾號AIGC最前線

原文鏈接：??https://mp.weixin.qq.com/s/UQqEdQl1YIuwqp-3ytCMpA??

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

強化學習

PWM

贊

回復