成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

PWM: 基于世界模型的策略學習 原創

發布于 2024-7-8 08:01
瀏覽
0收藏

強化學習(RL)在復雜任務上取得了令人矚目的成果,但在具有不同實施方式的多任務設置中存在困難。世界模型通過學習環境的模擬來提供可伸縮性,但它們通常依賴于低效的無梯度優化方法。近日,佐治亞理工學者聯合英偉達、加州大學圣地亞哥分校等學者提出了基于大世界模型的策略學習(PWM),這是一種新穎的基于模型的RL算法,它從大型多任務世界模型中學習連續控制策略。通過對離線數據進行世界模型的預訓練,并將其用于一階梯度策略學習,PWM有效地解決了具有多達152個動作維度的任務,并且勝過使用真實動力學的方法。此外,PWM在80個任務設置中進行了擴展,相比于現有基準方法,其獎勵提高了高達27%,而無需昂貴的在線規劃。

PWM: 基于世界模型的策略學習-AI.x社區

方法概述

PWM是一種新穎的基于模型的RL(MBRL)算法和框架,旨在從大型多任務世界模型中得出有效的連續控制策略。利用預訓練的TD-MPC2世界模型,在每個任務中以小于10分鐘的時間高效地學習控制策略。對復雜的運動任務進行的實證評估表明,PWM不僅在獎勵上超過了基準方法,還勝過了使用真實模擬動力學的方法。

PWM的預告結果

PWM: 基于世界模型的策略學習-AI.x社區


對高維連續控制任務上的PWM進行評估(左圖),發現它不僅勝過了無模型的基準方法SAC和PPO,還在獎勵上超過了直接使用模擬器動力學和獎勵函數的SHAC方法。在一個包含80個任務的設置中(右圖),使用了一個龐大的4800萬參數的世界模型,PWM能夠持續勝過使用相同世界模型的TD-MPC2方法,而無需在線規劃。

單任務結果

PWM: 基于世界模型的策略學習-AI.x社區

圖中顯示了50%的IQM(實線)、均值(虛線)和所有5個任務和5個隨機種子的95%置信區間。PWM能夠獲得比無模型的基準方法PPO和SAC、使用與PWM相同世界模型的TD-MPC2以及使用真實動力學和獎勵函數的SHAC更高的獎勵。這些結果表明,經過良好正則化的世界模型可以平滑優化空間,從而實現更好的一階梯度優化。

多任務結果

PWM: 基于世界模型的策略學習-AI.x社區

圖中顯示了PWM和TD-MPC2在30個和80個多任務基準測試上的性能,結果基于10個隨機種子。PWM能夠在使用相同世界模型且無需任何形式的在線規劃的情況下勝過TD-MPC2,這使其成為大型世界模型更可擴展的方法。右圖將PWM(多任務策略)與單任務專家SAC和DreamerV3進行了比較。令人印象深刻的是,PWM能夠在多任務情況下與它們的性能相匹配,同時只使用離線數據進行訓練。

譯自(有刪改):https://www.imgeorgiev.com/pwm


本文轉載自公眾號AIGC最前線   

原文鏈接:??https://mp.weixin.qq.com/s/UQqEdQl1YIuwqp-3ytCMpA??



?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 伊人春色在线 | 国产人成在线观看 | 久久久www | 午夜免费网站 | 91国产精品在线 | 亚洲日日夜夜 | 狠狠躁躁夜夜躁波多野结依 | 免费特级黄毛片 | 日韩欧美手机在线 | 中文字幕在线观看视频一区 | 在线免费观看a级片 | 欧美一区二区三区一在线观看 | 日韩在线精品视频 | 亚洲激情av | 精品国产欧美在线 | 日韩av电影在线观看 | 亚洲精品视频在线观看免费 | 亚洲不卡| 2019天天干夜夜操 | 色欧美片视频在线观看 | 亚洲精久久 | 99re在线免费视频 | 久久久夜 | 91精品在线播放 | 久久99深爱久久99精品 | 九九色综合 | 成人免费毛片在线观看 | 久久看精品 | 国产美女高潮 | 欧美午夜精品 | 麻豆va | 欧美国产激情二区三区 | www国产精品 | 作爱视频免费看 | 亚洲日日 | 狠狠色狠狠色综合日日92 | 精品国产精品国产偷麻豆 | 四虎影音| 一区二区三区在线播放 | 欧美另类视频在线 | 久久国产精品无码网站 |