成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

世界模型也擴散!訓練出的智能體竟然不錯

人工智能 新聞
來自日內瓦大學、愛丁堡大學、微軟研究院的研究者聯合提出一種在擴散世界模型中訓練的強化學習智能體 —— DIAMOND(DIffusion As a Model Of eNvironment Dreams)。

世界模型提供了一種以安全且樣本高效的方式訓練強化學習智能體的方法。近期,世界模型主要對離散潛在變量序列進行操作來模擬環境動態。

然而,這種壓縮為緊湊離散表征的方式可能會忽略對強化學習很重要的視覺細節。另一方面,擴散模型已成為圖像生成的主要方法,對離散潛在模型提出了挑戰。

受這種范式轉變的推動,來自日內瓦大學、愛丁堡大學、微軟研究院的研究者聯合提出一種在擴散世界模型中訓練的強化學習智能體 —— DIAMOND(DIffusion As a Model Of eNvironment Dreams)。

圖片


  • 論文地址:https://arxiv.org/abs/2405.12399
  • 項目地址:https://github.com/eloialonso/diamond
  • 論文標題:Diffusion for World Modeling: Visual Details Matter in Atari

DIAMOND 在 Atari 100k 基準測試中獲得了 1.46 的平均人類歸一化得分 (HNS),可以媲美完全在世界模型中訓練的智能體的 SOTA 水平。該研究提供了定性分析來說明,DIAMOND 的設計選擇對于確保擴散世界模型的長期高效穩定是必要的。

此外,在圖像空間中操作的好處是使擴散世界模型能夠成為環境的直接替代品,從而提供對世界模型和智能體行為更深入的了解。特別地,該研究發現某些游戲中性能的提高源于對關鍵視覺細節的更好建模。

方法介紹

接下來,本文介紹了 DIAMOND, 這是一種在擴散世界模型中訓練的強化學習智能體。具體來說,研究者基于 2.2 節引入的漂移和擴散系數 f 和 g,這兩個系數對應于一種特定的擴散范式選擇。此外,該研究還選擇了基于 Karras 等人提出的 EDM 公式。

首先定義一個擾動核,圖片,其中,圖片 是一個與擴散時間相關的實值函數,稱為噪聲時間表。這對應于將漂移和擴散系數設為 圖片圖片

接著使用 Karras 等人(2022)引入的網絡預處理,同時參數化公式(5)中的圖片,作為噪聲觀測值和神經網絡圖片 預測值的加權和: 

圖片

得到公式(6)

圖片

其中為了簡潔定義,圖片包含所有條件變量。 

圖片

預處理器的選擇。選擇預處理器圖片圖片,以保持網絡輸入和輸出在任何噪聲水平圖片 下的單位方差。圖片 是噪聲水平的經驗轉換, 圖片 由 圖片 和數據分布的標準差 圖片 給出,公式為圖片

 結合公式 5 和 6,得到圖片訓練目標:

圖片

該研究使用標準的 U-Net 2D 來構建向量場圖片,并保留一個包含過去 L 個觀測和動作的緩沖區,以此來對模型進行條件化。接下來他們將這些過去的觀測按通道方式與下一個帶噪觀測拼接,并通過自適應組歸一化層將動作輸入到 U-Net 的殘差塊中。正如在第 2.3 節和附錄 A 中討論的,有許多可能的采樣方法可以從訓練好的擴散模型中生成下一個觀測。雖然該研究發布的代碼庫支持多種采樣方案,但該研究發現歐拉方法在不需要額外的 NFE(函數評估次數)以及避免了高階采樣器或隨機采樣的不必要復雜性的情況下是有效的。 

實驗

為了全面評估 DIAMOND,該研究使用了公認的 Atari 100k 基準測試,該基準測試包括 26 個游戲,用于測試智能體的廣泛能力。對于每個游戲,智能體只允許在環境中進行 100k 次操作,這大約相當于人類 2 小時的游戲時間,以在評估前學習玩游戲。作為參考,沒有限制的 Atari 智能體通常訓練 5000 萬步,這相當于經驗的 500 倍增加。研究者從頭開始在每個游戲上用 5 個隨機種子訓練 DIAMOND。每次運行大約使用 12GB 的 VRAM,在單個 Nvidia RTX 4090 上大約需要 2.9 天(總計 1.03 個 GPU 年)。 

表 1 比較了在世界模型中訓練智能體的不同得分:

圖片

圖 2 中提供了平均值和 IQM( Interquartile Mean )置信區間:

圖片

結果表明,DIAMOND 在基準測試中表現強勁,超過人類玩家在 11 個游戲中的表現,并達到了 1.46 的 HNS 得分,這是完全在世界模型中訓練的智能體的新紀錄。該研究還發現,DIAMOND 在需要捕捉細節的環境中表現特別出色,例如 Asterix、Breakout 和 Road Runner。

為了研究擴散變量的穩定性,該研究分析了自回歸生成的想象軌跡(imagined trajectory),如下圖 3 所示:

該研究發現有些情況需要迭代求解器將采樣過程驅動到特定模式,如圖 4 所示的拳擊游戲:

圖片

如圖 5 所示,與 IRIS 想象的軌跡相比,DIAMOND 想象的軌跡通常具有更高的視覺質量,并且更符合真實環境。

感興趣的讀者可以閱讀論文原文,了解更多研究內容。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-07-29 12:47:32

2025-06-13 14:27:05

AI模型智能體

2024-11-18 14:35:00

智能體AI

2025-06-03 08:40:00

2022-06-24 14:52:34

AI模型

2023-11-17 08:46:26

2025-04-08 09:30:00

模型AI機器人

2024-08-23 09:00:00

2018-11-20 19:02:39

智慧城市

2023-03-10 15:23:11

2025-06-25 01:00:00

智能體蒸餾AI

2025-04-01 08:05:00

智能體人工智能MCP

2024-07-08 09:49:54

2025-01-13 00:00:00

AI模型訓練

2023-10-25 14:16:00

訓練模型

2025-06-16 14:40:40

模型AI訓練

2017-06-11 21:55:47

深度學習神經網絡模型

2024-03-11 00:20:00

模型論文

2025-06-06 14:17:11

模型訓練AI
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 操操网站 | 激情小说综合网 | 91影院在线观看 | 日韩一区二区福利视频 | 亚洲欧美在线观看 | www97影院| 91久久国产精品 | 国产亚洲高清视频 | 中文字幕电影在线观看 | 午夜男人免费视频 | 久久国产成人精品国产成人亚洲 | 一区二区三区欧美在线 | 国产亚洲一区二区精品 | 久久高清精品 | 久久精品免费 | 免费欧美| 久久久精品一区二区三区四季av | 久久一二 | 欧美 日韩 中文 | 91色视频在线观看 | 国产综合久久 | 欧美激情精品久久久久 | 日韩一级 | 一区二区三区在线电影 | 日本二区在线观看 | 国产精品久久久久久久久免费丝袜 | 中文字字幕一区二区三区四区五区 | jizz中国日本| 午夜爽爽爽男女免费观看 | 久久精品国产免费看久久精品 | 欧美性成人 | 九九久久久久久 | 日本不卡一区二区三区在线观看 | 亚洲永久入口 | 鲁一鲁资源影视 | 日韩精品中文字幕一区二区三区 | 人人澡人人爱 | 蜜桃传媒av | 成人区一区二区三区 | 国产不卡在线观看 | 天天操天天干天天爽 |