成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

單GPU運(yùn)行數(shù)千環(huán)境、800萬(wàn)步模擬只需3秒,斯坦福開(kāi)發(fā)超強(qiáng)游戲引擎

人工智能 新聞
本文,來(lái)自斯坦福大學(xué)等機(jī)構(gòu)的研究者,他們提出了一個(gè)名為 Madrona 的強(qiáng)化學(xué)習(xí)游戲引擎,可以在單個(gè) GPU 上并行運(yùn)行數(shù)千個(gè)環(huán)境,將智能體的訓(xùn)練時(shí)間從幾小時(shí)縮減到幾分鐘。

現(xiàn)階段,AI 智能體仿佛無(wú)所不能,玩游戲、模仿人類(lèi)完成各種任務(wù),而這些智能體基本是在復(fù)雜環(huán)境中訓(xùn)練而成的。不僅如此,隨著學(xué)習(xí)任務(wù)變得越來(lái)越復(fù)雜,模擬環(huán)境的復(fù)雜性也隨之增加,從而增加了模擬環(huán)境的成本。

即使擁有超級(jí)計(jì)算規(guī)模資源的公司和機(jī)構(gòu),訓(xùn)練好一個(gè)可用的智能體也可能需要數(shù)天的時(shí)間才能完成。

這阻礙了該領(lǐng)域的進(jìn)展,降低了訓(xùn)練先進(jìn) AI 智能體的實(shí)用性。為了解決環(huán)境模擬的高成本問(wèn)題,最近的研究努力從根本上重新設(shè)計(jì)模擬器,以在訓(xùn)練智能體時(shí)實(shí)現(xiàn)更高的效率。這些工作共享批量模擬的思想,即在單個(gè)模擬器引擎內(nèi)同時(shí)執(zhí)行許多獨(dú)立的環(huán)境(訓(xùn)練實(shí)例)。

本文,來(lái)自斯坦福大學(xué)等機(jī)構(gòu)的研究者,他們提出了一個(gè)名為 Madrona 的強(qiáng)化學(xué)習(xí)游戲引擎,可以在單個(gè) GPU 上并行運(yùn)行數(shù)千個(gè)環(huán)境,將智能體的訓(xùn)練時(shí)間從幾小時(shí)縮減到幾分鐘

圖片

  • 論文地址:https://madrona-engine.github.io/shacklett_siggraph23.pdf
  • 論文主頁(yè):https://madrona-engine.github.io/

具體而言,Madrona 是一款研究型游戲引擎,專(zhuān)為創(chuàng)建學(xué)習(xí)環(huán)境而設(shè)計(jì),可以在單個(gè) GPU 上同時(shí)運(yùn)行數(shù)千個(gè)環(huán)境實(shí)例,并且以極高的吞吐量(每秒數(shù)百萬(wàn)個(gè)聚合步驟)執(zhí)行。Madrona 的目標(biāo)是讓研究人員更輕松地為各種任務(wù)創(chuàng)建新的高性能環(huán)境,從而使 AI 智能體訓(xùn)練的速度提高幾個(gè)數(shù)量級(jí)。

Madrona 具有以下特點(diǎn):

  • GPU 批量模擬:?jiǎn)蝹€(gè) GPU 上可運(yùn)行數(shù)千個(gè)環(huán)境;
  • 實(shí)體組件系統(tǒng) (ECS) 架構(gòu);
  • 可與 PyTorch 輕松互操作。

圖片

Madrona 環(huán)境示例:

圖片

上面我們已經(jīng)提到,該研究利用了 ECS 設(shè)計(jì)原則,其具體過(guò)程如下:

圖片

研究者借助 Madrona 框架,實(shí)現(xiàn)了多個(gè)學(xué)習(xí)環(huán)境,結(jié)果表明,相較于開(kāi)源 CPU 基線,GPU 的速度提升達(dá)到了兩到三個(gè)數(shù)量級(jí),相較于在 32 線程 CPU 上運(yùn)行的強(qiáng)基線,速度提升為 5-33 倍。此外,該研究還在該框架中實(shí)現(xiàn)了 OpenAI 的「hide and seek 3D」環(huán)境,每個(gè)模擬步驟都執(zhí)行剛體物理學(xué)和光線追蹤,在單個(gè) GPU 上實(shí)現(xiàn)了每秒超過(guò) 190 萬(wàn)個(gè) step 速度。

作者之一、斯坦福大學(xué)計(jì)算機(jī)科學(xué)副教授 Kayvon Fatahalian 表示,在一款讓多個(gè)智能體玩烹飪游戲 Overcooked 上,借助 Madrona 游戲引擎,模擬 800 萬(wàn)個(gè)環(huán)境步驟的時(shí)間從一小時(shí)縮短到三秒。

圖片

目前,Madrona 需要使用 C++ 來(lái)編寫(xiě)游戲邏輯。Madrona 僅提供了可視化渲染支持,雖然它可以同時(shí)模擬數(shù)千個(gè)環(huán)境,但可視化器一次只能查看一個(gè)環(huán)境。

基于 Madrona 搭建的環(huán)境模擬器有哪些?

Madrona 本身不是一個(gè) RL 環(huán)境模擬器,而是一個(gè)游戲引擎或框架。開(kāi)發(fā)者借助它可以更容易地實(shí)現(xiàn)自己的新的環(huán)境模擬器,從而通過(guò)在 GPU 上運(yùn)行批次模擬并將模擬輸出與學(xué)習(xí)代碼緊密結(jié)合來(lái)實(shí)現(xiàn)高性能。

下面是基于 Madrona 搭建的一些環(huán)境模擬器。

Madrona Escape Room

Madrona Escape Room 是一個(gè)簡(jiǎn)單的 3D 環(huán)境,使用了 Madrona 的 ECS API 以及物理和渲染功能。在這個(gè)簡(jiǎn)單任務(wù)中,智能體必須學(xué)習(xí)按下紅色按鈕并推動(dòng)其他顏色的箱子以通過(guò)一系列房間。

圖片

Overcooked AI

Overcooked AI 環(huán)境是一個(gè)基于協(xié)作電子游戲的多智能體學(xué)習(xí)環(huán)境(多人協(xié)作烹飪游戲),這里對(duì)它進(jìn)行了高通量 Madrona 重寫(xiě)。

圖片圖源:https://store.epicgames.com/zh-CN/p/overcooked

Hide and Seek

2019 年 9 月,OpenAI 智能體上演了捉迷藏大戰(zhàn),自創(chuàng)套路與反套路。這里使用 Madrona 對(duì)「Hide and Seek」環(huán)境進(jìn)行了復(fù)現(xiàn)。

圖片

Hanabi

Hanabi 是一個(gè)基于 Madrona 游戲引擎的 Hanabi 紙牌游戲的實(shí)現(xiàn),也是一個(gè)協(xié)作式 Dec-POMDP。該環(huán)境基于 DeepMind 的 Hanabi 環(huán)境,并支持部分 MAPPO 實(shí)現(xiàn)。

圖片

Cartpole

Cartpole 是一個(gè)典型的 RL 訓(xùn)練環(huán)境,它與構(gòu)建在 Madrona 游戲引擎之上的 gym 實(shí)現(xiàn)有相同的動(dòng)力學(xué)。

GitHub 地址:https://github.com/shacklettbp/madrona

Overcooked 烹飪游戲:一分鐘內(nèi)訓(xùn)練最佳智能體

Overcooked in Thousands of Kitchens: Training Top Performing Agents in Under a Minute

論文作者之一、斯坦福大學(xué)本科生 Bidipta Sarkar 撰寫(xiě)博客詳細(xì)介紹了訓(xùn)練智能體玩 Overcooked 烹飪游戲的過(guò)程。Overcooked 是一款流行的烹飪游戲, 也可以作為協(xié)作多智能體研究的基準(zhǔn)。

圖片

在 Sarkar 的 RL 研究中,模擬虛擬環(huán)境的高成本對(duì)他來(lái)說(shuō)始終是訓(xùn)練智能體的一大障礙。

就 Overcooked 烹飪游戲而言,大約需要 800 萬(wàn)步的游戲經(jīng)驗(yàn),才能訓(xùn)練一對(duì)在 Overcooked 狹窄房間布局(下圖)中收斂到穩(wěn)定均衡策略的智能體。Overcooked 的開(kāi)源實(shí)現(xiàn)使用 Python 編寫(xiě),在 8 核 AMD CPU 上每秒運(yùn)行 2000 步,因此生成必要的智能體經(jīng)驗(yàn)需要花費(fèi) 1 個(gè)小時(shí)以上。

圖片

相比之下,在英偉達(dá) A40 GPU 上執(zhí)行訓(xùn)練所需的所有其他操作(包括所有 800 萬(wàn)個(gè)模擬步驟的策略推理、策略訓(xùn)練的反向傳播)僅需不到 1 分鐘的時(shí)間。很顯然,訓(xùn)練 Overcooked 智能體受限于 Overcooked 環(huán)境模擬器的速度。

考慮到 Overcooked 是一個(gè)簡(jiǎn)單的環(huán)境,讓模擬速度難住似乎很愚蠢。因此 Sarkar 試著看看 Overcooked 環(huán)境模擬的速度是否可以提升,這就需要用到 Madrona 游戲引擎。

利用 Madrona 游戲引擎,Sarkar 得到了一個(gè)原始 Overcooked Python 實(shí)現(xiàn)的即插即用的 GPU 加速版替代。當(dāng)并行模擬 1000 個(gè) Overcooked 環(huán)境時(shí),GPU 加速后的實(shí)現(xiàn)在 A40 GPU 上每秒可以生成 350 萬(wàn)步經(jīng)驗(yàn)。

作為結(jié)果,模擬 800 萬(wàn)個(gè)環(huán)境步驟的時(shí)間從 1 小時(shí)縮短至了 3 秒,從而可以使用 A40 GPU 在短短 1 分鐘內(nèi)訓(xùn)練一個(gè)策略。

該模擬器的速度為在 Overcooked 中執(zhí)行廣泛的超參數(shù)掃描打開(kāi)了新的可能性,尤其是在以往訓(xùn)練單個(gè)策略所需的時(shí)間內(nèi)有了訓(xùn)練多個(gè)策略的可能。

最后,Sarkar 意識(shí)到與創(chuàng)建 GPU 加速環(huán)境的現(xiàn)有替代方案(如 PyTorch、Taichi Lang、Direct CUDA C++)相比,將 Overcooked 移植到 Madrona 的過(guò)程更加地順利。

博客詳情:https://bsarkar321.github.io/blog/overcooked_madrona/index.html

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器學(xué)習(xí)
相關(guān)推薦

2023-11-15 13:40:00

訓(xùn)練數(shù)據(jù)

2009-07-24 18:03:44

2025-06-03 17:40:30

AIDeepSeekOpenAI

2012-03-21 21:38:27

蘋(píng)果

2009-05-19 09:06:41

Apple斯坦福iPhone

2013-01-31 09:45:14

斯坦福超級(jí)電腦百萬(wàn)內(nèi)核

2019-12-16 14:33:01

AI人工智能斯坦福

2024-05-13 12:58:30

2020-10-12 18:21:22

LinuxPython命令

2024-06-06 16:16:00

2023-02-20 15:20:58

斯坦福論文

2024-09-26 10:23:46

2025-01-17 10:26:19

模型開(kāi)發(fā)ChatGPT

2025-05-30 09:12:00

2018-12-17 11:06:34

華為云

2017-11-28 14:18:29

2011-07-18 11:23:29

iPhone 游戲 動(dòng)畫(huà)

2018-12-03 09:35:26

互聯(lián)網(wǎng)

2016-09-27 16:06:48

2023-12-26 14:56:59

模型訓(xùn)練
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 日韩一区二区三区在线观看 | 亚洲高清在线视频 | 日韩欧美在线视频 | 国产欧美日韩在线观看 | 亚洲欧美国产一区二区三区 | 丝袜 亚洲 另类 欧美 综合 | 伊人一二三 | 综合久久久 | 午夜黄色影院 | 欧美二区在线 | 99成人免费视频 | 激情欧美日韩一区二区 | 91av在线视频观看 | 国产日韩亚洲欧美 | 中文字幕日韩在线 | 毛片大全| 中国美女一级黄色片 | 精品一区二区三区免费视频 | 免费黄网站在线观看 | 国产精品久久久久久久久免费 | 中文字幕精品一区二区三区精品 | 古典武侠第一页久久777 | 中文字幕福利视频 | 亚洲综合二区 | 亚洲九色 | 久久国内| 一区二区在线不卡 | 91看片官网 | 成人aaa视频 | 久久国产精品久久久久久久久久 | 国产精品一区一区 | 免费1区2区3区 | 久草影视在线 | 免费久久99精品国产婷婷六月 | 一级视频在线免费观看 | 在线午夜| 久久人| 一区二区国产精品 | 我想看一级黄色毛片 | 亚洲国产精品一区二区三区 | 精品国产乱码久久久久久中文 |