成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

驚呆了!訓(xùn)練7萬(wàn)小時(shí)后,OpenAI的模型竟然學(xué)會(huì)在「我的世界」里刨木頭

人工智能 新聞
2022年6月,OpenAI發(fā)表論文稱用「視頻預(yù)訓(xùn)練模型」,讓AI學(xué)會(huì)了在「我的世界」里從頭開始造石鎬。

最近,似乎早已把GPT拋在腦后的OpenAI又整了個(gè)新活。

在經(jīng)過海量無(wú)標(biāo)注視頻以及一點(diǎn)點(diǎn)標(biāo)注過的數(shù)據(jù)訓(xùn)練之后,AI終于學(xué)會(huì)了在「我的世界」(Minecraft)里制作鉆石鎬。

而整套流程需要一個(gè)骨灰級(jí)玩家至少20分鐘的時(shí)間才能完成,總計(jì)要操作24000次。

圖片

這個(gè)東西吧,看似簡(jiǎn)單,但對(duì)AI來(lái)說(shuō)卻非常困難。

7歲小孩看10分鐘就能學(xué)會(huì)

對(duì)于最簡(jiǎn)單的木鎬,讓人類玩家從頭開始學(xué)過程并不太難。

一個(gè)死宅不到3分鐘用單個(gè)視頻就能教會(huì)下一個(gè)。

圖片

演示視頻全長(zhǎng)2分52秒

然而,鉆石鎬的制作就復(fù)雜多了。

不過即便如此,一個(gè)7歲小孩也只需看上十分鐘的演示視頻,就能學(xué)會(huì)了。

圖片

這個(gè)任務(wù)的難點(diǎn),主要在如何挖到鉆石礦。

過程大概可以概括為12個(gè)步驟:先徒手刨下像素塊「木頭」,再由原木合成木塊,木塊制作木棍,木棍制作工坊裝具臺(tái),工臺(tái)造木鎬,木鎬敲石塊,石塊加木棍做石鎬,石鎬打造煉爐,煉爐加工鐵礦,鐵礦熔鑄鐵錠,鐵錠制作鐵鎬,鐵鎬去挖鉆石。

圖片

現(xiàn)在,壓力來(lái)到了AI這邊。

正巧,CMU、OpenAI、DeepMind、Microsoft Research等機(jī)構(gòu)自2019年起,就搞了一個(gè)相關(guān)的比賽——MineRL。

參賽選手需要自研出一個(gè)「自主從零開始打造工具、自動(dòng)尋找并挖掘鉆石礦」的人工智能體,而獲勝條件也很簡(jiǎn)單—最快者勝出。

結(jié)果如何?

在首屆MineRL比賽結(jié)束之后,「7歲小孩看10分鐘視頻就學(xué)會(huì),AI用了8百萬(wàn)步還搞不定」,可是上了Nature雜志的。

數(shù)據(jù)雖多,但我用不上啊

「我的世界」作為沙盒建筑游戲,其玩家策略、游戲內(nèi)虛擬環(huán)境的高開放性,特別適合作為各種AI模型學(xué)習(xí)、決策能力的測(cè)試場(chǎng)和試金石。

而且作為一款「國(guó)民級(jí)」的游戲,想在網(wǎng)上找到和「我的世界」相關(guān)的視頻簡(jiǎn)直易如反掌。

然而,不管是搭建教程,還是炫耀自己的作品,從某種程度上來(lái)說(shuō)都只是在畫面上呈現(xiàn)出的結(jié)果。

圖片

換句話說(shuō),看視頻的人只能知道up主干了個(gè)啥,干的怎么樣,但沒法知道是怎么干的。

更具體點(diǎn),電腦屏幕上呈現(xiàn)出來(lái)的只是結(jié)果,而操作步驟是up主在鍵盤上的不停點(diǎn)擊,以及鼠標(biāo)的不停移動(dòng),這部分是看不到的。

甚至,連這個(gè)過程都是經(jīng)過剪輯的,人看了估計(jì)都學(xué)不會(huì),更別說(shuō)AI了。

雪上加霜的是,不少玩家抱怨在游戲里刨木頭的枯燥度,太像做作業(yè)完成任務(wù)。結(jié)果一波更新之后,有不少工具可以直接白撿……這下,連數(shù)據(jù)都不好找了。

而OpenAI想要讓AI學(xué)會(huì)玩兒「我的世界」,就必須找到一個(gè)辦法,能夠讓這些海量的未標(biāo)注的視頻數(shù)據(jù)派上用場(chǎng)。

視頻預(yù)訓(xùn)練模型——VPT

于是,VPT應(yīng)運(yùn)而出。

圖片

論文地址:https://cdn.openai.com/vpt/Paper.pdf

這東西說(shuō)新也新,但是卻并不復(fù)雜,是一種半監(jiān)督式的模仿學(xué)習(xí)方法。

首先,收集一波數(shù)據(jù)標(biāo)注外包們玩游戲的數(shù)據(jù),其中包含視頻和鍵鼠操作的記錄。

圖片

VPT方法概述

然后,研究人員用這些數(shù)據(jù)搞了個(gè)逆動(dòng)力學(xué)模型(inverse dynamics model,IDM),可以推測(cè)出視頻中每一步進(jìn)行的時(shí)候,鍵鼠都是怎么動(dòng)的。

這樣一來(lái),整個(gè)任務(wù)就變得簡(jiǎn)單多了,只需要比原來(lái)少很多的數(shù)據(jù)就可以實(shí)現(xiàn)目的。

用一小撮外包數(shù)據(jù)搞完IDM之后,就可以用IDM接下來(lái)標(biāo)注更大規(guī)模的無(wú)標(biāo)記數(shù)據(jù)集了。

圖片

基礎(chǔ)模型訓(xùn)練數(shù)據(jù)對(duì)微調(diào)的影響

在訓(xùn)練了70000個(gè)小時(shí)以后,OpenAI的行為克隆模型就能實(shí)現(xiàn)各種別的模型做不到的工作了。

模型學(xué)會(huì)了怎么砍樹收集木頭,怎么用木頭做木條,怎么用木條做桌子。而這一套事兒需要一個(gè)比較熟練的玩家操作小50秒的時(shí)間。

圖片

除了做桌子,模型還能游泳,打獵,吃東西。

甚至還有「跑跳搭」的騷操作,也就是起跳的時(shí)候腳下放個(gè)磚塊或者木塊,跳著跳著就能搭個(gè)柱子。這屬于是骨灰級(jí)玩家的必修課了。

圖片

制作桌子(0 shot)

圖片

打獵(0 shot)

圖片

「跑跳搭」簡(jiǎn)陋版(0 shot)

而為了讓模型能完成一些更精細(xì)的任務(wù),一般還會(huì)把數(shù)據(jù)集微調(diào)成更小的規(guī)模,區(qū)分細(xì)小的方向。

OpenAI做了一項(xiàng)研究,展示了用VPT訓(xùn)練過的模型,再經(jīng)過了微調(diào)之后,有多適應(yīng)下游的數(shù)據(jù)集。

研究人員邀請(qǐng)人玩兒了10分鐘的「我的世界」,用基礎(chǔ)材料搭了個(gè)房子。他們希望通過這種方式可以加強(qiáng)模型執(zhí)行一些游戲初期的任務(wù)的能力,比如說(shuō)搭一個(gè)工作臺(tái)。

當(dāng)對(duì)該數(shù)據(jù)集進(jìn)行完微調(diào)以后,研究人員不僅發(fā)現(xiàn)模型在執(zhí)行初期任務(wù)時(shí)更加得心應(yīng)手,還發(fā)現(xiàn)模型自個(gè)兒研究明白了怎么分別做出一張木制的工作臺(tái),和一張石制的工具臺(tái)。

有時(shí)候,研究人員還能看到模型自己搭建簡(jiǎn)陋的避難所,搜查村子,還有搶箱子。

圖片

制作一把石鎬的全過程(下方標(biāo)注的時(shí)間是一名熟練玩家執(zhí)行同樣的任務(wù)的耗時(shí))

圖片

制作石鎬

然后我們來(lái)看看,OpenAI的專家們是怎么進(jìn)行的微調(diào)。

他們使用的辦法是,強(qiáng)化學(xué)習(xí)(RL)。

大多數(shù)RL方法通過隨機(jī)探索先驗(yàn)來(lái)解決這些挑戰(zhàn),例如模型通常被激勵(lì)通過熵獎(jiǎng)勵(lì)隨機(jī)行動(dòng)。VPT 模型應(yīng)該是RL更好的先驗(yàn)?zāi)P停驗(yàn)槟M人類行為可能比采取隨機(jī)行動(dòng)更有幫助。

研究人員將模型設(shè)置為收集鉆石鎬這類艱巨任務(wù),這是「我的世界」中前所未有的功能,因?yàn)閳?zhí)行整個(gè)任務(wù)時(shí)使用本機(jī)人機(jī)界面時(shí)會(huì)變得更加困難。

制作鉆石鎬需要一系列漫長(zhǎng)而復(fù)雜的子任務(wù)。為了使這項(xiàng)任務(wù)易于處理,研究人員為序列中的每個(gè)項(xiàng)目獎(jiǎng)勵(lì)智能體。

圖片

他們發(fā)現(xiàn),從隨機(jī)初始化(標(biāo)準(zhǔn)RL方法)訓(xùn)練的RL策略幾乎沒有獲得任何獎(jiǎng)勵(lì),從不學(xué)習(xí)收集日志,而且很少收集木棍。

與之形成鮮明對(duì)比的是,VPT模型的微調(diào)不僅可以學(xué)習(xí)如何制作鉆石鎬,而且在收集所有物品方面的成功率,甚至達(dá)到人類水平。

而這是第一次有人展示能夠在「我的世界」中制作鉆石工具的計(jì)算機(jī)模型。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2020-04-02 07:31:53

RPC超時(shí)服務(wù)端

2021-07-05 18:05:40

SpringBean方法

2015-06-24 16:09:54

Easy Connec深信服

2024-05-24 08:42:29

智能體訓(xùn)練

2021-09-30 08:40:28

Oracle數(shù)據(jù)庫(kù)后端開發(fā)

2020-01-06 09:14:59

Java程序員線程

2022-11-27 12:58:50

2020-10-31 09:06:37

C語(yǔ)言編程語(yǔ)言

2021-03-17 11:47:37

tomcatJavaServerJava

2012-05-16 09:53:56

2023-11-20 16:02:34

ChatGPT人工智能OpenAI

2022-11-26 21:34:08

Python可視化世界杯

2022-07-12 16:46:45

DeepMindAIAlphaFold?

2013-08-09 10:37:31

代碼數(shù)據(jù)

2016-12-21 12:19:57

AR廣告奧迪

2021-11-02 11:31:47

Go代碼模式

2021-12-13 22:52:37

iphone iOSHTML

2024-02-19 08:31:10

SoraAIOpenAI

2015-05-19 14:30:48

加密視頻加密億賽通

2024-07-05 11:47:43

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 欧美日韩一区二区在线 | 天天躁人人躁人人躁狂躁 | 高清黄色毛片 | 精品免费视频 | 99视频在线免费观看 | 免费观看毛片 | 亚洲精品视频免费看 | 国产精品视频一区二区三区四区国 | 欧美久久久久久 | 亚洲精品免费观看 | 久国产视频 | 中文字幕第十五页 | 97国产精品视频 | 国产亚洲一区二区三区 | 一道本一区二区 | 麻豆久久久久久久久久 | 亚洲精品免费在线观看 | a网站在线观看 | 91成人影院 | 欧美综合一区二区三区 | 毛片一区二区 | 国产网站在线 | 一级做a爰片久久毛片 | 久久久精品一区二区三区 | 国产高清在线精品 | 久久国产成人午夜av影院武则天 | 久久亚洲一区二区 | 精品国产乱码久久久久久丨区2区 | 一级黄色夫妻生活 | 激情欧美日韩一区二区 | 日韩欧美一级片 | 黄色免费在线观看网站 | 精品欧美一区二区精品久久久 | 亚洲一区二区三区在线免费 | 国产精品国产三级国产aⅴ无密码 | 久国久产久精永久网页 | 超碰人人插 | 午夜在线小视频 | 日韩中文字幕一区二区 | 精品视频一区二区三区四区 | 久久精品久久综合 |