成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

2000 億次開放學(xué)習(xí)后,DeepMind 的智能體“成精”了

新聞 人工智能
為了讓 AI 更加多才多藝、舉一反三,他們專門給智能體打造了一個包含了數(shù)十億游戲任務(wù)的“元宇宙”XLand:讓智能體在不斷擴展、升級的開放世界中通過上億次的訓(xùn)練練就了不俗的泛化能力。

[[415688]]

本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

有這樣一批智能體,在完全沒有見過的游戲任務(wù)里,也學(xué)會了游刃有余地解決目標。

譬如面對下面這樣一個高地,它們要取到上面的紫色金字塔。

[[415689]]

沒有跳躍功能的它們,看似開始“焦躁”地亂扔起東西來,實則其中一塊板子正好被“扔”成了樓梯,這不就巧了,目標完成!

[[415690]]

你可能會說這只是“瞎貓撞死耗子”罷了,但多次實驗發(fā)現(xiàn),該智能體可以復(fù)現(xiàn)該方法的!

[[415691]]

而且它還會不止一種方法,“我不上去,你下來”—— 直接借助板子把目標扒拉下來了!

[[415692]]

這也行?

而這些成精了的智能體來自 DeepMind。

現(xiàn)在,為了讓 AI 更加多才多藝、舉一反三,他們專門給智能體打造了一個包含了數(shù)十億游戲任務(wù)的“元宇宙”XLand:讓智能體在不斷擴展、升級的開放世界中通過上億次的訓(xùn)練練就了不俗的泛化能力。

最終效果就像前面看到的,無需在新游戲中從頭訓(xùn)練,它們就能自主解決任務(wù)!

DeepMind 也因此發(fā)表了一篇論文,就叫做:《從開放學(xué)習(xí)走出來的通用智能體》。

如何做到的呢?

“元宇宙”XLand

最功不可沒之一的就是這個龐大的“元宇宙”模擬空間。

這是一個“游戲星系”,里面有無數(shù)個“游戲星球”,每個星球上的游戲按競爭性、平衡性、可選項、探索難度四個緯度進行區(qū)分。

比如圖左上介紹的“搶方塊”游戲:藍色智能體需要把黃色的立方體放到白色區(qū)域,紅色智能體需要把同一個立方體放在藍色區(qū)域。

啊想想就頭大,所以這個游戲的競爭性值都拉滿了,而由于雙方的條件/目標都一樣,所以平衡性值也很高,因為需要定位目標區(qū)域,所以探索難度并不小。

再比如圖右上的“將球體和立方體配對”:藍色/紅色智能體要將幾何體按顏色歸類到一起,完成任意一組配對就行。這個游戲的可選性值就拉滿了,但競爭性就沒那么強。

ps. 藍色游戲代表是完全競爭性的,粉色為完全合作性的。

不管是哪種游戲任務(wù),這批智能體都從最簡單的開始(比如僅“靠近紫色立方體”這種),一步步解鎖復(fù)雜度升級的游戲(比如和另一個智能體“捉迷藏”),其中每一項游戲都有獎勵,智能體們的目標就是將拿到的獎勵最大化。

而智能體“玩家”們是通過閱讀收到的目標的文字描述、觀察 RGB 圖像來感知周圍環(huán)境來完成任務(wù)。

生成的新任務(wù)要基于舊任務(wù),且難度要剛剛好

除了上面這個開放式的學(xué)習(xí)環(huán)境,訓(xùn)練方法也很重要。

研究人員使用的神經(jīng)網(wǎng)絡(luò)訓(xùn)練架構(gòu)提供了一種針對智能體內(nèi)部循環(huán)狀態(tài)的注意力機制 —— 通過估計所玩游戲的子目標,來持續(xù)引導(dǎo)智能體的注意力。

這種策略讓智能體學(xué)習(xí)到更具普遍能力的策略。

還有一個問題:如此廣闊的游戲環(huán)境,什么樣的游戲任務(wù)分布能產(chǎn)出最善于泛化的智能體呢?

研究人員通過持續(xù)調(diào)整每個智能體的游戲分布發(fā)現(xiàn),每個新任務(wù)都要基于通關(guān)的舊任務(wù)生成,不能太難,也不能太容易。

這個也基本符合一般認知。

它們先經(jīng)歷了四次迭代:

每個任務(wù)由多個智能體參與競爭,在舊任務(wù)上適應(yīng)得好的智能體,會帶著權(quán)重、瞬時任務(wù)分布、超參數(shù)等參與到新一輪任務(wù)中繼續(xù)學(xué)習(xí)。此時也會加入新的智能體讓競爭“活”起來。

智能體表現(xiàn)出明顯的零樣本學(xué)習(xí)能力

最后生成的第五代智能體,在 XLand 4000 多個“星球”里玩了大約 70 萬個游戲,每一個智能體都經(jīng)歷了 2000 億次訓(xùn)練,完成了 340 萬個獨特任務(wù)。

到了這個時候,這些智能體已經(jīng)能夠順利完成每一項評估任務(wù)(除了少數(shù)即使是人類也不可能完成的)。

整個實驗也最終表明,通過開發(fā)像 XLand 這樣的環(huán)境和這樣開放式地訓(xùn)練方法,一些基于 RL 的智能體已表現(xiàn)出明顯的零樣本學(xué)習(xí)能力 (0-shot)。

比如使用工具、打攔(ridge-fencing)、“捉迷藏”、找立方體、數(shù)數(shù)、合作或競爭等。

研究人員也觀察到智能體們面對新任務(wù)時不知道“什么是最好的解決辦法”,但它們會不斷地試驗直到達到目標。

這個過程中出現(xiàn)的有趣的”緊急啟發(fā)式行為”,除了開頭提到的搭梯子,還有這個臨時更換更簡易目標的例子 ——

在一個游戲中該智能體需要從 3 個目標中任選一個完成:

1、將黑色金字塔放到黃色球體旁邊;

2、將紫色球體放到黃色金字塔旁邊;

3、將黑色金字塔放到橙色區(qū)域。

它一開始找到了一個黑色金字塔,想去完成目標 3,但在搬運過程中看到了黃色球體,于是它就在 1 秒內(nèi)改變了主意,選擇直接將金字塔放在黃色球體旁邊完成目標 1。(整個過程一共耗時 6 秒)

[[415693]]

最后,看完了 DeepMind 的研究,再拋給大家一個問題:我們離真正的通用人工智能還有多遠?

(ps. 你發(fā)現(xiàn)了嗎,文章最開頭高臺取金字塔任務(wù)中的小紅智障體就不行,一直打轉(zhuǎn),面對小藍搭好的梯子甚至直接毀掉)

論文地址:

https://arxiv.org/abs/2107.12808

 

 

責任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-08-07 14:50:00

2021-09-10 16:31:56

人工智能機器學(xué)習(xí)技術(shù)

2018-12-10 14:35:24

戴爾

2021-10-11 17:15:30

AI 數(shù)據(jù)人工智能

2020-06-05 14:49:51

強化學(xué)習(xí)算法框架

2012-04-17 10:05:45

Foursquare簽到

2024-03-14 11:55:21

2023-07-21 14:58:05

智能開發(fā)

2023-07-29 16:01:15

智能體模型任務(wù)

2025-05-20 08:00:45

2021-06-25 15:36:37

框架AI開發(fā)

2025-03-10 13:08:37

2019-08-29 10:46:42

2020-10-28 10:05:00

AI 數(shù)據(jù)人工智能

2019-06-17 16:40:16

NVIDIA CUDAARM架構(gòu)

2025-05-09 09:38:27

2022-02-24 13:59:59

AI智能體研究

2023-04-28 15:34:51

AIDeepMind

2025-06-10 09:28:31

智能體開發(fā)工具
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 国产高清久久久 | 一级黄色av电影 | 色999日韩| 国产福利在线小视频 | 亚洲综合在线视频 | 成人精品一区二区三区 | 超碰97人人人人人蜜桃 | 中文字幕成人在线 | 成人久久久久久久久 | 成人深夜福利在线观看 | 亚洲日日夜夜 | 天天色天天色 | 日本欧美在线视频 | 亚洲色图综合 | 精品视频免费在线 | 91精品国产综合久久久久蜜臀 | 色综合一区二区 | 北条麻妃av一区二区三区 | 久久精品一区 | 色久五月 | 九色国产| 欧美三区在线观看 | 四季久久免费一区二区三区四区 | 国内精品视频一区二区三区 | 亚洲a网 | cao视频 | 国产十日韩十欧美 | 中文字幕乱码一区二区三区 | 欧美一区二区三区,视频 | 成人天堂 | 日韩av三区 | 一本久久a久久精品亚洲 | 免费观看一级特黄欧美大片 | 国产三区av | 九九激情视频 | 国产精品91久久久久久 | 五月天国产 | 欧美福利 | 亚洲精品视频免费 | 国产精品夜夜夜一区二区三区尤 | 久久这里有精品 |