成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

碾壓99.8%人類對手,星際AI登上Nature,技術(shù)首次完整披露

新聞 人工智能
AlphaStar,已經(jīng)超越了99.8%的人類玩家,在神族、人族和蟲族三個種族上都達(dá)到了宗師(Grandmaster)級別。

 僅剩0.2%的星際2玩家,還沒有被AI碾壓。

這是匿名混入天梯的AlphaStar,交出的最新成績單。

同時,DeepMind也在Nature上完整披露了AlphaStar的當(dāng)前戰(zhàn)力和全套技術(shù):

AlphaStar,已經(jīng)超越了99.8%的人類玩家,在神族、人族和蟲族三個種族上都達(dá)到了宗師(Grandmaster)級別。

碾压99.8%人类对手,三种族都达宗师级!星际AI登上Nature,技术首次完整披露

在論文里,我們還發(fā)現(xiàn)了特別的訓(xùn)練姿勢:

不是所有智能體都為了贏

DeepMind在博客里說,發(fā)表在Nature上的AlphaStar有四大主要更新:

一是約束:現(xiàn)在AI視角和人類一樣,動作頻率的限制也更嚴(yán)了。

二是人族神族蟲族都能1v1了,每個種族都是一個自己的神經(jīng)網(wǎng)絡(luò)。

三是聯(lián)賽訓(xùn)練完全是自動的,是從監(jiān)督學(xué)習(xí)的智能體開始訓(xùn)練的,不是從已經(jīng)強(qiáng)化學(xué)習(xí)過的智能體開始的。

四是戰(zhàn)網(wǎng)成績,AlphaStar在三個種族中都達(dá)到了宗師水平,用的是和人類選手一樣的地圖,所有比賽都有回放可看。

具體到AI的學(xué)習(xí)過程,DeepMind強(qiáng)調(diào)了特別的訓(xùn)練目標(biāo)設(shè)定:

不是每個智能體都追求贏面的最大化。

碾压99.8%人类对手,三种族都达宗师级!星际AI登上Nature,技术首次完整披露

因?yàn)槟菢又悄荏w在自我對戰(zhàn) (Self-Play) 過程中,很容易陷入某種特定的策略,只在特定的情況下有效,那面對復(fù)雜的游戲環(huán)境時,表現(xiàn)就會不穩(wěn)定了。

于是,團(tuán)隊(duì)參考了人類選手的訓(xùn)練方法,就是和其他玩家一起做針對性訓(xùn)練:一只智能體可以通過自身的操作,把另一只智能體的缺陷暴露出來,這樣便能幫對方練出某些想要的技能。

這樣便有了目標(biāo)不同的智能體:第一種是主要智能體,目標(biāo)就是贏,第二種負(fù)責(zé)挖掘主要智能體的不足,幫它們變得更強(qiáng),而不專注于提升自己的贏率。DeepMind把第二種稱作“剝削者 (Exploiter) ”,我們索性叫它“陪練”。

AlphaStar學(xué)到的各種復(fù)雜策略,都是在這樣的過程中修煉得來的。

比如,藍(lán)色是主要玩家,負(fù)責(zé)贏,紅色是幫它成長的陪練。小紅發(fā)現(xiàn)了一種cannon rush技能,小藍(lán)沒能抵擋住:

[[280921]]

然后,一只新的主要玩家 (小綠) 就學(xué)到了,怎樣才能成功抵御小紅的cannon rush技能:

[[280922]]

同時,小綠也能打敗之前的主要玩家小藍(lán)了,是通過經(jīng)濟(jì)優(yōu)勢,以及單位組合與控制來達(dá)成的:

[[280923]]

后面,又來了另一只新的陪練 (小棕) ,找到了主要玩家小綠的新弱點(diǎn),用隱刀打敗了它:

[[280924]]

循環(huán)往復(fù),AlphaStar變得越來越強(qiáng)大。

至于算法細(xì)節(jié),這次也完整展現(xiàn)了出來。

AlphaStar技術(shù),最完整披露

許多現(xiàn)實(shí)生活中的AI應(yīng)用,都涉及到多個智能體在復(fù)雜環(huán)境中的相互競爭和協(xié)調(diào)合作。

而針對星際爭霸這樣的即時戰(zhàn)略(RTS)游戲的研究,就是解決這個大問題過程中的一個小目標(biāo)。

也就是說,星際爭霸的挑戰(zhàn),實(shí)際上就是一種多智能體強(qiáng)化學(xué)習(xí)算法的挑戰(zhàn)。

AlphaStar學(xué)會打星際,還是靠深度神經(jīng)網(wǎng)絡(luò),這個網(wǎng)絡(luò)從原始游戲界面接收數(shù)據(jù) (輸入) ,然后輸出一系列指令,組成游戲中的某一個動作。

AlphaStar會通過概覽地圖和單位列表觀察游戲。

采取行動前,智能體會輸出要發(fā)出的行動類型(例如,建造),將該動作應(yīng)用于誰,目標(biāo)是什么,以及何時發(fā)出下一個行動。

動作會通過限制動作速率的監(jiān)視層發(fā)送到游戲中。

 

而訓(xùn)練,則是通過監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)來完成的。

最開始,訓(xùn)練用的是監(jiān)督學(xué)習(xí),素材來自暴雪發(fā)布的匿名人類玩家的游戲?qū)崨r。

這些資料可以讓AlphaStar通過模仿星際天梯選手的操作,來學(xué)習(xí)游戲的宏觀和微觀策略。

最初的智能體,游戲內(nèi)置的精英級 (Elite) AI就能擊敗,相當(dāng)于人類的黃金段位 (95%) 。

而這個早期的智能體,就是強(qiáng)化學(xué)習(xí)的種子。

在它的基礎(chǔ)之上,一個連續(xù)聯(lián)賽 (Continuous League) 被創(chuàng)建出來,相當(dāng)于為智能體準(zhǔn)備了一個競技場,里面的智能體互為競爭對手,就好像人類在天梯上互相較量一樣:

從現(xiàn)有的智能體上造出新的分支,就會有越來越多的選手不斷加入比賽。新的智能體再從與對手的競爭中學(xué)習(xí)。

這種新的訓(xùn)練形式,是把從前基于種群 (Population-Based) 的強(qiáng)化學(xué)習(xí)思路又深化了一些,制造出一種可以對巨大的策略空間進(jìn)行持續(xù)探索的過程。

這個方法,在保證智能體在策略強(qiáng)大的對手面前表現(xiàn)優(yōu)秀的同時,也不忘怎樣應(yīng)對不那么強(qiáng)大的早期對手。

隨著智能體聯(lián)賽不斷進(jìn)行,新智能體的出生,就會出現(xiàn)新的反擊策略 (Counter Strategies) ,來應(yīng)對早期的游戲策略。

一部分新智能體執(zhí)行的策略,只是早期策略稍稍改進(jìn)后的版本;而另一部分智能體,可以探索出全新的策略,完全不同的建造順序,完全不同的單位組合,完全不同的微觀微操方法。

除此之外,要鼓勵聯(lián)賽中智能體的多樣性,所以每個智能體都有不同的學(xué)習(xí)目標(biāo):比如一個智能體的目標(biāo)應(yīng)該設(shè)定成打擊哪些對手,比如該用哪些內(nèi)部動機(jī)來影響一個智能體的偏好。

△聯(lián)盟訓(xùn)練的魯棒性

而且,智能體的學(xué)習(xí)目標(biāo)會適應(yīng)環(huán)境不斷改變。

神經(jīng)網(wǎng)絡(luò)給每一個智能體的權(quán)重,也是隨著強(qiáng)化學(xué)習(xí)過程不斷變化的。而不斷變化的權(quán)重,就是學(xué)習(xí)目標(biāo)演化的依據(jù)。

權(quán)重更新的規(guī)則,是一個新的off-policy強(qiáng)化學(xué)習(xí)算法,里面包含了經(jīng)驗(yàn)重播 (Experience Replay) ,自我模仿學(xué)習(xí) (Self-Imitation Learning) 以及策略蒸餾 (Policy Distillation) 等等機(jī)制。

歷時15年,AI制霸星際

《星際爭霸》作為最有挑戰(zhàn)的即時戰(zhàn)略(RTS)游戲之一,游戲中不僅需要協(xié)調(diào)短期和長期目標(biāo),還要應(yīng)對意外情況,很早就成為了AI研究的“試金石”。

因?yàn)槠涿媾R的是不完美信息博弈局面,挑戰(zhàn)難度巨大,研究人員需要花費(fèi)大量的時間,去克服其中的問題。

DeepMind在Twitter中表示,AlphaStar能夠取得當(dāng)前的成績,研究人員已經(jīng)在《星際爭霸》系列游戲上工作了15年。

但DeepMind的工作真正為人所知,也就是這兩年的事情。

2017年,AlphaGo打敗李世石的第二年后,DeepMind與暴雪合作發(fā)布了一套名為PySC2的開源工具,在此基礎(chǔ)上,結(jié)合工程和算法突破,進(jìn)一步加速對星際游戲的研究。

之后,也有不少學(xué)者圍繞星際爭霸進(jìn)行了不少研究。比如南京大學(xué)的俞揚(yáng)團(tuán)隊(duì)、騰訊AI Lab、加州大學(xué)伯克利分校等等。

到今年1月,AlphaStar迎來了AlphaGo時刻。

在與星際2職業(yè)選手的比賽中,AlphaStar以總比分10-1的成績制霸全場,人類職業(yè)選手LiquidMaNa只在它面前堅(jiān)持了5分36秒,就GG了。

 

全能職業(yè)選手TLO在落敗后感嘆,和AlphaStar比賽很難,不像和人在打,有種手足無措的感覺。

半年后,AlphaStar再度迎來進(jìn)化。

DeepMind將其APM (手速) 、視野都跟人類玩家保持一致的情況下,實(shí)現(xiàn)了對神族、人族、蟲族完全駕馭,還解鎖了許多地圖。

 

與此同時,并宣布了一個最新動態(tài):AlphaStar將登錄游戲平臺戰(zhàn)網(wǎng),匿名進(jìn)行天梯匹配。

現(xiàn)在,伴隨著最新論文發(fā)布,AlphaStar的最新戰(zhàn)力也得到公布:擊敗了99.8%的選手,拿到了大師級稱號。

DeepMind在博客中表示,這些結(jié)果提供了強(qiáng)有力的證據(jù),證明了通用學(xué)習(xí)技術(shù)可以擴(kuò)展人工智能系統(tǒng),使之在復(fù)雜動態(tài)的、涉及多個參與者的環(huán)境中工作。

而伴隨著星際2取得如此亮眼的成績,DeepMind也開始將目光投向更加復(fù)雜的任務(wù)上了。

CEO哈薩比斯說:

星際爭霸15年來一直是AI研究人員面臨的巨大挑戰(zhàn),因此看到這項(xiàng)工作被《自然》雜志認(rèn)可是非常令人興奮的。

這些令人印象深刻的成果,標(biāo)志著我們朝目標(biāo)——創(chuàng)造可加速科學(xué)發(fā)現(xiàn)的智能系統(tǒng)——邁出了重要的一步。

那么,DeepMind下一步要做什么?

哈薩比斯也多次說過,星際爭霸“只是”一個非常復(fù)雜的游戲,但他對AlphaStar背后的技術(shù)更感興趣。

但也有人認(rèn)為,這一技術(shù)非常適合應(yīng)用到軍事用途中。

不過,從谷歌與DeepMind 的態(tài)度中,這一技術(shù)更多的會聚焦在科學(xué)研究上。

其中包含的超長序列的預(yù)測,比如天氣預(yù)測、氣候建模。

或許對于這樣的方向,最近你不會陌生。

因?yàn)楣雀鑴倓倢?shí)現(xiàn)的量子優(yōu)越性,應(yīng)用方向最具潛力的也是氣候等大問題。

現(xiàn)在量子計(jì)算大突破,DeepMind AI更進(jìn)一步。

未來更值得期待。你說呢?

One more thing

雖然AlphaStar戰(zhàn)績斐然,但有些人它還打不贏。

當(dāng)時AlphaStar剛進(jìn)天梯的時候,人類大魔王Serral就公開嘲諷,它就是來搞笑的。

 

但人家的確有實(shí)力,現(xiàn)在依舊能正面剛AI。

不過,敢這樣說話的高手,全球就只有一個。

 

 

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2019-01-25 18:37:20

AI數(shù)據(jù)科技

2021-12-20 10:07:35

AI 數(shù)據(jù)人工智能

2022-04-24 14:05:02

人工智能深度學(xué)習(xí)量化

2025-05-30 09:15:00

2021-11-22 17:40:08

AI 神經(jīng)網(wǎng)絡(luò)人工智能

2022-03-28 13:25:42

AI扶貧機(jī)器之心

2019-02-14 15:06:50

AI人工智能臨床診斷

2021-03-05 14:56:31

技術(shù)人工智能透視術(shù)

2025-05-19 08:54:00

2021-12-13 09:40:48

AI 數(shù)據(jù)人工智能

2022-11-13 12:48:40

AI模型模塊

2021-12-07 13:56:25

DeepMind紐結(jié)理論表象理論

2021-01-07 14:56:55

AI 數(shù)據(jù)人工智能

2024-11-11 10:00:00

ChatGPT模型

2023-07-14 11:47:08

AI醫(yī)生

2021-08-16 10:21:01

AI 數(shù)據(jù)人工智能

2023-08-31 21:58:21

NatureAI無人機(jī)

2021-08-19 15:08:05

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)

2024-01-02 09:05:58

科學(xué)AI

2024-04-01 12:43:15

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 国产乱一区二区三区视频 | 中文字幕久久精品 | 97精品国产手机 | 国产精品久久久久久久久久免费看 | 久久久久久久久久久久亚洲 | 亚洲精品白浆高清久久久久久 | 91久久久久 | 韩国av电影网 | 亚洲 欧美 日韩 精品 | 天天干天天爽 | 久久久999免费视频 999久久久久久久久6666 | 午夜电影网址 | 91秦先生艺校小琴 | 日韩成人专区 | 久久久久国产精品一区二区 | 天天干人人 | 久久国产精品色av免费观看 | 99re在线| 在线色网 | 在线中文字幕第一页 | 97成人在线 | 久久天天躁狠狠躁夜夜躁2014 | 成人精品免费 | 国产精品美女久久久久aⅴ国产馆 | 欧美精品久久久 | 日本福利视频免费观看 | 久在线精品视频 | 欧美精品在线一区 | 欧美精品一区三区 | 爱爱小视频 | 激情六月丁香 | 久久午夜精品 | 国产精品免费观看视频 | 羞羞视频网站免费看 | 在线看日韩 | 色婷婷久久久亚洲一区二区三区 | 日韩精品一区二区三区高清免费 | 日韩欧美一区二区三区免费观看 | 日韩精品一区二区三区在线播放 | 色综合天天综合网国产成人网 | 中文字幕精品一区 |