成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

這個賽車AI不再只圖一時爽,學會了考慮長遠策略

人工智能 新聞
訓練賽道來自一款叫做《賽道狂飆》(Trackmania)的游戲,以可深度定制的賽道編輯器聞名于玩家群體。

本文經AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯系出處。

玩賽車游戲的AI們現在已經不僅僅是圖快圖爽了。

他們開始考慮戰術規劃,甚至有了自己的行車風格和“偏科”項目。

比如這位只擅長轉彎的“偏科”選手,面對急彎我重拳出擊,驚險漂移,面對直線我唯唯諾諾,搖晃不停:

還有具備長遠目光,學會了戰術規劃的AI,也就是這兩位正在競速的中的綠色賽車,看似在轉彎處減緩了速度,卻得以順利通過急彎,免于直接GG的下場。

還有面對不管是多新的地圖,都能舉一反三,跑完全程的AI。

看起來就像是真的在賽車道上學會了思考一樣。

(甚至上面所說的那位偏科選手還在不懈努力后成功逆襲了)

這項訓練結果一經公布,便吸引了大批網友的圍觀:

強化學習讓AI學會“長遠考慮”

訓練賽道來自一款叫做《賽道狂飆》(Trackmania)的游戲,以可深度定制的賽道編輯器聞名于玩家群體。

為了更大程度上激發賽車AI的潛力,開發者自制了這樣一張九曲十八彎的魔鬼地圖:

這位開發者名叫yoshtm,之間就已經用AI玩過這款游戲,一度引發熱議:

一開始,yoshtm采用的是一種監督學習模型,擁有2個隱藏層。

模型包含了16個輸入,包括如汽車當前速度、加速度、路段位置等等,再通過神經網絡對輸入參數進行分析,最終輸出6種動作中的一種:

基于這一模型架構,開發者讓多只AI在同一張地圖上競爭。

通過多次迭代,不同AI的神經網絡會出現細微的差別,結果最好的AI將最終脫穎而出。

這種方法確實能讓AI學會駕駛,不過也帶來了一個問題:

AI常常只能以速度或最終沖線的時間等單一指標來評估自己,難以更進一步。

這次,時隔兩年后的賽車AI,不僅學會了從長遠出發制定策略(比如在急彎時對速度作出調整),還大幅提高了對新地圖的適應性

主要原因就來自于開發者這次引入的新方法,強化學習

這種方法的核心概念是“獎勵”,即通過選擇帶來更多獎勵的行為,來不斷優化最終效果。

在訓練賽車游戲中的AI時,yoshtm定義的獎勵很常規:速度越快獎勵越多,走錯路或掉下賽道就會懲罰。

但問題是,一些行動,比如在臨近轉彎時的加速或許能導致短期的正面獎勵,但從長遠來看卻可能會產生負面的后果。

于是,yoshtm采用了一種叫做Deep Q Learning的方法。

這是一種無模型的強化學習技術,對于給定狀態,它能夠比較可用操作的預期效用,同時還不需要環境模型。

Deep Q Learning會通過深度網絡參數 的學習不斷提高Q值預測的準確性,也就是說,能夠使AI在賽車游戲中預測每個可能的行動的預期累積獎勵,從而“具備一種長遠的策略目光”。

隨機出生點幫AI改正“偏科”

接下來開始進行正式訓練。

yoshtm的思路是,AI會先通過隨機探索來盡可能多地收集地圖數據,他將這一行為稱之為探索

探索的比例越高,隨機性也就越強,而隨著比例降低,AI則會更加專注于贏取上述設置的獎勵,也即專注于跑圖。

不過,在訓練了近3萬次,探索比例降低到5%時,AI“卡關”了:

核心問題是AI出現了“偏科”。

由于前期經歷了多個彎道的跑圖,所以AI出現了過擬合現象,面對長直線跑道這種新的賽道類型,一度車身不穩,搖搖晃晃,最終甚至選擇了“自殺”:

要如何解決這個問題呢?

yoshtm并沒有選擇重新制作地圖,而是選擇修改AI的出生點:

每次開始訓練時,AI的出發點都將在地圖上的一個隨機位置生成,同時速度和方向也會隨機。

《賽車狂飆》本來就是一個需要大量訓練的游戲,AI當然也如此。

至少我現在很確定,這個AI可以打敗大量的初學者。

這一辦法立竿見影,AI終于開始能夠完整跑完一條賽道了。

接下來就是進行不斷訓練,最終,開發者yoshtm和AI比了一場,AI在這次跑到了最好成績:6分20秒

雖然還是沒有真人操控的賽車跑得快,不過AI表現出了較強的場地適應性,對草地還是泥地都能立馬舉一反三。

yoshtm最后這樣說道:

《賽車狂飆》本來就是一個需要大量訓練的游戲,AI當然也如此。

至少我現在很確定,這個AI可以打敗大量的初學者。

責任編輯:張燕妮 來源: 量子位
相關推薦

2023-10-26 01:30:00

系統架構成本較高

2020-06-29 07:49:10

kill -9Java程序員

2023-11-01 07:28:31

MySQL日志維護

2022-10-20 07:43:46

2022-10-12 13:51:38

自動化RPA

2024-09-26 09:10:08

2019-12-06 10:00:58

代碼開發Java

2023-09-18 10:25:10

數據中心

2024-08-30 16:18:44

2019-02-15 09:50:39

單身程序員脫單

2018-06-08 10:56:04

AI歧視數據算法

2024-07-30 09:43:59

2025-01-26 15:31:27

2024-04-07 08:15:13

Go語言工具

2010-07-23 10:23:05

Google機房

2024-10-14 08:31:41

泛型策略模式

2023-05-19 07:31:48

2023-06-28 11:01:08

2023-08-01 12:51:18

WebGPT機器學習模型

2024-01-02 12:05:26

Java并發編程
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 人人叉| 伊人最新网址 | 欧美日韩不卡合集视频 | 亚洲欧美国产毛片在线 | 欧美黄色免费网站 | 亚洲狠狠爱 | 欧美精品在线一区 | 嫩呦国产一区二区三区av | 欧美综合视频 | 久久久久久亚洲 | 亚洲成人精品国产 | 激情视频一区 | 一级黄色片美国 | 国产精品久久久久久久久 | 欧美日韩一区二区在线播放 | av大片 | 日韩在线小视频 | 国产精品一区二区不卡 | 国产1区| 怡红院成人在线视频 | 午夜电影网| 久久久国产精品 | 天天射网站 | 精品在线一区二区 | 日韩免费视频一区二区 | 国产免费一级片 | 一区二区三区中文字幕 | 国产二区在线播放 | aaaa网站| 99热视| 国产在线一区二 | 日本三级电影在线免费观看 | 欧美黄色片在线观看 | 欧美在线a | 婷婷综合久久 | 精品国产色 | 黄色片在线观看网址 | 亚洲国产精品一区二区久久 | 中文字幕在线观看国产 | 日韩免费看视频 | 精品国产一区二区三区久久 |