成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

谷歌AI為達目的,把自己的身體改造成了這樣……

新聞 人工智能
智能體在虛擬世界里死去活來,慢慢了解怎樣的策略能讓自己活得更長,得到更多的獎勵。但 AI 可能不知道,游戲打不好,也可能是智能體的身體結構有問題。

 [[246219]]

 

  強化學習 AI 打游戲,早就不稀奇了。

  智能體在虛擬世界里死去活來,慢慢了解怎樣的策略能讓自己活得更長,得到更多的獎勵。

  但 AI 可能不知道,游戲打不好,也可能是智能體的身體結構有問題。

  如果可以一邊學策略,一邊改身材,或許能成就更偉大的強化學習 AI。

  于是,來自谷歌大腦的 David Ha,為自家 AI 制定了雙管齊下的特殊訓練計劃:

  智能體不斷調整自己的身材,比如腿的長度,找到最適合當前任務的結構;同時進行策略訓練。

△身材修煉前 (左) vs 身材修煉后 (右):速度明顯不一樣
△身材修煉前 (左) vs 身材修煉后 (右):速度明顯不一樣

  你看,智能體把腿跑細了,速度也快了許多。

  除此之外,還可以培養越野能力。

  在溝壑縱橫的旅途中,原始身材的智能體時常翻車。

△ 改造前,翻車日常
△ 改造前,翻車日常

  但煉成優雅身型之后,翻車事件幾乎不存在了,策略訓練時間也縮減到原來的 30%。

  身材科學了,策略也就好學了。

  那么,是怎樣的婀娜身段,能在降低時間成本的同時提升性能?再看一會兒你就知道了。

  秀外慧中,有何密方?

  從前的智能體,形狀結構大都是固定的,只關注策略訓練。可是,系統預先設定的身材,通常都不是 (針對特定任務) 最理想的結構。

  因此,如同上文所說,策略要學,身材優化也要一起學。

[[246222]]

  這樣一來,只用策略網絡的權重參數 (Weight Parameters) 來訓練就不夠了,環境也要參數化。

  身體結構特征,比如大腿或小腿的長度、寬度、質量、朝向等等,都是這環境的組成部分。

  這里的權重參數w,把策略網絡參數和環境參數向量結合起來,便可以同時培養身材和技巧。

  隨著權重w的不斷更新,智能體會越來越強。

[[246223]]

  身材改造有沒有用?只要和僅學策略、不改結構的智能體比一場,如果獎勵分有提升,就表示 AI 找到了更適合這個環境的身型。

  注意,為了修煉 AI 的冒險精神,研究人員把高難度動作的獎勵擴大,引導智能體挑戰自我。

  身材改造,療效甚好

  比賽場地分兩大塊,一是基于 Bullet 物理引擎的機器人模擬庫 Roboschool,二是基于 Box2D 物理引擎的 OpenAI Gym。

  兩類環境都經過了參數化,AI 可以學著調整里面的參數。

  解鎖高分姿勢

  首先,來到足球場 (RoboschoolAnt-v1) ,這里的智能體 Ant 是只四腳怪,每條腿分三截,由兩個關節控制。腿是留給 AI 調節的,球狀身軀是不可調節的。

△ 三截腿,最內側的一截比較不明顯
△ 三截腿,最內側的一截比較不明顯

  任務很簡單,跑得越遠越好。

  經過訓練 (上圖右) ,智能體最明顯的變化是腿部更加細長了,且四條腿長短不一,打破了對稱性。身材改變之后,步頻也加快了許多,長腿怪更早穿過了棕色跑道。

  看一下獎勵分:在 100 次測試里,原始結構的得分是 3447 ± 251,而新結構的得分為 5789 ± 479,療效顯著。

△ 左為原始,右為身材訓練后 (紅線代表激光雷達)
△ 左為原始,右為身材訓練后 (紅線代表激光雷達)

  然后,進入綠地場景 (BipedalWalker-v2,基于 Box2D,屬于 Gym) 。這里的智能體是兩足的,在“激光雷達”的指引下往前走。

  任務是在規定時間內,穿越一片和平的地形 (這是簡單版,充滿障礙物的復雜版見下文) 。用分數來看,100 次 Rollout 超過 300 分就算任務成功。

  原始身材獲得了 347 分,優化后的身材則有 359 分。

[[246226]]

  兩邊任務都成功了,但改造過結構的智能體除了瘦腿之外,兩腿四截的長度都有變化,給了 AI 彈跳前進的新姿勢。動作看上去更加輕松,分數也高過從前。

  好身材,能加速策略學習

  上文綠地的硬核版 (BipedalWalkerHardcore-v2) 在此:路途崎嶇,千山萬壑,一不小心就會墮入深淵。

  David Ha 要在此證明,強健的身材能為智能體的策略學習帶來加成,而不只是“兩門功課同步學”那樣粗暴的合體。

  與之前的全面瘦腿不同,這次智能體的后腿,進化出了厚實的小腿,且長度和溝壑的寬度相近。

△ 紅線代表激光雷達
△ 紅線代表激光雷達

  這樣一來,在跨越鴻溝的時候,后腿就能架起一座橋,保護智能體平穩通過,不翻車。

  與此同時,前腿承擔了“危險探測器”的責任,偵查前方有怎樣的障礙物,作為“激光雷達”的輔助,可以給后腿的下一步動作提供依據。

  重點是,在這副新身材誕生的過程中,AI 已學會了通關策略,耗時僅 12 小時。對比一下,不做身材優化的原始訓練方法,用時長達 40 小時 (前饋策略網絡,96 個 GPU) 。

  這就是說,優雅的結構加速了智能體的學習過程。

△ 加入身材優化(橙色) ,訓練效率明顯提升,約 1000 代達成目標
△ 加入身材優化(橙色) ,訓練效率明顯提升,約 1000 代達成目標

  腦洞,并非從天而降

  ***,David Ha 如何能預感到,改善智能體的結構就可以提升訓練效率?

  他說,是從大自然得到了啟發。

[[246228]]
△ 錯誤示范

  有些動物在腦死亡之后,依然可以蹦跳,依然可以游泳。

  也就是說,生物體的許多行為,并不依賴大腦。

  有種叫做體驗認知 (Embodied Cognition) 的理論認為,認知的許多特征,都不是大腦獨自決定:生物體的方方面面,如運動系統、感知系統、生物體與環境的相互作用等等,都會對認知產生影響。

  比如,運動員在長期訓練的過程中,除了身體得到鍛煉,某些特定的心理素質也會隨之生成。

  David Ha 覺得,這樣的現象在 AI 身上也有可能發生:對軀體進行訓練,從而影響認知。

  第二,通過訓練來改變智能體結構的想法,也是來源于自然。

[[246229]]
△ 火烈鳥本不是紅色,吃了小魚小蝦之類的食物,羽毛才變紅

  中學生物告訴我們,表現型是基因型與環境共同作用的結果。

  那么,各式各樣的虛擬場景,也會讓更適應環境的智能體結構脫穎而出。這樣,AI 便可以借助環境的選擇,煉成更加精湛的技能。

  緣,妙不可言。

  論文傳送門:https://designrl.github.io/

[[246230]]

責任編輯:張燕妮 來源: 量子位
相關推薦

2012-03-10 21:22:57

Lumia

2018-05-23 21:19:44

云計算企業云支出

2009-03-18 10:54:45

職場誠信危機

2013-09-04 09:59:33

擬物化UI設計扁平化

2020-10-28 08:18:54

Linux 5.10函數Linux

2024-08-14 08:35:38

sql數據庫OOM 異常

2023-08-07 13:33:50

谷歌AI

2013-11-01 10:23:37

Web程序

2013-11-01 13:21:23

Dropbox

2011-08-29 10:51:51

UbuntuWindows7

2011-08-09 18:06:20

windows7windowsXP

2024-04-23 15:01:48

2023-09-13 07:33:39

2021-01-15 11:43:05

谷歌Fitbit收購

2009-12-30 10:49:26

MPLS VPN

2022-04-29 14:08:50

技術人工智能

2012-01-16 10:19:34

HTML 5

2013-03-22 10:55:06

Go

2018-11-14 10:01:30

谷歌開源機器學習

2021-01-14 16:25:18

iPhone 7服務器開發者
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日本91av视频| 亚洲伊人a | 一区视频在线 | 国产精品久久久久久久久动漫 | 欧美在线一区二区视频 | 欧美激情精品久久久久久 | 欧美激情久久久 | 激情一区二区三区 | 一级毛片免费 | 男人的天堂久久 | 国产精品小视频在线观看 | 欧美在线一区二区三区 | 91人人看| 国产视频福利一区 | 涩涩视频在线看 | 久久久青草婷婷精品综合日韩 | 日韩中文字幕在线不卡 | 国产高清在线 | 奇米超碰 | 91视频一区二区 | 91在线观看 | 国产视频2021 | 国产色片| 中文字幕在线一区 | 国产亚洲精品精品国产亚洲综合 | 精品一区二区三区91 | 日韩在线欧美 | 国产精品国产成人国产三级 | 亚洲精品3| 日本三级全黄三级三级三级口周 | 亚洲精品一区二区三区中文字幕 | 综合一区二区三区 | 欧美综合国产精品久久丁香 | 日韩在线播放av | 成人1区2区| 天堂色区 | www.av7788.com| 欧美日韩一区二区三区四区五区 | 9久久精品 | 超碰97人人人人人蜜桃 | 91av视频在线观看 |