成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

模型輸入不靠眼睛看!華人一作:強化學習和人類有相同的感知能力

新聞 深度學習
神經網絡的眼睛如果只能看到混亂的世界,那它會習慣嗎?Google Brain在NeurIPS 2021的spotlight paper最近就研究了這個問題,將輸入圖像隨機打亂,發現強化學習得到的agent仍然能夠正確決策!

[[439504]]

人的適應能力是很可怕的!盲人盡管無法用眼睛看到世界,但通過練習,盲杖就是他的眼睛。那神經網絡的眼睛如果只能看到混亂的世界,那它會習慣嗎?Google Brain在NeurIPS 2021的spotlight paper最近就研究了這個問題,將輸入圖像隨機打亂,發現強化學習得到的agent仍然能夠正確決策!

人類的感官能力實際上是非常驚人的。

著名的神經科學家Paul Bach-y-Rita曾對使用盲杖的盲人進行了細致的觀察和研究。

他發現,盲人在行走時會前后掃動盲杖,盲杖的尖端經由皮膚上的觸覺感受體來告訴盲人路況信息。

Bach-y-Rita從而備受啟發。

他認為盲杖可以看作是盲人和物體之間的「接口」,通過盲杖在手上的壓力觸感,能夠反饋給盲人形成諸如房間擺設這樣的空間信息。

模型輸入不靠眼睛看!華人一作:強化學習和人類有相同的感知能力

因此,手上的皮膚及其觸覺感受體,就像一個信息收集站,可以替代視網膜在大腦中形成圖像。

你無需用眼睛看,也無需用耳朵聽,真正的看和聽都在大腦里!

這種適應性也被稱為感官替代(sensory substitution),也是神經科學中非常著名的一個現象。

但一些困難的適應性也需要幾周、幾個月甚至幾年的練習才能做到,例如調整習慣看東西的角度,學習騎反向(backwards)的自行車等等。

模型輸入不靠眼睛看!華人一作:強化學習和人類有相同的感知能力

相比之下,大多數神經網絡根本無法產生感官替代的現象。

例如,大多數強化學習(RL)模型要求模型的輸入必須采用預先指定好的格式。這些格式限制了輸入向量的長度是固定的,并已經事先確定好輸入的每個元素的精確含義,例如指定位置的像素強度,狀態信息,位置或速度等。

在一些流行的RL基準任務(如Ant或Cart-Pole)中,如果模型的輸入發生變化,或者如果向模型提供了與手頭任務無關的額外噪聲輸入,那么使用當前RL算法訓練的agent 將無法繼續使用。

針對這個問題,Google在NeurIPS 2021上發表了一篇焦點論文,探索了具有排列不變性(permutation invariant)的神經網絡模型。

這種神經網絡要求每個感覺神經元(接收來自環境的感官輸入的神經元)必須能夠根據輸入信號的上下文來找到信號的真正含義,而非明確地指定一個固定的含義。實驗結果表明,這些沒有預先指定的agent有能力對含有額外冗余或噪聲信息以及損壞的、不完整的觀察輸入進行處理。

模型輸入不靠眼睛看!華人一作:強化學習和人類有相同的感知能力

https://arxiv.org/abs/2109.02869

Permutation Invariant指的是特征之間沒有空間位置關系,即使輸入的順序發生變化也不會影響輸出結果。如在多層感知機中,改變像素的位置對最后的結果沒有影響,但對卷積網絡而言,特征之間則有空間位置關系。

模型輸入不靠眼睛看!華人一作:強化學習和人類有相同的感知能力

除了適應狀態觀測環境中的感官替代,研究還表明,這些agent還可以適應復雜視覺觀測環境中的感官替代。

例如在CarRacing游戲,當輸入圖像的流不斷地被reshuffle時,盡管人眼已經看不出來畫面,但AI仍然可以做出正確的行動。

模型輸入不靠眼睛看!華人一作:強化學習和人類有相同的感知能力

論文的作者Yujin Tang于2007年獲得上海交通大學計算機專業學士學位,后于2010年獲得早稻田大學碩士學位,主要專注于強化學習和機器人學的研究,并熱衷于將相關技術應用于現實世界的問題。

[[439509]]

文中提出的研究方法在每個時間步中從環境中進行觀察,并將觀察的每個元素饋送成明確(distinct)但相同的(identiccal)神經網絡,也稱為感覺神經元(sensory neurons),網絡之間彼此沒有固定的關系。

每個感覺神經元僅通過其特定的感覺輸入通道與時間信息進行集成。因為每個感覺神經元只能接收整個圖片的一小部分,所以他們需要通過互相通信來自組織(self-organize)信息結構以便進行全局且連貫(coherent)的決策行為。

模型輸入不靠眼睛看!華人一作:強化學習和人類有相同的感知能力

在實驗中,研究人員也通過訓練的方式促使神經元使用廣播消息(broadcast messages)來互相溝通。

在接收局部信息時,每個感覺神經元在每個時間步驟中也需要連續廣播輸出消息。使用類似于在Transformer 架構中用到的注意力機制,就能夠將這些消息整合并組合到輸出矢量中,并稱之為全局潛碼。

然后,策略網絡使用全局潛碼來生成agent 的下一步與環境交互的行動(action)。行動結束后,通信循環將關閉。

模型輸入不靠眼睛看!華人一作:強化學習和人類有相同的感知能力

你可能還有一個問題,為什么這個系統的輸入排列變化對模型輸出沒有影響?

因為每個感覺神經元都是同一個(identical)神經網絡,它們并不局限于處理來自某一特定感覺輸入的信息,實際上每個感覺神經元的輸入都沒有定義。

相反,每個神經元必須通過關注其他感覺神經元接收到的輸入來找到自己輸入信號的含義。

這個操作也會促進agent將整個輸入作為一個未排序的集合進行處理,從而使系統對其輸入保持不變。

此外,訓練后的agent可以根據實際需要,使用多個感覺神經元來處理任意長度的輸入。

實驗結果上,研究人員在簡單的狀態觀測環境中證明了這種方法的魯棒性和靈活性。

在常見的Ant locomotion任務中的agent總共需要接收28個輸入,其中包含位置和速度信息等。研究人員多次打亂輸入向量的順序,實驗仍然表明訓練后的agent能夠快速適應不同排列的輸入,并且仍然能夠在游戲中始終保持向前移動。

在cart-pole實驗中,agent的目標是擺動安裝在手推車中心的手推車桿,并使其保持向上平衡。

通常情況下,agent只能看到五個輸入,但研究人員修改了實驗環境來提供15個混合輸入信號,其中10個是純噪聲,剩下的是環境的實際觀察結果。

結果表明,agent仍然能夠高效地執行任務,這也展現了該系統處理大量帶噪聲輸入的能力,并且agent可以只使用它認為有用的信息通道。

研究人員還將這種方法應用于高維視覺環境,其中模型輸入是圖像的像素流。實驗主要研究了基于視覺的RL環境的screen-shuffled版本,其中每個觀察幀被劃分為一個patch網格,看起來就像一個迷宮一樣,agent必須以shuffed order的方式處理patch以確定要下一步要采取的動作。

模型輸入不靠眼睛看!華人一作:強化學習和人類有相同的感知能力

實驗中,研究人員給agent一個隨機的屏幕上的patch樣本,然后游戲的其余部分保持不變。

結果發現模型仍然可以在這些固定的隨機位置分辨出70%的patch,并且仍然能夠在對陣內置的Atari對手時不落下風。

有趣的是,如果研究人員隨后向agent 透露額外的信息,即允許它獲取更多的圖像patch,即使沒有額外的訓練,它的性能也會提高。

當agent接收到所有patch時,即便按隨機順序,它也能100%對陣內置AI時獲得勝利。

并且這些操作雖然在訓練過程中增加了一些學習難度,但也會有帶來額外的好處,例如提高了模型的泛化性,即便更換了新的圖像取代了訓練時的環境背景,agent依然可以正常運行。

模型輸入不靠眼睛看!華人一作:強化學習和人類有相同的感知能力

作者認為,由于不限制輸入并且能過濾大量噪聲,這種permutation invariant 神經網絡將會極大促進強化學習的發展。

 

責任編輯:張燕妮 來源: 新智元
相關推薦

2021-11-16 15:26:23

強化學習火箭人工智能

2024-01-26 08:31:49

2014-10-24 08:58:21

初志科技云存儲

2023-05-25 09:00:00

人工智能ChatGPTOpenAI

2025-06-23 09:09:00

2024-01-30 09:00:28

框架BMRL模型

2023-01-31 19:48:57

物聯網高并發

2011-11-02 14:50:22

2022-07-11 11:14:47

強化學習AI基于模型

2025-05-30 04:00:00

IBMRLVRGRPO

2023-09-21 10:29:01

AI模型

2023-08-28 06:52:29

2025-02-12 11:36:27

2024-04-12 08:59:02

強化學習系統人工智能擴散模型

2023-11-16 15:58:00

訓練數據

2024-04-01 06:00:00

LIDAPython模塊

2021-12-08 11:27:24

自動駕駛數據汽車

2023-04-06 16:29:18

模型AI

2022-09-04 14:38:00

世界模型建模IRIS

2017-08-17 09:15:23

強化學習KerasOpenAI
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产99久久久国产精品 | 亚洲精品粉嫩美女一区 | 久精品久久| 性一爱一乱一交一视频 | 黄色国产视频 | 久久久免费少妇高潮毛片 | 久久88| 日韩一区二区福利视频 | 午夜精品一区二区三区在线观看 | 国产一区视频在线 | 一区精品在线观看 | 91视视频在线观看入口直接观看 | 中文字幕黄色大片 | 久热久| av久久| 久久久久久久久久久丰满 | 国产资源网 | 国产精品一区二区免费 | 性做久久久久久免费观看欧美 | 做a网站 | 久久久久久久一区 | 97人人澡人人爽91综合色 | 99福利在线观看 | 高清欧美性猛交 | 精品国产黄色片 | 精品亚洲一区二区三区四区五区高 | 激情 一区| 精品视频一区二区在线观看 | 亚洲精品久久久久久久久久久 | 一区在线播放 | 老司机成人在线 | 国产玖玖 | 毛片一区二区 | 久久99精品视频 | com.色.www在线观看 | 国产精品网址 | 成人精品一区亚洲午夜久久久 | 国产精品一区在线观看 | 免费成人在线网站 | 综合自拍 | av网站在线看|