大猩猩也會玩《我的世界》了,看一遍視頻就能get新技能
在教會 GPT-4 玩《我的世界》(Minecraft)之后,人類也教會了大猩猩玩這款游戲。
圖中的這個大猩猩名叫 Kanzi,是一個 42 歲的倭黑猩猩(bonobo)。它會通過點擊觸摸屏來玩游戲:點擊屏幕中央向前移動;觸摸側面環顧四周。如果表現出色,研究人員會給予獎勵,比如花生或其他零食。
或許是因為之前玩過一些游戲,Kanzi 剛坐到屏幕前就進入了狀態,幾秒鐘就學會了如何操作角色前進。只要它能到達指定區域,屏幕上就會出現零食的圖案,同時工作人員也會給它對應零食。在這樣的獎勵機制下,Kanzi 很快學會了如何在游戲里行走。
接下來的測試任務是在游戲里使用工具(屏幕上方的某個按鍵)擊碎一些積木塊。這對 Kanzi 來說有點難度,因為這個操作沒有在 Kanzi 之前玩的任何游戲中出現過。為了給 Kanzi 提示,工作人員一直指著屏幕上方的按鈕,但 Kanzi 依然不得要領。
無奈之下,工作人員只好換了一種方法:讓 Kanzi 看一遍人類示范。
Kanzi 看得很認真,也在積木被擊碎時拿到了零食。于是,工作人員決定讓它自己試一下。
終于,在走到積木前時,Kanzi 找到了上方的按鈕,成功把積木擊碎,這引得工作人員一陣歡呼。
經過這兩個任務,Kanzi 已經掌握了兩項基本技能:在環境中收集零食以及把積木打碎。工作人員接下來的目標是讓 Kanzi 在一個全新的環境中利用這些技能并讓網線另一端的一位人類玩家相信它是真人。
在此之前,Kanzi 被安排在一個特制的洞穴環境中強化技能,只有打破一道一道的積木墻,Kanzi 才能到達洞穴盡頭。
在一路打怪升級的路上,Kanzi 熟悉了剛剛才學到的新技能。不過,它也有被卡在墻角的時候,這種情況下它會尋求工作人員幫助,并在脫困后徑直走向積木墻繼續通關。
最終,在幾乎沒有多少幫助的情況下,Kanzi 順利通過,達到了洞穴盡頭。這也意味著,Kanzi 已經做好了去迷惑人類玩家的準備。
在測試過程中,人類玩家被告知他將與一個特殊的玩家一起玩游戲。當然,他也注意到了一些不尋常的行為,例如,Kanzi 在游戲中的移動速度較慢,而且他的操作方式與普通玩家有所不同。但他萬萬沒想到,自己的游戲伙伴是一只大猩猩。因此,當真相揭曉時,Tommy 的反應既震驚又興奮。
這項與人類玩家一起進行的測試被工作人員稱為「多人」模式,接下來,他們又讓 Kanzi 挑戰了《我的世界》中其他的環境類型,包括鄉村、沙漠神殿、下界傳送門等等。Kanzi 一路通關,走到了游戲終點。
這個視頻在國外視頻網站引起了很多人關注。視頻制作者、YouTube 博主 ChrisDaCow 的本意是呼吁人類關注野生動物,看到這些動物有趣的一面。
視頻鏈接:https://www.youtube.com/watch?v=UKpFoYqN9-0
不過,在 AI 研究者眼中,這不僅僅是有趣那么簡單。他們觀察到了一些與智能相關的東西。
英偉達 AI 高級科學家 Jim Fan 表示,他觀察到,教 AI 玩《我的世界》和教大猩猩有很多類似的技巧,包括:
- In-context 強化學習:當 Kanzi 在游戲中達到標記的里程碑時,他會得到水果或花生作為獎勵,激勵他遵循游戲內的指導。
- 人類反饋強化學習(RLHF):Kanzi 并不完全理解語言,但他能看到訓練師為他加油,他偶爾也會回應加油!這為他提供了一個強烈的信號,表明他走在正確的道路上。
- 模仿學習:訓練師向 Kanzi 展示了一個任務的示范做法,而且只展示了一次,它就理解了其中的概念。這比僅僅使用獎勵更加高效。
- 課程學習:他們從非常簡單的環境開始,逐漸教會 Kanzi 控制技能。最終,Kanzi 能夠在復雜的洞穴、迷宮和下界之間前行。
「大猩猩的視覺系統如此強大也讓我感到驚訝。Kanzi 一生都沒見過《我的世界》,他的祖先肯定也沒見過。但他很快就適應了《我的世界》里與自然世界截然不同的紋理和物理。這種泛化水平遠遠超出了我們今天最強大的視覺模型所能做的。我們又一次陷入了莫拉維克悖論:我們最好的人工智能在理解語言方面接近人類的水平,但在解析像素方面遠遠落后于動物?!笿im Fan 評價說。
莫拉維克悖論是由人工智能 和機器人學者所發現的一個和常識相左的現象。和傳統假設不同,人類所獨有的高階智慧能力只需要非常少的計算能力,例如推理。但是無意識的技能和直覺卻需要極大的運算能力。這個理念是由漢斯?莫拉維克、布魯克斯、馬文?閔斯基等人于 1980 年代所闡釋。如莫拉維克所寫:「要讓電腦如成人般地下棋是相對容易的,但是要讓電腦有如一歲小孩般的感知和行動能力卻是相當困難甚至是不可能的。」
但有人對此提出了質疑,認為 Kanzi 其實只是為了得到獎勵才一直繼續,「它根本不知道發生了什么,」也并沒有真正學會玩《我的世界》。
對此,有人反駁說,「這被稱為刺激反應學習,或操作性條件反射。這是包括你在內的所有動物學習的基本方式之一。這是很容易理解的。這并不是貶低學習,這是學習的本質。」
這個實驗有趣的地方還在于,它讓人腦洞大開:現在 ChatGPT 和大猩猩都會玩《我的世界》了,如果未來腦機接口發展順利還會發生什么?