神經(jīng)網(wǎng)絡(luò)也有空間意識(shí)!學(xué)會(huì)在Minecraft創(chuàng)建地圖,登上Nature子刊
想象一下,你身處一個(gè)陌生的小鎮(zhèn),即使一開始周圍的環(huán)境并不熟悉,你也可以四處探索,并最終在大腦中繪制出一張環(huán)境地圖,里面包含建筑物、街道、標(biāo)志等相互之間的位置關(guān)系。這種在大腦中構(gòu)建空間地圖的能力是人類更高級(jí)認(rèn)知類型的基礎(chǔ):例如,有理論認(rèn)為,語(yǔ)言是由大腦中類似地圖的結(jié)構(gòu)編碼的。
然而, 即使是最先進(jìn)的人工智能和神經(jīng)網(wǎng)絡(luò),也無(wú)法憑空構(gòu)建這樣的地圖。
計(jì)算生物學(xué)助理教授、Heritage Medical 研究所研究員 Matt Thomson 說(shuō):「有一種感覺是,即使是最先進(jìn)的人工智能模型,也不是真正的智能。它們不能像我們一樣解決問(wèn)題;不能證明未經(jīng)證實(shí)的數(shù)學(xué)結(jié)果,也不能產(chǎn)生新的想法。」
「我們認(rèn)為,這是因?yàn)樗鼈儫o(wú)法在概念空間中導(dǎo)航;解決復(fù)雜問(wèn)題就像在概念空間中移動(dòng),就像導(dǎo)航一樣。人工智能做的更像是死記硬背 —— 你給它一個(gè)輸入,它給你一個(gè)回應(yīng)。但它無(wú)法綜合不同的想法。」
最近,Thomson 實(shí)驗(yàn)室的一篇新論文發(fā)現(xiàn),神經(jīng)網(wǎng)絡(luò)可以使用一種叫做「預(yù)測(cè)編碼」的算法來(lái)構(gòu)建空間地圖 。該論文于 7 月 18 日發(fā)表在《自然 - 機(jī)器智能》(Nature Machine Intelligence)雜志上。
- 論文地址:https://www.nature.com/articles/s42256-024-00863-1
- 代碼地址:https://github.com/jgornet/predictive-coding-recovers-maps
在研究生 James Gornet 的帶領(lǐng)下,兩人在游戲《我的世界》(Minecraft)中構(gòu)建了環(huán)境,將樹木、河流和洞穴等復(fù)雜元素融入其中。他們錄制了玩家隨機(jī)穿越該區(qū)域的視頻,并利用視頻訓(xùn)練了一個(gè)配備預(yù)測(cè)編碼算法的神經(jīng)網(wǎng)絡(luò)。
他們發(fā)現(xiàn),神經(jīng)網(wǎng)絡(luò)能夠?qū)W習(xí) Minecraft 世界中的物體彼此之間是如何組織的,并且能夠「預(yù)測(cè)」在空間中移動(dòng)時(shí)會(huì)遇到的環(huán)境。
預(yù)測(cè)編碼算法與 Minecraft 游戲的結(jié)合成功地「教會(huì)」了神經(jīng)網(wǎng)絡(luò)如何創(chuàng)建空間地圖,并隨后使用這些空間地圖來(lái)預(yù)測(cè)視頻的后續(xù)幀,結(jié)果預(yù)測(cè)圖像與最終圖像之間的均方誤差僅為 0.094%。
更重要的是,研究小組「打開」了神經(jīng)網(wǎng)絡(luò)(相當(dāng)于檢查內(nèi)部結(jié)構(gòu)),發(fā)現(xiàn)各種物體的表征是相對(duì)于彼此進(jìn)行空間存儲(chǔ)的。換句話說(shuō),他們看到了存儲(chǔ)在神經(jīng)網(wǎng)絡(luò)中的 Minecraft 環(huán)境地圖。
神經(jīng)網(wǎng)絡(luò)可以導(dǎo)航人類設(shè)計(jì)者提供給它們的地圖,例如使用 GPS 的自動(dòng)駕駛汽車,但這是人類首次證明神經(jīng)網(wǎng)絡(luò)可以創(chuàng)建自己的地圖。這種在空間上存儲(chǔ)和組織信息的能力最終將幫助神經(jīng)網(wǎng)絡(luò)變得更加「聰明」,使它們能夠像人類一樣解決真正復(fù)雜的問(wèn)題。
這個(gè)項(xiàng)目展示了人工智能真正的空間感知能力,而這在 OpenAI 的 Sora 等技術(shù)中仍然看不到,后者存在一些奇怪的故障。
James Gornet 是加州理工學(xué)院計(jì)算與神經(jīng)系統(tǒng)(CNS)系的學(xué)生,該系涵蓋神經(jīng)科學(xué)、機(jī)器學(xué)習(xí)、數(shù)學(xué)、統(tǒng)計(jì)學(xué)和生物學(xué)。
「CNS 項(xiàng)目確實(shí)為 James 提供了一個(gè)地方,讓他從事其他地方不可能完成的獨(dú)特工作,」Thomson 說(shuō)。「我們正在采用一種生物啟發(fā)的機(jī)器學(xué)習(xí)方法,讓我們能夠在人工神經(jīng)網(wǎng)絡(luò)中反向設(shè)計(jì)大腦的特性,我們希望反過(guò)來(lái)了解大腦。在加州理工學(xué)院,我們有一個(gè)非常容易接受這類工作的社區(qū)。」
執(zhí)行預(yù)測(cè)編碼的神經(jīng)網(wǎng)絡(luò)
受預(yù)測(cè)編碼推理問(wèn)題中隱式空間表示的啟發(fā),研究者開發(fā)了一個(gè)預(yù)測(cè)編碼智能體的計(jì)算實(shí)現(xiàn),并研究了該智能體在探索虛擬環(huán)境時(shí)學(xué)習(xí)到的空間表示。
他們首先使用 Minecraft 中的 Malmo 環(huán)境創(chuàng)建了一個(gè)環(huán)境。物理環(huán)境的尺寸為 40 × 65 格單位,囊括了視覺場(chǎng)景的三個(gè)方面:一個(gè)山洞提供了一個(gè)全局視覺地標(biāo),一片森林使得視覺場(chǎng)景之間具有相似性,而一條帶有橋梁的河流則限制了智能體如何穿越環(huán)境(圖 1a)。
智能體遵循路徑,路徑由 A* 搜索確定,以找到隨機(jī)取樣位置之間的最短路徑,并接收每條路徑上的視覺圖像。
為了進(jìn)行預(yù)測(cè)編碼,作者構(gòu)建了一個(gè)編碼器 - 解碼器卷積神經(jīng)網(wǎng)絡(luò),編碼器采用 ResNet-18 架構(gòu),解碼器采用轉(zhuǎn)置卷積的 ResNet-18 架構(gòu)(圖 1b)。編碼器 - 解碼器架構(gòu)使用 U-Net 架構(gòu)將編碼的潛在單元傳遞到解碼器中。多頭注意力處理編碼潛在單元序列,以編碼過(guò)去的視覺觀察歷史。多頭注意力有 h = 8 個(gè)頭。對(duì)于維度為 D = C × H × W 的編碼潛在單元,在高度 H、寬度 W 和通道 C 的情況下,單個(gè)頭部的維度為 d = C × H × W/h。
預(yù)測(cè)編碼器通過(guò)最小化實(shí)際觀測(cè)值與預(yù)測(cè)觀測(cè)值之間的均方誤差來(lái)近似預(yù)測(cè)編碼。預(yù)測(cè)編碼器在 82,630 個(gè)樣本上進(jìn)行了 200 個(gè) epoch 訓(xùn)練,使用了具有 Nesterov 動(dòng)量的梯度下降優(yōu)化,權(quán)重衰減為 5 × 10^(-6),學(xué)習(xí)率為 10^(-1),并通過(guò) OneCycle 學(xué)習(xí)率調(diào)度進(jìn)行調(diào)整。優(yōu)化后的預(yù)測(cè)編碼器預(yù)測(cè)圖像與實(shí)際圖像之間的均方誤差為 0.094,具有良好的視覺保真度(圖 1c)。
更多細(xì)節(jié)請(qǐng)參見原論文。