李飛飛團隊創建深度學習「游樂場」:AI也在自我進化,細思極恐
動物的智慧是在和環境互動的過程中與身體形態同步進化的。
例如,倉鼠通過「進化」出長了好多腿的倉鼠球來逃避貓的追捕(doge)。

好吧,言歸正傳,AI也相當聰明,但與動物不同的是,AI通常是在硅基的芯片上實現的,并沒有實體。
那么,如果給AI一個「身體」,這對于智能的進化是否重要?如果是的話,又該如何利用來創造更聰明的人工智能?
在李飛飛的帶領下,斯坦福大學的研究小組創建了一個計算機模擬的「游樂場」——DERL(深度進化強化學習),其中被稱為「Unimals」(通用動物)的智能體在經歷不斷變異和自然選擇。論文刊登在《自然通訊》雜志上。

https://www.nature.com/articles/s41467-021-25874-z
研究結果顯示,虛擬生物的身體形狀影響了它們學習新任務的能力,在更具挑戰性的環境中學習和進化的形態,或者在執行更復雜的任務時,比那些在更簡單的環境中學習和進化的形態學習進化得更快、更好。
在這項研究中,具有最成功的形態的Unimal也比前幾代更快地掌握了任務,盡管它們最初的基線智力水平與前代相同。也就是說,「具身化」是智能進化的關鍵。
「我們通常專注于AI是如何實現人類大腦中神經元的功能,」研究小組成員、斯坦福大學HAI的聯合主任李飛飛表示,「然而將AI看作是具有物理實體的東西是一種完全不同的范式?!?/p>
研究報告的共同作者、人文與科學學院應用物理學副教授、HAI副主任Surya Ganguli說:「據我們所知,這是第一次相關的模擬實驗,其結果表明可以通過改變形態來加快學習的速度。」
「Unimal」宇宙
團隊設置了一個虛擬空間,并將簡單的模擬生物放入其中。當然,這些生物只是一些通過「隨機方式」進行移動的「幾何圖形」(Unimal)。
在學習階段中,有平坦的地形,有更具挑戰性的地形,包括塊狀山脊、階梯和光滑的山丘。Unimal必須在多變的地形上將一個塊狀物移動到目標位置。
訓練結束后,每個Unimal與其他三個在相同環境/任務組合中訓練過的Unimal進行比賽。勝者將產生一個單一的后代,該后代在面對與父母相同的任務之前,經歷了一次涉及肢體或關節變化的突變。
最終,在訓練了4000種不同的形態后,團隊結束了模擬。此時,幸存的Unimal平均經歷了10代的進化,其形態令人驚訝地多樣化,包括兩足動物、三足動物以及有手臂和無手臂的四足動物。
而最初,「幾乎圖形」只有一個「腦袋」和發達的「四肢」,他們有許多奇形怪狀的姿勢,「有些人蹣跚前行,有些如蜥蜴般的行走姿勢。其他人揮舞著十分逗趣的行為風格,讓人聯想到「八爪魚」。
咦?看起來似乎與舊實驗沒區別,別急,進化才剛剛開始。
這些Unimal生長在不同的星球中,星球中充滿了「起伏的山丘」和「低矮的障礙物」,他們在更加激烈的環境中展開競爭??纯词欠袢绱蠹宜f,「逆境是成功之母」。
每個環境中的前 10 名Unimal被安排在了新任務中,從「新障礙」到將球移動到目標位置、將盒子推上山或在兩點之間巡邏。這些「角斗士」真正展示了他們的虛擬勇氣。
最終,那些能在「復雜的地形中」行走的 Unimal 比在「平地上的表親」更快地學習新任務,并且完成的更好。
換句話說,它們通過「生存」而「進化」,但并不是「邊做邊學」。而是在復雜的環境中同時進行「進化」和「學習」,比如有臺階、丘陵、山脊和移動的地形,以便在這些復雜環境中進行操作。
在平坦的地形上,「章魚flop」可能會以相同的時間到達終點線,但「適應山丘和山脊的身體配置」往往是更快速、更穩定和能力最強的。他們多才多藝的身體能夠更好的利用他們的經驗教訓 - 很快他們就將競爭對手拋在了腦后。
都交給「進化」去做吧

通用計算框架DERL利用兩個相互作用的適應過程來制造具身的智能體
進化的外循環通過變異操作優化智能體的形態(b),內部強化學習循環優化了神經控制器的參數(c)。在可變地形的操縱中,智能體必須從初始位置(綠色球體)開始,將一個盒子移動到目標位置(紅色方塊)。
在每個環境完成三次進化運行后(每次有4000種形態),團隊從每個環境中挑選出表現最好的10個Unimal,并從頭開始訓練它們完成8項全新的任務,如繞過障礙物、操縱一個球或將一個箱子推上斜坡。
最成功的Unimal在個體(通過較少的訓練獲得更好的表現)和跨代的學習方面也更快。團隊發現,在早期祖先生命后期習得的行為能夠在他們的后代生命早期表達出來。
此外,在10代之后,最成功的Unimal形態在學習同一任務的時間是其最早祖先的一半。
這也驗證了美國心理學家James Mark Baldwin在19世紀末提出的假設:「學習具有適應性優勢的事物的能力」可以通過達爾文的自然選擇來傳承。
人類不一定知道如何為奇怪的任務設計機器人的身體,例如爬過核反應堆提取廢物,在地震后提供救災,引導納米機器人穿過人體,甚至做洗碗或疊衣服等家務。
或許,設計這些機器人的唯一出路就是交給「進化」去實現。