MIT、OpenAI等震撼力作:AI首次自主發(fā)現(xiàn)人工生命!人類窺見上帝造物
就在剛剛,由Transformer八子創(chuàng)立的Sakana AI,聯(lián)合來自MIT、OpenAI、瑞士AI實驗室IDSIA等機構(gòu)的研究人員,提出了「自動搜索人工生命」的新算法!
論文地址:https://arxiv.org/abs/2412.17799
值得一提的是,世界上首個「AI科學家」便是由Sakana AI提出的——就是可以獨立搞科研,完全不需要人類插手的那種。不僅如此,它當時還直接一口氣肝出了10篇論文。
言歸正傳,ALife,即「人工生命」,是一門跨學科研究,旨在通過模擬生命的行為、特性和演化過程來理解生命的本質(zhì),通常結(jié)合了計算科學、生物學、復雜系統(tǒng)科學以及物理學等領(lǐng)域。
人工生命(ALife)的研究中,蘊含著能夠推動和加速人工智能進步的重要洞見。
如果能用AI加速人工生命的發(fā)現(xiàn),人類就會加深對涌現(xiàn)現(xiàn)象、進化機制和智能本質(zhì)的理解,而這些核心原則,可以為下一代AI系統(tǒng)提供靈感!
而這次研究者們提出的算法,可以使用視覺-語言基礎(chǔ)模型自動發(fā)現(xiàn)人工生命。
以往,人工生命模擬的每一個微小細節(jié)規(guī)則,往往都需要繁瑣的手工設(shè)計;但現(xiàn)在,只需要描述要搜索的模擬空間,ASAL就可以自動發(fā)現(xiàn)最有趣、具有開放式的人造生命體了!
由于基礎(chǔ)模型的廣泛通用性,ASAL可以在各種經(jīng)典的人工生命模擬中發(fā)現(xiàn)新的生命形式,包括 Boids、Particle Life、生命游戲(Game of Life)、Lenia和神經(jīng)元胞自動機(Neural Cellular Automata)。
已發(fā)現(xiàn)的生命形式的例子
甚至,ASAL還發(fā)現(xiàn)了一些全新的元胞自動機規(guī)則,比原始的康威生命游戲更具開放式和表現(xiàn)力。
研究者相信,這種全新的范式能夠克服手動設(shè)計模擬的瓶頸,重新激發(fā)人工生命研究的熱情,從而突破人類創(chuàng)造力的極限,讓這一領(lǐng)域再上一層樓。
研究一出,網(wǎng)友們就炸翻了。
有人說,這項驚人的工作,是釋放AI的力量,重新定義人工生命。
有研究者表示,自己多年以來一直在嘗試類似的事,用隨機數(shù)學運算符作為基因,來模擬行為進化。但他們的這項研究,是一個更精彩的版本。
自主智能創(chuàng)造人工生命,聽起來,我們似乎在扮演上帝的角色。
更有趣的是,這項研究是否可以用來觀察意識的誕生?
AI自動搜索「可能的生命」
生命是什么?
這個看似簡單的問題,卻蘊含著無盡的探索空間。
現(xiàn)實世界中,我們只能去觀察和研究已知的生命形式。但是,通過計算機模擬,科學家們正在探索一個更宏大命題——可能存在的生命。
這也是人工生命(ALife)研究的核心。
通過計算機來研究生命,便意味著需要搜索、繪制整個可能的模擬空間,而非是單一的模擬。
它能夠讓研究人員弄清,為什么以及如何通過不同模擬配置,會產(chǎn)生不同涌現(xiàn)的行為。
ALife在模擬中進化和學習機制豐富多樣,但其基礎(chǔ)性突破一個主要障礙是缺乏系統(tǒng)性方法來搜索所有可能的模擬配置。
傳統(tǒng)上,研究人員主要依靠直覺和經(jīng)驗,去設(shè)計猜測這些「人工虛擬世界」的基本規(guī)則。
另一個挑戰(zhàn)便是,在復雜系統(tǒng)中,簡單部件大規(guī)模相互作用,可能會產(chǎn)生完全意想不到的涌現(xiàn)結(jié)果。
最最重要的是,這些現(xiàn)象很難,甚至不可能提前預測。
這種不可預測性使得設(shè)計出,能自我復制、生態(tài)系統(tǒng)動態(tài)等特性的模擬變得極其困難。
也正因此,當前ALife領(lǐng)域的研究往往通過手動設(shè)計模擬,而且這些模擬也僅針對簡單、可預測的結(jié)果,從而限制了意外發(fā)現(xiàn)的可能性。
那么,什么才是最好的解決辦法?
Sakana AI、MIT、OpenAI等人認為,自動化搜索模擬的方法,能夠擴大探索范圍,從根本上改變ALife研究方式。
當前,也有很多團隊嘗試通過復雜生命度量、復雜性、有趣程度去量化ALife,但這些指標幾乎總是無法完全捕捉人類對這些概念的細微理解。
ASAL開創(chuàng)性框架
對此,新研究中提出了一個創(chuàng)新方案:利用基礎(chǔ)模型(FM)來自動化搜索合適的模擬。
基礎(chǔ)模型們基于大量自然界數(shù)據(jù)完成訓練,形成了與人類形式的表征能力,甚至可能正在趨向于真實世界統(tǒng)計特征的「柏拉圖式」表征。
正是這一特性,使得FM成為量化人工生命復雜性的理想工具。
基于這個思路,團隊提出了自動化人工生命搜索(ASAL)全新框架,如下圖所示。
研究人員首先定義一組感興趣的模擬,稱為「基質(zhì)」(substrate)。
基質(zhì)S包含任何感興趣的人工生命模擬集合(例如所有Lenia模擬的集合)。這些模擬可能在初始狀態(tài)、轉(zhuǎn)換規(guī)則或兩者都有所不同。
S由參數(shù)θ定義,該參數(shù)確定了一個包含三個組件的單一模擬:
- 初始狀態(tài)分布Init_θ
- 前向動態(tài)階躍函數(shù)Step_θ
- 渲染函數(shù)(將狀態(tài)轉(zhuǎn)換為圖像)Render_θ
這里,需要說明的是,渲染函數(shù)的參數(shù)化和搜索并非是必要的,但在處理先驗不可解釋的狀態(tài)值時,才是必要的。
將這些項連接在一起,定義一個函數(shù)θ,它對初始狀態(tài) S_0 進行采樣,運行模擬T步,并將最終狀態(tài)渲染為圖像:
最后,兩個附加函數(shù)VLM_img(?) 和VLM_txt(?) 通過視覺語言FM嵌入圖像和自然語言文本,應(yīng)用相應(yīng)的內(nèi)積運算 <?,?>,以便實現(xiàn)該嵌入空間的相似度測量。
與此同時,ASAL包含了三個基于視覺-語言基礎(chǔ)模型(FM)的算法,它們通過不同類型自動化搜索發(fā)現(xiàn)人工生命。具體包括:
監(jiān)督目標搜索
——針對能夠產(chǎn)生特定目標事件或事件序列的模擬進行搜索,從而促進各種可能世界或與我們自身相似世界的發(fā)現(xiàn)。
在ALife研究中,尋找能夠?qū)崿F(xiàn)特定事件或事件序列的模擬是一個重要目標。
這種發(fā)現(xiàn)可以幫助研究人員識別,與人類世界相似的模擬世界,或者測試某些反事實的進化軌跡在給定基底中是否可能,從而洞察某些生命形式的可行性。
為此,ASAL系統(tǒng)搜索能夠產(chǎn)生與目標自然語言提示在基礎(chǔ)模型表示空間中匹配的圖像的模擬。
研究人員可以控制在每個時間步是否使用提示,以及使用什么樣的提示。
開放式搜索
——針對能夠在基礎(chǔ)模型(FM)表示空間中產(chǎn)生時間上持續(xù)開放的新奇性的模擬進行搜索,從而發(fā)現(xiàn)對人類觀察者始終有趣的世界。
ALife研究的一個重大挑戰(zhàn)是尋找開放式模擬。
盡管開放性是主觀的,且難以定義,但在適當表示空間中的新穎性可以捕捉到開放性的一般概念。
這種方法將測量開放性的主觀性轉(zhuǎn)移到表示函數(shù)的構(gòu)建上,該函數(shù)體現(xiàn)了觀察者的視角。
論文中,視覺-語言基礎(chǔ)模型的表示作為人類表示的智能體。
有了這種新的能力,ASAL可以搜索能夠在基礎(chǔ)模型表示空間中產(chǎn)生歷史性新穎圖像的模擬。
一些初步實驗表明,通過歷史最近鄰來評估新穎性,比基于方差的方法效果明顯更好。
啟迪式搜索(Illumination)
——針對一組具有趣味性和多樣性的模擬進行搜索,從而探索未知的世界
此外,ALife研究的另一個關(guān)鍵目標,是自動揭示基質(zhì)中可能出現(xiàn)的所有多樣化現(xiàn)象。
這種理念,是源于對理解「可能存在的生命形式」的追求。這種揭示是繪制和分類整個基底的第一步。
為了實現(xiàn)這一目標,ASAL搜索一組模擬,使其產(chǎn)生的圖像在基礎(chǔ)模型的表示空間中,最近鄰距離最大。
研究人員發(fā)現(xiàn),這種基于最近鄰的多樣性比基于方差的多樣性能夠產(chǎn)生更好的揭示效果。
總的來說,ASAL全新方法已經(jīng)在多個人工生命系統(tǒng)中取得重要突破,包括Boids、粒子生命、生命游戲、Lenia和神經(jīng)元元胞自動機等等。
ASAL發(fā)現(xiàn)了前所未見的生命形式,拓展了人工生命中涌現(xiàn)的結(jié)構(gòu)邊界。
而且,這也是人類首次通過基礎(chǔ)模型驅(qū)動ALife模擬發(fā)現(xiàn)的研究。
實驗
研究者通過多種基質(zhì)的實驗驗證了ASAL的有效性,隨后利用基礎(chǔ)模型(FM)對部分發(fā)現(xiàn)的模擬,進行了新穎的定量分析。
基礎(chǔ)模型
- CLIP(對比語言-圖像預訓練)
這是一種視覺-語言基礎(chǔ)模型,通過在大規(guī)?;ヂ?lián)網(wǎng)數(shù)據(jù)集上進行對比預訓練,將圖像和文本的潛在空間對齊,從而學習通用的圖像和文本表示。
CLIP明確提供了 VLM_img(?) 和 VLM_txt(?) 兩種功能。
- DINOv2(無標簽蒸餾)
這是一種僅針對視覺的基礎(chǔ)模型,通過在大型圖像數(shù)據(jù)集上使用自監(jiān)督的師生框架學習視覺表征。
DINOv2僅提供VLM_img(?),因此無法用于ASAL的監(jiān)督目標搜索。
基質(zhì)
- Boids
它模擬了N個「鳥群」(boids)在二維歐幾里得空間中的運動。
所有boids共享一個神經(jīng)網(wǎng)絡(luò)的權(quán)重,該神經(jīng)網(wǎng)絡(luò)根據(jù)局部參考框架中K個鄰近boids的情況,決定每個boid向左或向右轉(zhuǎn)向。
該基質(zhì)是神經(jīng)網(wǎng)絡(luò)的權(quán)重空間。
- Particle Life(或Clusters)
它模擬了N個粒子,每個粒子屬于K種類型之一,在二維歐幾里得空間中相互作用。
該基質(zhì)是K×K交互矩陣和β參數(shù)的空間,用于確定粒子之間的接近程度。初始狀態(tài)是隨機采樣的,粒子自組織形成動態(tài)模式。
- 類生命元胞自動機(CA)
它將康威生命游戲推廣到所有二進制狀態(tài)的CA,這些CA在二維晶格中運行,其狀態(tài)轉(zhuǎn)換僅取決于活著的摩爾鄰居數(shù)量和單元當前狀態(tài)。
該基質(zhì)有2^18=262,144種可能的模擬。
- Lenia
它將康威生命游戲推廣到連續(xù)的空間和時間,允許更高的維度、多種核和多通道。
研究者使用LeniaBreeder代碼庫,定義了動態(tài)的45維度和初始狀態(tài)的 32×32×3=3072維度。搜索空間以找到的解決方案為中心。
- 神經(jīng)元胞自動機(NCA)
通過用神經(jīng)網(wǎng)絡(luò)表示局部轉(zhuǎn)換函數(shù),來參數(shù)化任何連續(xù)的元胞自動機。該基質(zhì)是神經(jīng)網(wǎng)絡(luò)的權(quán)重空間。
目標模擬的搜索
- 單一目標
團隊研究了在Lenia、Boids和Particle Life中,通過單個提示詞指定目標模擬的搜索效果。
監(jiān)督目標方程在經(jīng)過T個模擬時間步后,應(yīng)用一次提示詞進行優(yōu)化。其中,CLIP作為基礎(chǔ)模型,優(yōu)化算法使用了Sep-CMA-ES。
下圖顯示,從定性角度看,在找到與指定提示詞匹配的模擬方面,優(yōu)化過程的表現(xiàn)良好。
一些失敗模式表明,當優(yōu)化失敗時,問題往往出在基質(zhì)的表達能力不足,而非優(yōu)化過程本身。
通過監(jiān)督目標方程,ASAL發(fā)現(xiàn)了一些模擬,它們的最終狀態(tài)與指定的提示詞相匹配。結(jié)果展示了三種不同基質(zhì)的情況
- 時間序列目標
團隊研究了使用NCA基質(zhì)搜索,生成一系列目標事件的模擬的有效性。
通過一個提示詞列表,研究者優(yōu)化了監(jiān)督目標方程,每個提示詞在模擬展開過程中按均勻的時間間隔依次應(yīng)用。
研究者使用CLIP作為基礎(chǔ)模型。按照原始NCA論文的方法,使用了時間反向傳播和梯度下降算法,并采用Adam優(yōu)化器進行優(yōu)化。
下圖展示了ASAL可以找到生成符合提示詞序列軌跡的模擬。
通過指定期望的進化軌跡并結(jié)合約束基質(zhì),ASAL能夠識別出體現(xiàn)所需進化過程本質(zhì)的更新規(guī)則。
例如,當提示詞序列為「一個細胞」然后是「兩個細胞」時,相應(yīng)的更新規(guī)則會自然地支持自我復制的能力。
通過監(jiān)督目標方程,ASAL發(fā)現(xiàn)了一些模擬,它們生成的事件序列與提示詞列表相匹配。第二行展示了第一個模擬如何推廣到不同的初始狀態(tài)。結(jié)果展示了NCA基質(zhì)的情況
搜索開放式模擬
為了研究搜索開放式模擬的有效性,研究者使用了類生命元胞自動機(Life-Like CAs)基質(zhì),并優(yōu)化了開放式評分。
CLIP作為基礎(chǔ)模型。由于搜索空間相對較小,僅包含262,144種模擬,因此采用了窮舉搜索方法。
下圖揭示了類生命元胞自動機中開放式的潛力。
根據(jù)開放式指標,著名的康威生命游戲(Conway’s Game of Life)在開放式評分中排名前5%。
頂部子圖顯示,最開放的元胞自動機表現(xiàn)出位于混沌邊緣的非平凡動態(tài)模式,因為它們既不會停滯,也不會爆炸。
左下方子圖描繪了三個元胞自動機在CLIP空間中的軌跡隨模擬時間的變化情況。
基礎(chǔ)模型的表示與人類的認知表示相關(guān),通過基礎(chǔ)模型表示空間中的軌跡生成新穎性,也會為人類觀察者帶來一系列新奇體驗。
右下方子圖使用UMAP圖對所有類生命元胞自動機的CLIP嵌入進行了可視化,并按開放式評分著色,顯示出有意義的結(jié)構(gòu):最開放的元胞自動機集中在模擬主島外的小島上。
開放式模擬的發(fā)現(xiàn)
通過開放式方程,ASAL在類生命元胞自動機基質(zhì)中發(fā)現(xiàn)了開放式模擬。這些模擬使用Golly表示法標記,表示出生和存活所需的活鄰居數(shù)量。
- 展示了發(fā)現(xiàn)的元胞自動機在模擬展開過程中的渲染結(jié)果
- 描繪了三個模擬在CLIP空間中的時間軌跡。像素空間模擬(紅色)表現(xiàn)出收斂軌跡,而基礎(chǔ)模型空間模擬(綠色)表現(xiàn)出更具發(fā)散性的軌跡,甚至超過了康威生命游戲(藍色)的軌跡
- 所有類生命元胞自動機基于其最終狀態(tài)的CLIP嵌入的UMAP投影繪制,并按開放式評分著色。結(jié)果揭示了類似模擬的獨特島嶼結(jié)構(gòu),其中最開放的元胞自動機集中在底部附近的小島上
啟迪整片基質(zhì)(Illuminating Entire Substrates)
研究者使用Lenia和Boids基質(zhì),來研究啟迪式算法的有效性,其中CLIP作為基礎(chǔ)模型。
他們使用一種自定義的遺傳算法執(zhí)行搜索:在每一代中,隨機選擇父代,生成帶有變異的子代,然后保留解決方案中最具多樣性的子集。
結(jié)果模擬集被展示在下圖的「模擬圖譜」中。這種可視化突出了按視覺相似性組織的發(fā)現(xiàn)行為的多樣性。
可以看到圖譜以一種有序的方式映射了所有發(fā)現(xiàn)的模擬。其中,左上方的插圖顯示了未使用啟迪式算法進行隨機采樣的結(jié)果。
在Lenia中,ASAL發(fā)現(xiàn)了許多以前未曾見過的生命形式,這些生命形式類似于按顏色和形狀分類的細胞和細菌。
在Boids中,ASAL不僅重新發(fā)現(xiàn)了經(jīng)典的群體行為,還探索出了其他行為模式,例如蛇形運動、聚集、繞圈以及其他變體。
這些模擬的最終狀態(tài),會通過CLIP嵌入并使用UMAP投影到二維空間中。然后對該空間進行網(wǎng)格采樣,并展示每個網(wǎng)格內(nèi)最近的模擬。
量化人工生命
基礎(chǔ)模型(FM)不僅可以對有趣現(xiàn)象進行搜索,還能夠?qū)χ皟H能進行定性分析的現(xiàn)象進行定量化分析。
在下圖中,研究人員對兩個Boids模擬之間的參數(shù)進行線性插值。中間的模擬缺乏任何一個原始模擬的特性,表現(xiàn)為無序狀態(tài),這清楚地表明Boids參數(shù)空間具有非線性和混沌特性。
更重要的是,通過測量中間模擬最終狀態(tài)與兩個原始模擬的CLIP相似性,這一定性觀察現(xiàn)在可以通過定量數(shù)據(jù)得以支持。
模擬最終狀態(tài)隨參數(shù)從一個模擬線性插值到另一個模擬的變化
下圖評估了粒子生命(Particle Life)中粒子數(shù)量對其表現(xiàn)特定生命形式能力的影響。
在這個案例中,搜索「毛毛蟲」,發(fā)現(xiàn)只有當模擬中至少有1,000個粒子時才能找到毛毛蟲,這與科學觀察中「數(shù)量決定差異」(more is different)的理念一致。
隨粒子數(shù)量增加,在粒子生命中涌現(xiàn)「毛毛蟲」的變化
接下來的圖表通過逐一調(diào)整粒子生命模擬的各個參數(shù),并測量CLIP提示詞對齊評分的標準差,來量化每個參數(shù)對模擬行為的重要性。
在確定最重要的參數(shù)后,發(fā)現(xiàn)其對應(yīng)于綠色和黃色粒子之間的交互強度,而這種交互對毛毛蟲的形成至關(guān)重要。
按對模擬行為的重要性對粒子生命模擬參數(shù)進行排序
下圖展示了Lenia模擬中CLIP向量隨模擬時間變化的速度。該指標在模擬看起來已經(jīng)定性靜止時精確達到平臺期,為模擬提供了一個有用的停止條件。
繪制Lenia中CLIP嵌入隨模擬時間變化的圖表,量化平臺信號
獨立于基礎(chǔ)模型
為了研究使用適當表示空間的重要性,研究人員對Lenia和Boids的啟迪式過程所使用的FM進行了消融實驗。
在實驗中,他們分別使用了CLIP、DINOv2以及低級像素表示作為對比。
如下圖所示,在生成與人類認知一致的多樣性方面,CLIP的表現(xiàn)似乎略優(yōu)于DINOv2,但兩者在質(zhì)量上都顯著優(yōu)于基于像素的表示。
這一結(jié)果強調(diào)了在衡量人類對多樣性概念的認知時,深度基礎(chǔ)模型表示(如CLIP和DINOv2)相比低級指標(如像素表示)的重要性。
基礎(chǔ)模型的重要性
在啟迪式實驗中,通過對基礎(chǔ)模型進行了消融分析,結(jié)果顯示,CLIP在創(chuàng)建與人類認知一致的多樣性方面表現(xiàn)略優(yōu)于DINOv2,但兩者均顯著優(yōu)于基于像素的表示。