AI智能體2小時擊敗人類,引爆貝葉斯推理革命!僅用10%數(shù)據(jù)訓(xùn)練秒殺大模型
最近,Verses團隊在AI領(lǐng)域投下了一枚重磅炸彈,他們自研的Genius智能體,創(chuàng)造了一個幾乎不可能的奇跡——
只用10%數(shù)據(jù),訓(xùn)練2小時,就能打造出最強AI智能體!
在經(jīng)典游戲Pong中,Genius智能體多次達到完美的20分,一舉超越了苦練數(shù)天的其他AI,和頂尖的人類玩家。
更讓人驚掉下巴的是,它的規(guī)模只有SOTA模型IRIS的4%(縮小了96%),直接在搭載M1芯片的MacBook上就能跑。
Genius在「狀態(tài)好」時,甚至能削電腦一個「禿頭」
這一項目的靈感,來自一個四年前的實驗——科學(xué)家們培養(yǎng)的「盤中大腦」,用5分鐘學(xué)會了玩Pong游戲。
這啟發(fā)了科學(xué)家們思考,如果能夠模仿大腦的工作方式,是不是就能創(chuàng)造出更聰明、更高效的AI。
恰在2023年,這個大膽的想法,在Nature論文中得到了證實。
而現(xiàn)在,Verses團隊正將這種生物學(xué)的智慧,轉(zhuǎn)化為現(xiàn)實。
研究團隊表示,這標(biāo)志著首個超高效貝葉斯智能體在復(fù)雜多維度游戲環(huán)境中,實現(xiàn)通用解決方案的重要里程碑。
打造最強AI智能體,LLM并非良策
目前,所謂的AI智能體,大多數(shù)實際上只是在大模型基礎(chǔ)上,搭建的簡單架構(gòu)。
正如蘋果研究團隊,在去年10月arXiv論文中,直指現(xiàn)有的LLM,并不具備真正的邏輯推理能力。
它們更像是在「記憶」訓(xùn)練數(shù)據(jù)中,所見過的推理步驟。
論文地址:https://arxiv.org/pdf/2410.05229
實際上,這種局限性嚴重制約了AI智能體的實際應(yīng)用潛力。
即便是OpenAI推理模型o1,盡管代表著技術(shù)發(fā)展的重要里程碑,但其本質(zhì)仍是將BBF/EfficientZero(強化學(xué)習(xí))和 IRIS(Transformer)兩種方法結(jié)合到CoT推理計算中。
這種方法雖有創(chuàng)新,但其仍未觸及智能體進化的核心痛點。
那么,什么才是真正的突破口?
Verses團隊認為答案是,認知引擎。Genius就像是智能體的認知引擎。
它不僅提供了包括認知、推理、規(guī)劃、學(xué)習(xí)和決策在內(nèi)的執(zhí)行功能,更重要的是賦予了智能體真正的主動性、好奇心和選擇能力。
其中,主動性正是當(dāng)前基于LLM構(gòu)建的智能體,普遍缺失的的特質(zhì)。
我們現(xiàn)在已經(jīng)掌握了一種全新的「仿生方法」來實現(xiàn)通用機器智能,這種方法比上述兩種方法(即使是結(jié)合在一起)都要明顯更好、更快、更經(jīng)濟。
博客地址:https://www.verses.ai/blog/mastering-atari-games-with-natural-intelligence
1張A100,訓(xùn)練2小時
為了與SOTA的機器學(xué)習(xí)技術(shù)進行客觀對比,在這些初始測試中,研究者選擇了基于模型的IRIS系統(tǒng)。
該系統(tǒng)基于2017年突破性的Transformer架構(gòu)。這種方案能夠最快速地完成部署,從而將精力集中在推進自身研究上,而不是復(fù)制他人的工作。
值得一提的是,在Atari 100K測試中表現(xiàn)最優(yōu)的兩個系統(tǒng)——EfficientZero和BBF,都采用了深度強化學(xué)習(xí)技術(shù),這與Deepmind的AlphaZero、AlphaGo和AlphaFold所使用的方法一脈相承。
研究者在2小時內(nèi),用1萬步游戲數(shù)據(jù)分別訓(xùn)練了Geniu和IRIS(記為10k/2h)。
他們將Genius 10k/2h的性能與IRIS進行了對比,后者使用相同的1萬步數(shù)據(jù),但訓(xùn)練時間為2天(記為10k/2d)。
同時,他們還將Genius 10k/2h的性能與使用完整10萬步數(shù)據(jù)訓(xùn)練的BBF和EfficientZero的公開結(jié)果進行了比較。
性能評估采用人類標(biāo)準(zhǔn)化得分(HNS)來衡量,其中HNS 1.0代表人類水平的表現(xiàn),具體而言,相當(dāng)于人類玩家在2小時練習(xí)時間后(約等于10萬個樣本)在「Pong」游戲中對戰(zhàn)電腦時獲得的14.6分平均成績。
訓(xùn)練時間和模型規(guī)模
基于多次游戲運行采樣的定性結(jié)果
與Transformer和深度強化學(xué)習(xí)不同,Genius無需依賴強大的GPU進行訓(xùn)練。然而,為確保比較的公平性,所有測試均在AWS云平臺上使用同一張英偉達A100 GPU進行。
值得注意的是,無論訓(xùn)練時長如何,IRIS訓(xùn)練后的模型包含800萬個參數(shù),而Genius僅需35萬個參數(shù),模型體積減少了96%。
Pong游戲的定性分析
在Pong游戲中,IRIS 10k/2h的只會在角落里「抽搐」,而IRIS 10k/2d展現(xiàn)出一定的游戲能力,HNS在0.0到0.3之間。
相比之下,Genius在2小時1萬步訓(xùn)練后(10k/2h),就能達到超過HNS 1.0的水平,并在多次測試中獲得20分滿分。(劃到最右即可看到Genius如何從0比6落后一路實現(xiàn)反超)
從左到右滑動:IRIS 10k/2h,IRIS 10k/2d,Genius 10k/2h
下圖展示了IRIS和Genius在各自訓(xùn)練條件下所能達到的最高HNS。
需要說明的是,Genius的得分僅為初步測試結(jié)果,尚未經(jīng)過優(yōu)化
鑒于IRIS 10k/2h未能展現(xiàn)有效的游戲能力,研究者主要展示了IRIS 10k/2d和Genius與電腦對戰(zhàn)的質(zhì)性測試樣例。
這局比賽中,IRIS對陣電腦時以6:20落敗,而Genius則以20:6的優(yōu)勢戰(zhàn)勝了電腦對手。
下面這段視頻,展示了Genius在學(xué)習(xí)「Pong」游戲過程中,在漸進式在線學(xué)習(xí)方面的卓越表現(xiàn)。
在1萬步訓(xùn)練過程中,它依次取得了20:0、20:0、20:1、20:10、14:15的對戰(zhàn)成績。
特別是在第五局比賽中,當(dāng)訓(xùn)練進行到接近9,000步時,盡管電腦以14:3大幅領(lǐng)先,但Genius隨后展現(xiàn)出顯著的學(xué)習(xí)能力,開始持續(xù)得分,直至訓(xùn)練步數(shù)耗盡。
Boxing游戲定性分析
在「Boxing」拳擊游戲中,玩家控制白色角色,通過擊打黑色對手角色來獲取得分。
可以看到,只經(jīng)過2小時訓(xùn)練的IRIS,開局就被電腦各種完虐;而在經(jīng)過2天的訓(xùn)練之后,基本上可以和電腦「55開」了。
相比之下,Genius幾乎從一直就處于領(lǐng)先,并在最后以86比63贏得了比賽。
從左到右滑動:IRIS 10k/2h,IRIS 10k/2d,Genius 10k/2h
Freeway游戲定性分析
在Freeway游戲測試中,玩家需要控制小雞穿過馬路,同時避開來自不同方向、以不同速度行駛的汽車。
測試結(jié)果顯示,IRIS 10k/2h和IRIS 10k/2d模型均表現(xiàn)出隨機性行為,始終未能成功穿越馬路。
而Genius則展現(xiàn)出對游戲?qū)ο蠛蛣討B(tài)系統(tǒng)的深入理解,能夠持續(xù)且成功地在復(fù)雜車流中進行穿梭。
從左到右滑動:IRIS 10k/2h,IRIS 10k/2d,Genius 10k/2h
當(dāng)然研究者也強調(diào),雖然Atari 100k/10k、ARC-AGI能提供參考指標(biāo),但目前還沒有一個單一的測試,能全面衡量AGI在認知、物理、社交和情感智能等各個維度上的表現(xiàn)。
同時,也需要警惕模型可能出現(xiàn)的過擬合現(xiàn)象,即為了在特定基準(zhǔn)測試中取得高分而進行過度優(yōu)化。這種情況下,就并不能說明模型的泛化能力、效率或在現(xiàn)實應(yīng)用場景中的適用性。
因此,需要通過多樣化的測試來衡量給定模型架構(gòu)的適用性、可靠性、適應(yīng)性、可持續(xù)性、可解釋性、可擴展性以及其他能力。
怎么做到的?
之前Atari 100k挑戰(zhàn)排行榜上的SOTA都是以數(shù)據(jù)為中心,計算復(fù)雜度很高的方法,如Transformer、神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)和強化學(xué)習(xí)。
然而,這些基于深度學(xué)習(xí)和大模型的AI系統(tǒng)都存在一個共同的弱點:它們大多是通過工程技術(shù)手段構(gòu)建的,缺乏對智能本質(zhì)的深刻理解。
Genius并非僅僅是對以往SOTA的漸進式改進。研究者應(yīng)用了Karl Friston教授的自由能量原理、主動推斷框架和貝葉斯推理架構(gòu)。
Karl Friston近年來致力于自由能原理與主動推理的研究,該理論被認為是「自達爾文自然選擇理論后最包羅萬象的思想」,試圖從物理、生物和心智的角度提供智能體感知和行動的統(tǒng)一規(guī)律,從第一性原理出發(fā)解釋智能體更新認知、探索和改變世界的機制,對強化學(xué)習(xí)世界模型、通用AI等前沿方向具有重要啟發(fā)意義。
自由能原理認為,所有可變的量,只要作為系統(tǒng)的一部分,都會為最小化自由能而變化。
主動推理框架基于自由能原理提供了一個建模感知、學(xué)習(xí)和決策的統(tǒng)一框架。將感知和行動都看作是推斷的問題。
其核心觀點是:生物體認知與行為底層都遵循著相同的規(guī)則,即感官觀測的「意外」最小化。在這里,「意外」被用于衡量智能體當(dāng)前的感官觀測與偏好的感官觀測之間的差異。
主動推理路線圖
這些方法深深植根于生物智能背后的神經(jīng)科學(xué),它將智能系統(tǒng)視為預(yù)測引擎,而非僅僅被動式數(shù)據(jù)處理機器,這些系統(tǒng)能夠通過測量預(yù)期與感知數(shù)據(jù)之間的差異來實現(xiàn)高效學(xué)習(xí)。
其核心目標(biāo)是持續(xù)降低對環(huán)境的不確定性,具體方式是學(xué)習(xí)理解所觀察現(xiàn)象背后隱藏的因果動態(tài)關(guān)系,從而更好地預(yù)測結(jié)果并選擇最優(yōu)行動。
主動推理的框架概覽
這條運用神經(jīng)科學(xué)方法和生物學(xué)可行技術(shù)來解決Atari問題的另類途徑始于2022年。
當(dāng)時,F(xiàn)riston教授帶領(lǐng)Cortical Labs開發(fā)了一種「微型人類大腦」,并命名為DishBrain(培養(yǎng)皿大腦),這個「大腦」包含了大約80萬個腦細胞,僅僅用了5分鐘就學(xué)會了打「乒乓球」的游戲,而AI學(xué)會這一游戲需要花90分鐘時間。
這一研究證明了神經(jīng)元確實應(yīng)用了自由能量原理并通過主動推斷進行運作,并且即使是培養(yǎng)皿中的腦細胞也可以表現(xiàn)出內(nèi)在的智能,并隨著時間的推移改變行為。
論文地址:https://www.sciencedirect.com/science/article/pii/S0896627322008066
2023年,一篇發(fā)表在《自然》上的論文通過體外培養(yǎng)的大鼠皮層神經(jīng)元網(wǎng)絡(luò)進行因果推理,也證實了自由能原理的定量預(yù)測。
到了2024年初,研究者則更進一步,成功將這些在Dishbrain中展示的主動推斷機制純軟件化地應(yīng)用于乒乓球游戲。
主動推理及其對貝葉斯模型和算法的應(yīng)用代表了一種根本不同的AI架構(gòu),從設(shè)計上講,它比SOTA的ML方法更有效和高效。
如今Genius實現(xiàn)的,就是研究者此前開創(chuàng)的貝葉斯推理架構(gòu),它不僅提高了樣本效率和持續(xù)學(xué)習(xí)能力,還能優(yōu)雅地將先驗知識與新數(shù)據(jù)結(jié)合。
這一突破帶來了全新的先進機器智能方法,具有內(nèi)在的可靠性、可解釋性、可持續(xù)性、靈活性和可擴展性。
在統(tǒng)計學(xué)、機器學(xué)習(xí)和AI領(lǐng)域,貝葉斯推理因其在不確定性下的原則性概率推理方法而被視為一個強大而優(yōu)雅的框架,但迄今為止,其巨大的計算需求一直限制著它在玩具問題之外的應(yīng)用。
而Genius則代表了對這一障礙的超越,并提供了一個通用架構(gòu),使我們能夠在此基礎(chǔ)上構(gòu)建眾多高效的智能體,讓它們能夠?qū)W習(xí)并發(fā)展專業(yè)技能。
在不久的未來,也許我們再回首,就會發(fā)現(xiàn)這不僅標(biāo)志著貝葉斯革命的開始,更代表著機器智能發(fā)展的自然方向。
如下圖所示,虛線和漸變軌跡展現(xiàn)了智能體對已識別對象軌跡的概率預(yù)測——可能是球、高速行駛的汽車,或是拳擊手的刺拳。
這些不確定性的量化,結(jié)合置信度的計算,首次展示了智能體的預(yù)測和決策過程如何實現(xiàn)可解釋性。
這種系統(tǒng)的透明度和可審計性,與ML中不透明、難以解釋且無法量化的內(nèi)部處理過程形成了鮮明對比。
Genius智能體在三個經(jīng)典游戲中的面向?qū)ο箢A(yù)測能力:圖中的漸變點展示了智能體對游戲中物體當(dāng)前位置及其未來軌跡的預(yù)測推理
從AlphaGo到Atari,AI智能體新標(biāo)準(zhǔn)
現(xiàn)代,游戲已成為衡量機器智能的有效基準(zhǔn)。
1996年,IBM的深藍擊敗了國際象棋大師加里·卡斯帕羅夫時,整個世界都為之震撼。
這是一個具有明確規(guī)則和離散狀態(tài)空間的游戲。而深藍的成功主要依賴于暴力計算,通過評估數(shù)百萬種可能走法做出決策。
2016年,谷歌AlphaGo在圍棋比賽中擊敗了李世石,成為另一個重要的里程碑。
要知道,圍棋的可能棋盤配置數(shù)量比宇宙中的原子數(shù)量還要多。
AlphaGo展示了深度強化學(xué)習(xí)和蒙特卡洛樹搜索的強大能力,標(biāo)志著AI從暴力計算向具備模式識別和戰(zhàn)略規(guī)劃能力的重大跨越。
雖然AI在棋類游戲中取得了里程碑式的成就,但這些突破也僅局限于「靜態(tài)規(guī)則」的世界。
它們并不能模擬現(xiàn)實世界中的復(fù)雜動態(tài),而現(xiàn)實世界中變化是持續(xù)的,需要適應(yīng)不斷變化的條件甚至變化的規(guī)則。
由此,電子游戲已經(jīng)成為測試智能的新標(biāo)準(zhǔn),因為它們提供了受控的環(huán)境,其規(guī)則需要通過互動來學(xué)習(xí),而成功的游戲過程需要戰(zhàn)略規(guī)劃。
Atari游戲已成為評估AI智能體建模和駕馭復(fù)雜動態(tài)系統(tǒng)能力的最佳評估標(biāo)準(zhǔn)。
2013年,DeepMind發(fā)布了一篇論文,闡述基于強化學(xué)習(xí)的模型DQN如何能以超越人類水平玩Atari游戲,但前提是需要數(shù)億次環(huán)境交互來完成訓(xùn)練。
論文地址:https://arxiv.org/pdf/1312.5602
2020年,DeepMind發(fā)表了另一篇基于DRL的Agent57的論文,該系統(tǒng)在57個Atari游戲中超越了人類基準(zhǔn)水平,但它需要訓(xùn)練近800億幀。
論文地址:https://arxiv.org/pdf/2003.13350
為了推動更高效的解決方案,Atari 100k挑戰(zhàn)賽應(yīng)運而生。這一挑戰(zhàn)將訓(xùn)練交互限制在100k次內(nèi),相當(dāng)于2小時的游戲訓(xùn)練,就能獲得類似的游戲能力。
直到2024年初,Verses團隊創(chuàng)下新紀錄——
展現(xiàn)了由Genius驅(qū)動的AI智能體如何能在Atari 100k挑戰(zhàn)賽中,僅用原來1/10訓(xùn)練數(shù)據(jù),匹配或超越最先進方法的表現(xiàn)。
不僅如此,它還顯著減少了計算量,同時生成的模型大小僅為基于DRL或Transformer構(gòu)建的頂級模型的一小部分。
如果用汽車來打比方,DQN和Agent57就像是耗油的悍馬,Atari 100k的方法就像是節(jié)能的普銳斯,而Atari 10k就像是特斯拉,代表著一種高效的革新架構(gòu)。
為什么Atari 100k很重要
Atari 100k基準(zhǔn)測試的重要性,體現(xiàn)在哪里?
它旨在測試智能體在有限訓(xùn)練數(shù)據(jù)條件,下在三個關(guān)鍵領(lǐng)域的表現(xiàn)能力:交互性、泛化性和效率。
1. 交互性
交互性衡量了智能體在動態(tài)環(huán)境中學(xué)習(xí)和適應(yīng)的能力,在這種環(huán)境中,智能體的行為直接影響最終結(jié)果。
在Atari游戲中,智能體必須實時行動、響應(yīng)反饋并調(diào)整其行為以取得成功。這種能力正好反映了現(xiàn)實世界中適應(yīng)性至關(guān)重要的場景。
2. 泛化性
泛化性則評估了智能體將學(xué)習(xí)到的策略,應(yīng)用于具有不同規(guī)則和挑戰(zhàn)的各種游戲的能力。
也就是確保智能體不會過擬合單一任務(wù),而是能夠在各種不同領(lǐng)域中都表現(xiàn)出色,展現(xiàn)真正的適應(yīng)性。
3. 效率
效率主要關(guān)注智能體在有限數(shù)據(jù)和計算資源條件下快速學(xué)習(xí)有效策略的能力。
100k步驟的限制突顯了高效學(xué)習(xí)的重要性——這對于現(xiàn)實世界中數(shù)據(jù)通常稀缺的應(yīng)用場景來說尤為重要。
任何開發(fā)者都可以編寫自定義程序,來解決游戲和邏輯謎題。而Deepmind的原始DQ 方法和Atari 100k都已證明,通過足夠的人工干預(yù)和大量的數(shù)據(jù)與計算資源,傳統(tǒng)機器學(xué)習(xí)可以被調(diào)整和擬合,以掌握像雅達利這樣的游戲。
而Genius的亮點在于,它能夠自主學(xué)習(xí)如何玩游戲,而且僅使用了Atari 100k 10%的數(shù)據(jù)量!
這,就讓它跟現(xiàn)實世界中的問題更相關(guān)了。因為在現(xiàn)實場景中,數(shù)據(jù)往往是稀疏的、不完整的、帶有噪聲的,而且會實時變化。
廣泛的商業(yè)應(yīng)用前景
近來,行業(yè)的動態(tài)值得令人深思。
- 微軟宣布計劃重啟三哩島核電站,以支持其AI數(shù)據(jù)中心的發(fā)展規(guī)劃
- Meta計劃在2024年底前部署相當(dāng)于600,000塊H100的算力(每塊售價3萬美元)
- 據(jù)估計,OpenAI o3單次任務(wù)的成本可能超過1,000美元
撇開不可靠性和不可解釋性不談,訓(xùn)練和運行這些超大規(guī)模過度參數(shù)化(overparameterized)模型的財務(wù)成本、能源消耗和碳排放,不僅在經(jīng)濟和環(huán)境上不可持續(xù),更與生物智能的運作方式背道而馳。
要知道,人類大腦僅需要20瓦的能量就能完成復(fù)雜的認知任務(wù),相當(dāng)于一個普通燈泡的功率。
更令業(yè)界擔(dān)憂的是,高質(zhì)量訓(xùn)練數(shù)據(jù)正在耗盡。而使用合成數(shù)據(jù)作為替代方案,可能導(dǎo)致「模型崩潰」(model collapse),讓模型性能逐漸退化。
模型崩潰:這組圖像展示了當(dāng)AI模型僅使用合成數(shù)據(jù)進行訓(xùn)練時可能出現(xiàn)的問題。從左到右可以觀察到圖像質(zhì)量的持續(xù)劣化過程,清晰地展示了模型性能逐步降低的現(xiàn)象
構(gòu)建有效(可靠)、可信(可解釋)和高效(可持續(xù))的 智能體,如果能夠通過單一的可泛化(靈活)架構(gòu)來實現(xiàn),其影響可能將達到改變?nèi)祟愇拿鬟M程的規(guī)模。
未來AI發(fā)展方向,或許不應(yīng)該是由少數(shù)科技巨頭控制的幾個龐大的模型,而是部署數(shù)萬億個低成本、超高效、專業(yè)化的自組織智能體。
它們可以在邊緣計算端和云端協(xié)同運作,通過協(xié)調(diào)與合作,在從個體到集體的各個層面都遵循著一個共同的、表面上看似簡單的內(nèi)在目標(biāo)——追求理解,即降低不確定性。
這種新型智能體特別適合處理那些具有持續(xù)變化、數(shù)據(jù)資源受限,同時要求更智能、更安全、更可持續(xù)的問題領(lǐng)域。
比如,在金融、醫(yī)療、風(fēng)險分析、自動駕駛、機器人技術(shù)等多個領(lǐng)域,應(yīng)用前景廣闊。
這場關(guān)于AI未來的游戲,才剛剛開始。