LSTM之父22年前構想將成真?一周內AI「自我進化」論文集中發布,新趨勢涌現?
讓 AI 實現自我進化是人類一直以來的夢想。
早在 2003 年,AI 先驅、LSTM 之父 Jürgen Schmidhuber 就提出過一種名為「哥德爾機(G?del Machine)」的構想——它使用一種遞歸的自我改進協議,如果能夠證明新代碼的策略較佳,就會重寫自己的代碼。但這終究只是一個假想。
近年來,關于模型自我學習、進化的研究逐漸多了起來,很多研究者的目標在逐漸從單純的「訓練模型」向「讓模型學會自我學習和自我進化」轉變,谷歌最近發布的 AlphaEvolve 就是其中的重要代表。
在過去的一周,這一方向的進展尤其豐富。有人發現,幾篇關于「讓 LLM(或智能體)學會自我訓練」的論文在 arXiv 上集中出現,其中甚至包括受「哥德爾機」構想啟發而提出的「達爾文哥德爾機」。或許,AI 模型的自我進化能力正在加速提升。
在這篇文章中,我們將詳細介紹最近的幾篇論文,它們分別是:
- Sakana AI 與不列顛哥倫比亞大學等機構合作的「達爾文哥德爾機(DGM)」:DGM 利用基礎模型和開放式算法來創建和評估新的 AI 智能體,并能夠讀取和修改自身的 Python 代碼庫以進行自我改進,還通過評估在編碼基準上的性能來判斷更改是否有效。實驗表明,DGM 可以持續自我改進,并能在不同模型和編程語言之間實現遷移。
- CMU 的「自我獎勵訓練(SRT)」:提出了一種名為「自我獎勵訓練」的在線自我訓練強化學習算法,旨在讓大型語言模型通過自身的判斷信號進行自我監督和訓練,從而在沒有外部標簽的情況下提升性能。
- 上海交通大學等機構提出的多模態大模型的持續自我改進框架「MM-UPT」:在完全無監督場景下,通過強化學習框架 GRPO 實現多模態大模型的持續自我改進。他們提出了一種簡潔而高效的框架:MM-UPT(Multi-Modal Unsupervised Post-Training),并在多個圖文數學推理 benchmarks 上驗證了其有效性。
- 香港中文大學聯合 vivo 等機構的自改進框架「UI-Genie」:旨在解決 GUI 智能體中的兩大核心挑戰:一是軌跡結果的驗證十分困難,二是高質量訓練數據的規模化獲取不易。針對這兩個挑戰,研究團隊分別提出了一種獎勵模型和一個自改進流水線。
達爾文哥德爾機:讓 AI 通過重寫自己的代碼實現自我改進
- 論文標題:Darwin G?del Machine: Open-Ended Evolution of Self-Improving Agents
- 論文鏈接:https://arxiv.org/abs/2505.22954
- 博客:https://sakana.ai/dgm/
人工智能研究的一個長期目標是創造能夠持續學習的 AI 系統。實現這一目標的一條誘人路徑是讓 AI 通過重寫自身代碼(包括負責學習的代碼)來實現自我改進。這一由 Jürgen Schmidhuber 數十年前提出的構想被稱為「哥德爾機」,是一種假想中的自我改進型 AI。當它在數學上證明存在更優策略時,它會通過遞歸地重寫自身代碼來優化問題解決方案,因此成為元學習(即「學會學習」)領域的核心概念。
雖然理論上的哥德爾機能確保可證明的良性自我修改,但其實現依賴于一個不切實際的假設:AI 必須能在數學上證明代碼修改會帶來凈效益才會實施變更。
針對此問題,Sakana AI 與不列顛哥倫比亞大學 Jeff Clune 實驗室合作,提出了一種更可行的方案:利用達爾文進化等開放式算法的原理,通過實證檢驗來尋找能提升性能的改進方法。
他們將這一成果命名為「達爾文哥德爾機(DGM)」。DGM 系統利用基礎模型提出代碼改進方案,并采用開放式算法的最新創新來搜索不斷增長的多樣化優質 AI 智能體庫。實驗表明,DGM 獲得的算力越多,自我改進效果就越顯著。鑒于依賴學習的 AI 系統終將超越人工設計系統這一明確趨勢,DGM 很可能在短期內超越人工設計的 AI 系統。
第一個 DGM 是一個編碼智能體,它能夠:
- 讀取并修改自己的代碼;
- 評估修改是否提高了性能;
- 開放式地探索 AI 設計空間。
達爾文哥德爾機是一種通過重寫自身代碼來提升編程任務性能的自我改進型編程智能體。它能實現多種自我改進,包括:增加補丁驗證步驟、優化文件查看功能、增強編輯工具、生成并排序多個解決方案以選擇最優選項,以及在實施新修改時記錄歷史嘗試記錄(包括失敗原因)。
達爾文哥德爾機通過運用開放式探索原則,逐步構建起一個不斷擴增的智能體庫。該系統通過交替執行自我修改與下游任務評估的方式,持續創建新智能體并對其進行評分。
在 sw-bench 上,DGM 自動將其性能從 20.0% 提高到 50.0%。在 Polyglot 上,DGM 的表現從最初的 14.2% 躍升至 30.7%,遠遠超過了 Aider 手工設計的代表性智能體。這些可觀的收益證明了 DGM 發現并實現對其自身代碼的有益更改的能力。
模型的自我獎勵訓練:潛力、崩潰與緩解策略
- 論文標題:Can Large Reasoning Models Self-Train?
- 論文鏈接:https://arxiv.org/abs/2505.21444
- 項目地址:https://self-rewarding-llm-training.github.io/
- 代碼地址:https://github.com/tajwarfahim/srt
- 數據集:https://huggingface.co/collections/ftajwar/self-rewarding-llm-training-6835218091832c3664176553
通過可驗證獎勵進行的強化學習顯著增強了大語言模型的推理能力,尤其是在數學和編碼方面。然而,這種方法依賴于人工創建的真實標簽驗證器,這使得為每個問題生成獎勵信號的成本高昂且受到限制。在這項工作中,研究團隊提出以下問題:
- 推理模型能否僅使用自身的反饋進行自我訓練,而無需訪問真實標簽?
- 自我訓練的性能能否達到基于真實標簽的強化學習訓練的水平?
- 自我訓練能否無限期持續?其改進最終是否會受到限制?
- 哪些策略可以有效地維持模型的自我訓練?
自我獎勵培訓(SRT)
受先前基于一致性自我提升研究的啟發,研究團隊引入了一種簡單而有效的自我訓練強化學習方法論,稱為自我獎勵訓練(Self-Rewarded Training,SRT)。該方法在強化學習訓練期間,通過模型生成的多個解決方案之間的一致性來評估正確性,從而在沒有標注數據的情況下提供自監督信號。
SRT 概覽。在 RLVR 方法中,系統通過真實驗證器生成用于強化學習訓練的獎勵信號。與之相反,SRT 方法并不依賴真實驗證器,而是通過模型自身生成結果的多數投票機制來估算真實值,并利用這一替代性獎勵信號來訓練模型。
SRT 與早期訓練階段的 RL 性能相匹配
研究團隊通過經驗證明,在早期訓練階段,SRT 能夠達到與那些在黃金標準答案上進行顯式訓練的標準強化學習方法相媲美的性能。測試數據集包括:AMC、AIME24、AIME25。 然而,研究團隊發現其性能最終會崩潰,例如在最右圖中展示的 DAPO 數據集上的訓練情況。
自我訓練必然會崩潰
研究團隊分析了 SRT 在具有挑戰性的 DAPO 數據集上訓練時的訓練動態。
這些發現表明,模型通過產生一致(見上方第二個圖)但錯誤(見上方最左圖)的答案來學習最大化自我分配的獎勵。人工檢查證實了這一點:在崩潰之后,模型的輸出會退化為隨機的詞元序列,并帶有一個固定的、與提示無關的答案(例如,「答案是 1」)。這種行為有一個簡單而精確的理論依據:
由 SRT 目標定義的強化學習優化問題明確鼓勵輸出之間的一致性,而不考慮其正確性。因此,在該目標下的最優策略會退化為無論輸入如何都產生相同的答案,從而人為地最大化獎勵。在這種代理 (proxy) 目標上持續進行自我訓練,自然會驅動模型朝向這種平凡解 (trivial solution) 發展,特別是當這種解比解決實際任務更簡單時。
緩解策略可能是有效的
研究團隊提出了一些策略來緩解獎勵作弊 (reward hacking),為未來維持模型持續改進的有效方法奠定基礎。
(i)早停(Early Stopping):一個小的驗證集可以可靠地檢測到模型的最佳性能點,并防止在自我訓練過程中發生崩潰。對于所有的留出集(heldout sets),最佳性能點幾乎出現在同一位置,因此使用任何一個留出集進行早停都是有效的。
(ii)使用離線生成的標簽進行自我訓練:一種有效的方法是從一個穩定的、先前固定的檢查點生成偽標簽,而不是利用來自演進中的策略的標簽。這樣做可以穩定訓練,同時達到與 SRT 相當的性能。
(iii)結合課程學習的自我訓練:研究團隊假設,在更具挑戰性的數據集上訓練時,模型崩潰會發生得更快,這一推測與研究團隊的經驗性發現一致。其直覺是,在更具挑戰性的數據集上,模型更容易放棄其預訓練知識,轉而優化自我一致性,而不是真正學習解決潛在的任務。研究團隊利用這一假設,通過根據(a)通過率和(b)多數投票的頻率來識別 DAPO 數據集中「最簡單」的子集,從而實施一種課程學習策略(更多細節請參見論文)。
在這些課程子集上的性能達到了與在整個 DAPO 數據集上使用真實標簽進行標準強化學習訓練相當的水平。這些富有前景的結果表明,課程學習策略可能會進一步擴展 SRT 的益處,為未來的研究開辟了激動人心的途徑。
MM-UPT:多模態大模型的持續自我進化
- 論文標題:Unsupervised Post-Training for Multi-Modal LLM Reasoning via GRPO
- 論文鏈接:https://arxiv.org/abs/2505.22453
- 項目代碼:https://github.com/waltonfuture/MM-UPT
近年來,多模態大語言模型在視覺問答、圖文推理等任務上取得了顯著進展。然而,要在這些強大的基礎模型之上進一步提升性能,往往需要依賴高質量人工標注數據進行監督微調或強化學習,這在成本與可擴展性上面臨嚴峻挑戰。過往研究雖然探索了無監督后訓練方法,但大多流程復雜、難以迭代、數據利用率低。
在這篇論文中,作者首次探索了在完全無監督場景下,通過強化學習框架 GRPO 實現多模態大模型的持續自我改進。他們提出了一種簡潔而高效的框架:MM-UPT(Multi-Modal Unsupervised Post-Training),并在多個圖文數學推理 benchmarks 上驗證了其有效性。
MM-UPT 的核心思想主要為以下兩個關鍵點:
- 強化學習中的 GRPO 提供了穩定高效的在線策略優化能力;
- 多數投票可以在無標簽數據上為模型輸出生成偽標簽,驅動自我優化。
整個流程如下:
- 給定一張圖片和一個問題,模型生成多個候選回答;
- 使用多數投票選出出現頻率最高的回答,作為當前輸入的「偽標簽」;
- 使用這個「偽標簽」來計算 reward,引導模型根據 GRPO 策略更新;
這整個過程無需任何外部監督信號或真實答案,使得模型可以基于自身的「共識」行為進行強化學習,從而實現持續的性能提升。
作者在四個多模態數學推理基準測試集(MathVisioan、MathVista、We-Math、MathVerse)上進行了廣泛實驗。表格 1 的結果顯示:
- 在使用標準的訓練集但不使用任何人工標注答案的情況下,MM-UPT 可以使 Qwen2.5-VL-7B 的準確率從 66.3% 提升至 72.9%(MathVista);
- 超過之前的無監督自我改進方法(如 Genixer、STIC、SRLM 等);
- 表現甚至媲美有監督的 GRPO;
在標準數據集上遮蓋答案進行無監督訓練后,作者進一步探究了一個更具挑戰的問題:模型能否通過自己生成訓練數據來實現自我提升?為此,MM-UPT 引入了兩種簡單的合成數據生成策略:
In-Context Synthesizing(上下文引導生成)
模型在給定圖像、原問題和原答案的前提下生成一個新的問題。生成的問題與原問題在結構上相近,相當于進行語義改寫或條件替換來進行數據增強。
Direct Synthesizing(直接生成)
僅提供圖像輸入,模型完全基于圖片內容生成問題。這種方法生成的問題更加多樣,但也存在一定概率的幻覺。 無論使用哪種方式生成問題,MM-UPT 都采用多數投票生成偽標簽,驅動模型進行強化學習更新。
表格 2 中的結果顯示:即便訓練數據完全由模型自己生成,MM-UPT 仍然能顯著提升多模態推理能力,甚至在部分任務上超越使用原始問題的數據。這表明,多模態大模型具備一定的「自我提問 + 自我優化」的潛力,為未來依靠 AI 自行生成訓練語料進行自我進化的范式提供了堅實基礎。
MM-UPT 為什么有效?作者用一個簡單的例子解釋了其有效性。假設模型對某個二分類問題,模型每次預測正確的概率較高,。從該模型獨立采樣
個回答
,多數投票選出出現頻率最高的答案作為偽標簽。定義隨機變量
表示預測正確的次數,則多數投票正確的概率為:
由于,有:
即:多數投票比單次預測更可靠。這就是 MM-UPT 中用多數投票作為偽標簽的合理性所在 —— 它可以構造一個有效的自監督獎勵信號。但作者也指出了邊界條件:當模型對任務缺乏先驗時(如在 ThinkLite-11K 這種困難的數據集上),多數投票會反而強化錯誤預測,導致性能下降。
總的來說,MM-UPT 為多模態大模型的后訓練階段提供了一種無需人工標注、無需外部獎勵模型的自我提升方式,展現了強化學習在無監督場景下的潛力。后續可以探索結合更強的自我評估機制(如 LLM-as-a-Judge)、復雜 reward 設計等,進一步拓展 MM-UPT 框架的能力邊界。
UI-Genie:賦能 GUI 智能體高效自改進的新框架
- 論文標題:UI-Genie: A Self-Improving Approach for Iteratively Boosting MLLM-based Mobile GUI Agents
- 論文鏈接:https://arxiv.org/abs/2505.21496
- 項目地址:https://github.com/Euphoria16/UI-Genie
在這篇論文中,研究團隊介紹了一種名為 UI-Genie 的自改進框架,旨在解決 GUI 智能體中的兩大核心挑戰:一是軌跡結果的驗證十分困難,二是高質量訓練數據的規模化獲取不易。針對這兩個挑戰,研究團隊分別提出了一種獎勵模型和一個自改進流水線。
該獎勵模型,即 UI-Genie-RM,采用了一種圖文交錯的架構,能夠高效處理歷史上下文信息,并統一了動作級別和任務級別的獎勵:
- 通過迭代式合成軌跡生成,消除人工標注
- 通過自改進循環,共同演進智能體和獎勵模型
- 無需人工干預即可生成高質量數據集
為了支持 UI-Genie-RM 的訓練,研究團隊開發了精心設計的數據生成策略,包括基于規則的驗證、受控的軌跡損壞以及難負例挖掘。
為應對第二個挑戰,研究團隊設計了一個自改進流水線,通過在動態環境中進行獎勵引導的探索和結果驗證,逐步增強智能體和獎勵模型的能力,從而擴展可解決的復雜 GUI 任務范圍。
在模型訓練方面,研究團隊生成了 UI-Genie-RM-517k 和 UI-Genie-Agent-16k 數據集,這不僅是首個針對 GUI 智能體的獎勵專用數據集,同時也展示了無需人工標注即可生成高質量合成軌跡的能力。
UI-Genie 數據集統計信息。UI-Genie-RM-517k 是首個專用于 GUI 智能體的獎勵數據集,而 UI-Genie-Agent-16k 則包含了無需人工標注的合成軌跡。
實驗結果表明,經過三代數據與模型的自改進迭代,UI-Genie 在多個 GUI 智能體基準測試中均達到了業界領先水平。研究團隊已將完整的框架實現和生成的數據集開源,以促進該領域的進一步研究。
UI-Genie、Qwen2.5-VL 和 UI-TARS 在三個基準上的性能比較。
關于模型自我改進的論文還有很多,如果你也在做相關研究,歡迎在評論區留言推薦自己的工作。