LLM已能自我更新權重,自適應、知識整合能力大幅提升,AI醒了?
近段時間,關于 AI 自我演進/進化這一話題的研究和討論開始變得愈漸密集。
本月初我們就曾梳理報道了一些,包括 Sakana AI 與不列顛哥倫比亞大學等機構合作的「達爾文-哥德爾機(DGM)」、CMU 的「自我獎勵訓練(SRT)」、上海交通大學等機構提出的多模態大模型的持續自我改進框架「MM-UPT」、香港中文大學聯合 vivo 等機構的自改進框架「UI-Genie」。
那之后,相關研究依然還在不斷涌現,以下拼圖展示了一些例子:
而前些天,OpenAI CEO、著名 ?? 大 v 山姆?奧特曼在其博客《溫和的奇點(The Gentle Singularity)》中更是暢想了一個 AI/智能機器人實現自我改進后的未來。他寫道:「我們必須以傳統的方式制造出第一批百萬數量級的人形機器人,但之后它們能夠操作整個供應鏈來制造更多機器人,而這些機器人又可以建造更多的芯片制造設施、數據中心等等。」
不久之后,就有 ?? 用戶 @VraserX 爆料稱有 OpenAI 內部人士表示,該公司已經在內部運行能夠遞歸式自我改進的 AI。這條推文引起了廣泛的討論 —— 有人表示這不足為奇,也有人質疑這個所謂的「OpenAI 內部人士」究竟是否真實。
https://x.com/VraserX/status/1932842095359737921
但不管怎樣,AI 也確實正向實現自我進化這條路前進。
MIT 昨日發布的《Self-Adapting Language Models》就是最新的例證之一,其中提出了一種可讓 LLM 更新自己的權重的方法:SEAL??,即 Self-Adapting LLMs。在該框架中,LLM 可以生成自己的訓練數據(自編輯 /self-editing),并根據新輸入對權重進行更新。而這個自編輯可通過強化學習學習實現,使用的獎勵是更新后的模型的下游性能。
- 論文標題:Self-Adapting Language Models
- 論文地址:https://arxiv.org/pdf/2506.10943
- 項目頁面:https://jyopari.github.io/posts/seal
- 代碼地址:https://github.com/Continual-Intelligence/SEAL
這篇論文發布后引發了廣泛熱議。在 Hacker News 上,有用戶評論說,這種自編輯方法非常巧妙,但還不能說就已經實現了能「持續自我改進的智能體」。
論文一作 Adam Zweiger 也在 ?? 上給出了類似的解釋:
也有人表示,這表明我們正在接近所謂的事件視界(event horizon)—— 這個概念其實也出現在了山姆?奧特曼《溫和的奇點》博客的第一句話,不過奧特曼更激進一點,他的說法是「我們已經越過了事件視界」。簡單來說,event horizon(事件視界)指的是一個不可逆轉的臨界點,一旦越過,人類將不可避免地邁入某種深刻變革的階段,比如通向超級智能的道路。
當然,也有人對自我提升式 AI 充滿了警惕和擔憂。
下面就來看看這篇熱門研究論文究竟得到了什么成果。
自適應語言模型(SEAL)
SEAL 框架可以讓語言模型在遇到新數據時,通過生成自己的合成數據并優化參數(自編輯),進而實現自我提升。
該模型的訓練目標是:可以使用模型上下文中提供的數據,通過生成 token 來直接生成這些自編輯(SE)。
自編輯生成需要通過強化學習來學習實現,其中當模型生成的自編輯在應用后可以提升模型在目標任務上的性能時,就會給予模型獎勵。
因此,可以將 SEAL 理解為一個包含兩個嵌套循環的算法:一個外部 RL 循環,用于優化自編輯生成;以及一個內部更新循環,它使用生成的自編輯通過梯度下降更新模型。
該方法可被視為元學習的一個實例,即研究的是如何以元學習方式生成有效的自編輯。
通用框架
令 θ 表示語言模型 LM_θ 的參數。 SEAL 是在單個任務實例 (C, τ) 上運作,其中 C 是包含與任務相關信息的上下文,τ 定義了用于評估模型適應度(adaptation)的下游評估。
比如,在知識整合任務中,C 是旨在整合到模型內部知識中的段落,τ 是關于該段落的一組問題及其相關答案。而在少樣本學習任務中,C 包含某個新任務的少樣本演示,τ 是查詢輸入和 ground-truth 輸出。
給定 C,模型會生成一個自編輯 SE(其形式因領域而異),并通過監督微調更新自己的參數:θ′ ← SFT (θ, SE)。
該團隊使用了強化學習來優化自編輯的生成過程:模型執行一個動作(生成 SE),再根據 LM_θ′ 在 τ 上的表現獲得獎勵 r,并更新其策略以最大化預期獎勵:
不過,與標準強化學習設置不同,在這里的設置中,分配給給定動作的獎勵取決于執行動作時的模型參數 θ(因為 θ 會更新為 θ′,然后再被評估)。
如此一來,底層的強化學習狀態必定會包含策略的參數,并由 (C, θ) 給出,即使策略的觀測值僅限于 C(將 θ 直接置于上下文中是不可行的)。
這意味著,使用先前版本模型 θ_old 收集的 (state, action, reward) 三元組可能會過時,并且與當前模型 θ_current 不一致。因此,該團隊采用一種基于策略的方法,其中會從當前模型中采樣自編輯 SE,并且至關重要的是,獎勵也會使用當前模型進行計算。
該團隊嘗試了各種在線策略方法,例如組相對策略優化 (GRPO) 和近端策略優化 (PPO) ,但發現訓練不穩定。
最終,他們選擇了來自 DeepMind 論文《Beyond human data: Scaling self-training for problem-solving with language models.》的 ReST^EM,這是一種基于已過濾行為克隆的更簡單的方法 —— 也就是「拒絕采樣 + SFT」。
ReST^EM 可以被視為一個期望最大化 (EM) 過程:E-step 是從當前模型策略采樣候選輸出,M-step 是通過監督微調僅強化那些獲得正獎勵的樣本。這種方法可在以下二元獎勵下優化目標 (1) 的近似:
更準確地說,在優化 (1) 時,必須計算梯度 。然而,在這里的設置中,獎勵項 r (SE, τ, θ_t) 取決于 θ_t,但不可微分。為了解決這個問題,該團隊的做法是將獎勵視為相對于 θ_t 固定。通過這種近似,對于包含 N 個上下文和每個上下文 M 個采樣得到自編輯的小批量,其蒙特卡洛估計器變為:
其中 p_θ_t 表示模型的自回歸分布,y_s^(i,j) 是自編輯 SE_ij 的第 s 個 token,即上下文 C_i 的第 j 個樣本。由于在 (4) 中可以忽略 r = 0 的序列,該團隊研究表明:在二元獎勵 (2) 下(對獎勵項應用停止梯度),ReST^EM 只需使用簡單的「在好的自編輯上進行 SFT」,就能優化 (1)。算法 1 給出了 SEAL 的訓練循環。
最后,他們還注意到,雖然本文的實現是使用單個模型來生成自編輯并從這些自編輯中學習,但也可以將這些角色分離。在這樣一種「教師-學生」形式中,學生模型將使用由另一個教師模型提出的編輯進行更新。然后,教師模型將通過強化學習進行訓練,以生成能夠最大程度提高學生學習效果的編輯。
針對具體領域實例化 SEAL
理論有了,該團隊也打造了 SEAL 的實例。具體來說,他們選擇了兩個領域:知識整合和少樣本學習。
其中,知識整合的目標是有效地將文章中提供的信息整合到模型的權重中。下圖展示了相關設置。
而下圖則給出了少樣本學習的設置。
對這兩種實例化的更詳細描述請訪問原論文,下面來看看 SEAL 的實際表現。
實驗結果
少樣本學習
實驗所用的模型是 Llama-3.2-1B-Instruct,基準為 ARC。參與對比的方法包括 ICL(上下文學習)、TTT + 自編輯(無強化學習)、Oracle TTT。結果見下表。
可以看到,與基線相比,SEAL 顯著提高了適應成功率:72.5% vs. 20%(使用基礎模型的自編輯但未進行強化學習訓練)和 0%(無適應),但性能仍低于 Oracle TTT,表明新方法仍有進一步改進的空間。
知識整合
知識整合則使用了更大一些的 Qwen2.5-7B,目標是整合 SQuAD 文章中的新事實內容。這里對比的方法包括基礎模型、僅在文章上訓練的模型、在文章 + 合成數據訓練的模型、在文章 + GPT-4.1 合成數據上訓練的模型。結果見下表。
可以看到,在單篇文章(n = 1)和持續預訓練(n = 200)這兩種情況下,SEAL 方法的準確度表現都超過了基準。
首先使用基礎 Qwen-2.5-7B 模型生成的合成數據訓練后,模型的表現已經能獲得明顯提升,從 32.7% 分別提升到了 39.7% 和 41.0%,之后再進行強化學習,性能還能進一步提升(47.0% 和 43.8%)。
圖 4 展現了每次外部強化學習迭代后的準確度。
可以看到,兩次迭代足以使 SEAL 超越使用 GPT-4.1 數據的設置;后續迭代的收益會下降,這表明該策略快速收斂到一種將段落蒸餾為易于學習的原子事實的編輯形式(參見圖 5 中的定性示例)。
在這個例子中,可以看到強化學習如何導致生成更詳細的自編輯,從而帶來更佳的性能。雖然在這個例子中,進展很明顯,但在其他例子中,迭代之間的差異有時會更為細微。
另外,該團隊也在論文中討論了 SEAL 框架在災難性遺忘、計算開銷、上下文相關評估方面的一些局限,詳見原論文。
最后,來個小調查,你認為真正的自我進化式 AI 將在何時實現?