LLM已能自我更新權重，自適應、知識整合能力大幅提升，AI醒了？

2025-06-16 08:46:00

這篇論文發布后引發了廣泛熱議。在 Hacker News 上，有用戶評論說，這種自編輯方法非常巧妙，但還不能說就已經實現了能「持續自我改進的智能體」。

近段時間，關于 AI 自我演進/進化這一話題的研究和討論開始變得愈漸密集。

本月初我們就曾梳理報道了一些，包括 Sakana AI 與不列顛哥倫比亞大學等機構合作的「達爾文-哥德爾機（DGM）」、CMU 的「自我獎勵訓練（SRT）」、上海交通大學等機構提出的多模態大模型的持續自我改進框架「MM-UPT」、香港中文大學聯合 vivo 等機構的自改進框架「UI-Genie」。

那之后，相關研究依然還在不斷涌現，以下拼圖展示了一些例子：

而前些天，OpenAI CEO、著名 ?? 大 v 山姆?奧特曼在其博客《溫和的奇點（The Gentle Singularity）》中更是暢想了一個 AI/智能機器人實現自我改進后的未來。他寫道：「我們必須以傳統的方式制造出第一批百萬數量級的人形機器人，但之后它們能夠操作整個供應鏈來制造更多機器人，而這些機器人又可以建造更多的芯片制造設施、數據中心等等。」

不久之后，就有 ?? 用戶 @VraserX 爆料稱有 OpenAI 內部人士表示，該公司已經在內部運行能夠遞歸式自我改進的 AI。這條推文引起了廣泛的討論 —— 有人表示這不足為奇，也有人質疑這個所謂的「OpenAI 內部人士」究竟是否真實。

https://x.com/VraserX/status/1932842095359737921

但不管怎樣，AI 也確實正向實現自我進化這條路前進。

MIT 昨日發布的《Self-Adapting Language Models》就是最新的例證之一，其中提出了一種可讓 LLM 更新自己的權重的方法：SEAL??，即 Self-Adapting LLMs。在該框架中，LLM 可以生成自己的訓練數據（自編輯 /self-editing），并根據新輸入對權重進行更新。而這個自編輯可通過強化學習學習實現，使用的獎勵是更新后的模型的下游性能。

論文標題：Self-Adapting Language Models
論文地址：https://arxiv.org/pdf/2506.10943
項目頁面：https://jyopari.github.io/posts/seal
代碼地址：https://github.com/Continual-Intelligence/SEAL

這篇論文發布后引發了廣泛熱議。在 Hacker News 上，有用戶評論說，這種自編輯方法非常巧妙，但還不能說就已經實現了能「持續自我改進的智能體」。

論文一作 Adam Zweiger 也在 ?? 上給出了類似的解釋：

也有人表示，這表明我們正在接近所謂的事件視界（event horizon）—— 這個概念其實也出現在了山姆?奧特曼《溫和的奇點》博客的第一句話，不過奧特曼更激進一點，他的說法是「我們已經越過了事件視界」。簡單來說，event horizon（事件視界）指的是一個不可逆轉的臨界點，一旦越過，人類將不可避免地邁入某種深刻變革的階段，比如通向超級智能的道路。

當然，也有人對自我提升式 AI 充滿了警惕和擔憂。

下面就來看看這篇熱門研究論文究竟得到了什么成果。

自適應語言模型（SEAL）

SEAL 框架可以讓語言模型在遇到新數據時，通過生成自己的合成數據并優化參數（自編輯），進而實現自我提升。

該模型的訓練目標是：可以使用模型上下文中提供的數據，通過生成 token 來直接生成這些自編輯（SE）。

自編輯生成需要通過強化學習來學習實現，其中當模型生成的自編輯在應用后可以提升模型在目標任務上的性能時，就會給予模型獎勵。

因此，可以將 SEAL 理解為一個包含兩個嵌套循環的算法：一個外部 RL 循環，用于優化自編輯生成；以及一個內部更新循環，它使用生成的自編輯通過梯度下降更新模型。

該方法可被視為元學習的一個實例，即研究的是如何以元學習方式生成有效的自編輯。

通用框架

令 θ 表示語言模型 LM_θ 的參數。 SEAL 是在單個任務實例 (C, τ) 上運作，其中 C 是包含與任務相關信息的上下文，τ 定義了用于評估模型適應度（adaptation）的下游評估。

比如，在知識整合任務中，C 是旨在整合到模型內部知識中的段落，τ 是關于該段落的一組問題及其相關答案。而在少樣本學習任務中，C 包含某個新任務的少樣本演示，τ 是查詢輸入和 ground-truth 輸出。

給定 C，模型會生成一個自編輯 SE（其形式因領域而異），并通過監督微調更新自己的參數：θ′ ← SFT (θ, SE)。

該團隊使用了強化學習來優化自編輯的生成過程：模型執行一個動作（生成 SE），再根據 LM_θ′ 在 τ 上的表現獲得獎勵 r，并更新其策略以最大化預期獎勵：

不過，與標準強化學習設置不同，在這里的設置中，分配給給定動作的獎勵取決于執行動作時的模型參數 θ（因為 θ 會更新為 θ′，然后再被評估）。

如此一來，底層的強化學習狀態必定會包含策略的參數，并由 (C, θ) 給出，即使策略的觀測值僅限于 C（將 θ 直接置于上下文中是不可行的）。

這意味著，使用先前版本模型 θ_old 收集的 (state, action, reward) 三元組可能會過時，并且與當前模型 θ_current 不一致。因此，該團隊采用一種基于策略的方法，其中會從當前模型中采樣自編輯 SE，并且至關重要的是，獎勵也會使用當前模型進行計算。

該團隊嘗試了各種在線策略方法，例如組相對策略優化 (GRPO) 和近端策略優化 (PPO) ，但發現訓練不穩定。

最終，他們選擇了來自 DeepMind 論文《Beyond human data: Scaling self-training for problem-solving with language models.》的 ReST^EM，這是一種基于已過濾行為克隆的更簡單的方法 —— 也就是「拒絕采樣 + SFT」。

ReST^EM 可以被視為一個期望最大化 (EM) 過程：E-step 是從當前模型策略采樣候選輸出，M-step 是通過監督微調僅強化那些獲得正獎勵的樣本。這種方法可在以下二元獎勵下優化目標 (1) 的近似：

更準確地說，在優化 (1) 時，必須計算梯度。然而，在這里的設置中，獎勵項 r (SE, τ, θ_t) 取決于 θ_t，但不可微分。為了解決這個問題，該團隊的做法是將獎勵視為相對于 θ_t 固定。通過這種近似，對于包含 N 個上下文和每個上下文 M 個采樣得到自編輯的小批量，其蒙特卡洛估計器變為：

其中 p_θ_t 表示模型的自回歸分布，y_s^(i,j) 是自編輯 SE_ij 的第 s 個 token，即上下文 C_i 的第 j 個樣本。由于在 (4) 中可以忽略 r = 0 的序列，該團隊研究表明：在二元獎勵 (2) 下（對獎勵項應用停止梯度），ReST^EM 只需使用簡單的「在好的自編輯上進行 SFT」，就能優化 (1)。算法 1 給出了 SEAL 的訓練循環。