成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

甭提靜態AI了,MIT新框架讓模型具備自學能力

譯文 精選
人工智能
話雖如此,SEAL并非萬能解決方案。比如它可能存在“災難性遺忘”,即持續的重訓練周期可能導致模型學習早期知識。

作者 | Ben Dickson

編譯 | 沈建苗

出品 | 51CTO技術棧(微信號:blog51cto)

近日,麻省理工學院(MIT)的研究人員已開發出一種名為自適應語言模型(SEAL)的框架,使大語言模型(LLM)能夠通過更新自身的內部參數來持續學習和適應。SEAL可以教LLM生成自己的訓練數據并更新指令,讓LLM能夠永久吸收新知識并學習新任務。

這種框架特別適用于企業應用環境,尤其適用于在動態環境中運行的AI智能體,它們必須不斷處理新信息并調整其行為。

1.LLM的適應性挑戰

雖然LLM已具備了卓越能力,但讓它們適應特定任務、整合新信息或掌握新穎的推理技能仍然面臨一大障礙。

目前面對新任務時,LLM通常通過微調或上下文學習等方法從原始數據中學習。然而,所提供的數據其格式并不總是最適合模型高效學習?,F有方法無法讓模型自主開發策略,以實現最佳的新信息轉換和學習。

MIT博士生、論文共同作者Jyo Pari向IT媒體VentureBeat表示:“許多企業應用場景需要的不僅僅是事實回憶,而是更深層、持久的適應能力。比如說,編程助手可能需要內化(消化并吸收)一家公司的特定軟件框架,或者面向客戶的模型需要逐漸學習用戶的獨特行為或偏好。”

在這類情況下,臨時檢索遠遠不夠,知識需要“融入”到模型的權重中,以便影響未來的所有響應。

2.創建自適應語言模型

MIT研究人員在論文中表示:“為了實現語言模型的可擴展高效適應,我們提議為LLM賦予生成自己的訓練數據和微調指令以使用這類數據的能力。”

圖1. SEAL框架示意圖圖片來源:arXiv圖1. SEAL框架示意圖圖片來源:arXiv

研究人員提出的解決方案是SEAL,即自適應語言模型。它使用強化學習(RL)算法來訓練LLM生成“自編輯”(self-edits),這是指定模型應如何更新自身權重的自然語言指令。這些自編輯可以重構新信息、創建合成訓練樣例,甚至定義學習過程本身的技術參數。

簡單地說,SEAL可以教模型如何自行創建個性化的學習指南。模型不是僅僅閱讀新文檔(原始數據),而是學會將該信息重寫和重新格式化為更容易吸收和內化的形式。這個過程結合了AI研究的幾個關鍵領域,包括合成數據生成、強化學習和測試時訓練(TTT)。

該框架采用雙循環系統。在“內循環”(inner loop)中,模型使用自編輯對權重進行小幅臨時更新。在“外循環”(out loop)中,系統評估該更新是否改善了模型處理目標任務的性能。如果確實有改善,模型獲得正向獎勵,強化在將來生成這種有效自編輯的能力。LLM逐漸成為自我教學方面的專家。

研究人員在研究中為整個SEAL框架使用了單一模型,然而他們也特別指出,這個過程可以分解為“教師-學生”模型。專門的教師模型經過訓練后,可以為單獨的學生模型生成有效的自編輯,然后更新該學生模型。這種方法可以在企業環境中實現更專業而高效的適應流程。

3.SEAL的實際應用

研究人員在兩個關鍵領域測試了SEAL:知識整合(永久整合新事實的能力)和小樣本學習(從少量樣例中泛化的能力)。

圖2. 用于知識整合的SEAL 圖片來源:arXiv圖2. 用于知識整合的SEAL 圖片來源:arXiv

在知識整合方面,目的是測試模型是否能在問答期間無法訪問文本段落的情況下回答段落的相關問題。針對原始文本微調Llama-3.2-1B僅比基礎模型略有改善。

然而,當SEAL模型通過從段落中生成多個“推論”來創建“自編輯”,并使用該合成數據進行訓練后,準確率躍升至47%。值得注意的是,其效果勝過使用龐大得多的GPT-4.1所生成的合成數據,表明模型學會了為自己創建優質的訓練材料。

圖3. 用于小樣本學習的SEAL 圖片來源:arXiv圖3. 用于小樣本學習的SEAL 圖片來源:arXiv

在小樣本學習方面,研究人員針對來自抽象推理語料庫(ARC)的樣例測試了SEAL,模型必須解決視覺謎題。在自編輯階段,模型不得不生成整套的適應策略,包括使用哪些數據增強和工具、運用什么樣的學習率。

結果,SEAL達到了72.5%的成功率,比未經RL訓練所取得的20%成功率和標準上下文學習的0%成功率有了顯著的改進。

圖4. SEAL(紅線)在RL訓練迭代期間繼續改進。 圖片來源:arXiv圖4. SEAL(紅線)在RL訓練迭代期間繼續改進。 圖片來源:arXiv


4.企業應用價值

一些專家預測,人工生成的高質量訓練數據可能在未來幾年會斷供。正如研究人員所言,進步可能很快取決于“模型自行生成高效用訓練信號的能力”。研究人員補充道,自然的下一步是元訓練專門的SEAL合成數據生成器模型,從而生成新穎的預訓練語料庫,使未來模型能夠擴展,并在不依賴額外人類文本的情況下實現更高的數據效率。

比如說,研究人員提議,LLM可以攝取學術論文或財務報告等復雜文檔,并自主生成數千個解釋和推論以加深理解。

研究人員解釋,這種自我表達和自我完善的迭代循環可以讓模型在甚至缺乏額外外部監督的情況下,不斷地改進罕見或代表性不足的主題。

這一能力對構建AI智能體特別大有前景。智能體系統在與環境交互時必須增量獲取和保留知識。SEAL為此提供了機制。交互后,智能體可以合成自編輯以觸發權重更新,使其能夠內化學到的經驗。這使智能體得以日臻完善,基于經驗改善性能,并減少對靜態編程或重復人工指導的依賴。

研究人員寫道,SEAL表明了LLM在預訓練后無需保持靜態。通過學習生成自己的合成自編輯數據,并通過輕量級權重更新加以運用,LLM可以自主整合新知識并適應新任務。

5.SEAL的局限性

話雖如此,SEAL并非萬能解決方案。比如它可能存在“災難性遺忘”,即持續的重訓練周期可能導致模型學習早期知識。

Pari表示:“我們目前的做法是鼓勵采用混合方法。企業應該有選擇性地確定哪些知識重要到需要永久整合。”

事實性、不斷變化的數據可以通過RAG保留在外部存儲區中,而持久性、改變行為的知識更適合通過SEAL進行權重級更新。這種混合記憶策略確保正確的信息持久保存,又避免模型不堪重負或導致不必要的遺忘。

另外值得一提的是,SEAL需要相當長的時間來調優自編輯樣例并訓練模型,因此在大多數生產環境下持續的實時編輯行不通。

Pari說:“我們設想一種更實用的部署模式,即系統在一段時間內(比如幾小時或一天)收集數據,然后在預定的更新間隔內執行針對性的自編輯。這種方法讓企業可以控制適應成本,同時仍得益于SEAL內化新知識的能力?!?/p>

論文鏈接:https://arxiv.org/pdf/2506.10943

參考鏈接:https://venturebeat.com/ai/beyond-static-ai-mits-new-framework-lets-models-teach-themselves/

責任編輯:武曉燕 來源: 51CTO技術棧
相關推薦

2023-08-10 09:00:00

2018-02-25 12:14:20

MITAI技術卡頓

2022-11-25 09:42:53

AI技術

2018-03-27 09:00:06

程序員自學能力

2023-12-08 13:22:00

數據模型

2022-05-16 14:47:01

MIT模型

2025-02-26 13:45:00

2019-08-08 10:36:55

AI 數據人工智能

2021-12-20 16:23:40

AI 數據人工智能

2018-07-05 09:35:53

百度AI系統藍牙設備

2021-10-18 12:09:29

AI 數據人工智能

2025-07-14 16:59:06

AI蛋白質模型

2025-06-03 08:32:00

2024-11-25 07:10:00

NumPro視頻大模型AI

2019-06-14 16:31:04

阿里AI法官

2024-03-18 09:22:43

AI模型

2024-04-18 12:16:37

MetaAIOpenEQA

2024-07-19 13:31:41

2023-10-26 19:05:57

AI模型
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 一区二区三区四区不卡 | 91精品福利| 精品一区二区三区免费视频 | 日韩精品久久久 | 欧美日韩在线精品 | 久久久久久久久久久久一区二区 | 久久99精品久久久久婷婷 | 国产成人免费 | 少妇一级淫片免费播放 | 欧美精品一区二区三区在线播放 | 中文字幕久久久 | 五月天综合影院 | 亚洲视频 欧美视频 | 亚洲国产精品视频一区 | 中文字幕观看 | 神马久久久久久久久久 | 久久99国产精一区二区三区 | 一级毛片观看 | 日韩一区二区三区在线 | 福利精品 | 亚洲自拍偷拍免费视频 | 国产欧美视频一区 | 日韩视频免费看 | 国产欧美一区二区三区在线看 | 久久在线免费 | 国产黄色大片在线免费观看 | 超碰av免费 | a爱视频| 九九天堂网| 最新国产精品精品视频 | 久久久无码精品亚洲日韩按摩 | 亚洲国产aⅴ成人精品无吗 综合国产在线 | 久久一二 | 亚洲福利在线视频 | 国产欧美三区 | 九九国产在线观看 | 日韩av一二三区 | 国产精品久久久久久吹潮 | 亚洲一区二区三区免费视频 | 久久九精品 | aa级毛片毛片免费观看久 |