成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

甭提靜態(tài)AI了,MIT新框架讓模型具備自學(xué)能力 原創(chuàng)

發(fā)布于 2025-6-30 13:51
瀏覽
0收藏

作者 | Ben Dickson

編譯 | 沈建苗

出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)

近日,麻省理工學(xué)院(MIT)的研究人員已開發(fā)出一種名為自適應(yīng)語言模型(SEAL)的框架,使大語言模型(LLM)能夠通過更新自身的內(nèi)部參數(shù)來持續(xù)學(xué)習(xí)和適應(yīng)。SEAL可以教LLM生成自己的訓(xùn)練數(shù)據(jù)并更新指令,讓LLM能夠永久吸收新知識(shí)并學(xué)習(xí)新任務(wù)。

這種框架特別適用于企業(yè)應(yīng)用環(huán)境,尤其適用于在動(dòng)態(tài)環(huán)境中運(yùn)行的AI智能體,它們必須不斷處理新信息并調(diào)整其行為。

1.LLM的適應(yīng)性挑戰(zhàn)

雖然LLM已具備了卓越能力,但讓它們適應(yīng)特定任務(wù)、整合新信息或掌握新穎的推理技能仍然面臨一大障礙。

目前面對(duì)新任務(wù)時(shí),LLM通常通過微調(diào)或上下文學(xué)習(xí)等方法從原始數(shù)據(jù)中學(xué)習(xí)。然而,所提供的數(shù)據(jù)其格式并不總是最適合模型高效學(xué)習(xí)?,F(xiàn)有方法無法讓模型自主開發(fā)策略,以實(shí)現(xiàn)最佳的新信息轉(zhuǎn)換和學(xué)習(xí)。

MIT博士生、論文共同作者Jyo Pari向IT媒體VentureBeat表示:“許多企業(yè)應(yīng)用場(chǎng)景需要的不僅僅是事實(shí)回憶,而是更深層、持久的適應(yīng)能力。比如說,編程助手可能需要內(nèi)化(消化并吸收)一家公司的特定軟件框架,或者面向客戶的模型需要逐漸學(xué)習(xí)用戶的獨(dú)特行為或偏好。”

在這類情況下,臨時(shí)檢索遠(yuǎn)遠(yuǎn)不夠,知識(shí)需要“融入”到模型的權(quán)重中,以便影響未來的所有響應(yīng)。

2.創(chuàng)建自適應(yīng)語言模型

MIT研究人員在論文中表示:“為了實(shí)現(xiàn)語言模型的可擴(kuò)展高效適應(yīng),我們提議為L(zhǎng)LM賦予生成自己的訓(xùn)練數(shù)據(jù)和微調(diào)指令以使用這類數(shù)據(jù)的能力?!?/p>

甭提靜態(tài)AI了,MIT新框架讓模型具備自學(xué)能力-AI.x社區(qū)圖1. SEAL框架示意圖圖片來源:arXiv

研究人員提出的解決方案是SEAL,即自適應(yīng)語言模型。它使用強(qiáng)化學(xué)習(xí)(RL)算法來訓(xùn)練LLM生成“自編輯”(self-edits),這是指定模型應(yīng)如何更新自身權(quán)重的自然語言指令。這些自編輯可以重構(gòu)新信息、創(chuàng)建合成訓(xùn)練樣例,甚至定義學(xué)習(xí)過程本身的技術(shù)參數(shù)。

簡(jiǎn)單地說,SEAL可以教模型如何自行創(chuàng)建個(gè)性化的學(xué)習(xí)指南。模型不是僅僅閱讀新文檔(原始數(shù)據(jù)),而是學(xué)會(huì)將該信息重寫和重新格式化為更容易吸收和內(nèi)化的形式。這個(gè)過程結(jié)合了AI研究的幾個(gè)關(guān)鍵領(lǐng)域,包括合成數(shù)據(jù)生成、強(qiáng)化學(xué)習(xí)和測(cè)試時(shí)訓(xùn)練(TTT)。

該框架采用雙循環(huán)系統(tǒng)。在“內(nèi)循環(huán)”(inner loop)中,模型使用自編輯對(duì)權(quán)重進(jìn)行小幅臨時(shí)更新。在“外循環(huán)”(out loop)中,系統(tǒng)評(píng)估該更新是否改善了模型處理目標(biāo)任務(wù)的性能。如果確實(shí)有改善,模型獲得正向獎(jiǎng)勵(lì),強(qiáng)化在將來生成這種有效自編輯的能力。LLM逐漸成為自我教學(xué)方面的專家。

研究人員在研究中為整個(gè)SEAL框架使用了單一模型,然而他們也特別指出,這個(gè)過程可以分解為“教師-學(xué)生”模型。專門的教師模型經(jīng)過訓(xùn)練后,可以為單獨(dú)的學(xué)生模型生成有效的自編輯,然后更新該學(xué)生模型。這種方法可以在企業(yè)環(huán)境中實(shí)現(xiàn)更專業(yè)而高效的適應(yīng)流程。

3.SEAL的實(shí)際應(yīng)用

研究人員在兩個(gè)關(guān)鍵領(lǐng)域測(cè)試了SEAL:知識(shí)整合(永久整合新事實(shí)的能力)和小樣本學(xué)習(xí)(從少量樣例中泛化的能力)。

甭提靜態(tài)AI了,MIT新框架讓模型具備自學(xué)能力-AI.x社區(qū)圖2. 用于知識(shí)整合的SEAL 圖片來源:arXiv

在知識(shí)整合方面,目的是測(cè)試模型是否能在問答期間無法訪問文本段落的情況下回答段落的相關(guān)問題。針對(duì)原始文本微調(diào)Llama-3.2-1B僅比基礎(chǔ)模型略有改善。

然而,當(dāng)SEAL模型通過從段落中生成多個(gè)“推論”來創(chuàng)建“自編輯”,并使用該合成數(shù)據(jù)進(jìn)行訓(xùn)練后,準(zhǔn)確率躍升至47%。值得注意的是,其效果勝過使用龐大得多的GPT-4.1所生成的合成數(shù)據(jù),表明模型學(xué)會(huì)了為自己創(chuàng)建優(yōu)質(zhì)的訓(xùn)練材料。

甭提靜態(tài)AI了,MIT新框架讓模型具備自學(xué)能力-AI.x社區(qū)圖3. 用于小樣本學(xué)習(xí)的SEAL 圖片來源:arXiv

在小樣本學(xué)習(xí)方面,研究人員針對(duì)來自抽象推理語料庫(ARC)的樣例測(cè)試了SEAL,模型必須解決視覺謎題。在自編輯階段,模型不得不生成整套的適應(yīng)策略,包括使用哪些數(shù)據(jù)增強(qiáng)和工具、運(yùn)用什么樣的學(xué)習(xí)率。

結(jié)果,SEAL達(dá)到了72.5%的成功率,比未經(jīng)RL訓(xùn)練所取得的20%成功率和標(biāo)準(zhǔn)上下文學(xué)習(xí)的0%成功率有了顯著的改進(jìn)。

甭提靜態(tài)AI了,MIT新框架讓模型具備自學(xué)能力-AI.x社區(qū)圖4. SEAL(紅線)在RL訓(xùn)練迭代期間繼續(xù)改進(jìn)。 圖片來源:arXiv


4.企業(yè)應(yīng)用價(jià)值

一些專家預(yù)測(cè),人工生成的高質(zhì)量訓(xùn)練數(shù)據(jù)可能在未來幾年會(huì)斷供。正如研究人員所言,進(jìn)步可能很快取決于“模型自行生成高效用訓(xùn)練信號(hào)的能力”。研究人員補(bǔ)充道,自然的下一步是元訓(xùn)練專門的SEAL合成數(shù)據(jù)生成器模型,從而生成新穎的預(yù)訓(xùn)練語料庫,使未來模型能夠擴(kuò)展,并在不依賴額外人類文本的情況下實(shí)現(xiàn)更高的數(shù)據(jù)效率。

比如說,研究人員提議,LLM可以攝取學(xué)術(shù)論文或財(cái)務(wù)報(bào)告等復(fù)雜文檔,并自主生成數(shù)千個(gè)解釋和推論以加深理解。

研究人員解釋,這種自我表達(dá)和自我完善的迭代循環(huán)可以讓模型在甚至缺乏額外外部監(jiān)督的情況下,不斷地改進(jìn)罕見或代表性不足的主題。

這一能力對(duì)構(gòu)建AI智能體特別大有前景。智能體系統(tǒng)在與環(huán)境交互時(shí)必須增量獲取和保留知識(shí)。SEAL為此提供了機(jī)制。交互后,智能體可以合成自編輯以觸發(fā)權(quán)重更新,使其能夠內(nèi)化學(xué)到的經(jīng)驗(yàn)。這使智能體得以日臻完善,基于經(jīng)驗(yàn)改善性能,并減少對(duì)靜態(tài)編程或重復(fù)人工指導(dǎo)的依賴。

研究人員寫道,SEAL表明了LLM在預(yù)訓(xùn)練后無需保持靜態(tài)。通過學(xué)習(xí)生成自己的合成自編輯數(shù)據(jù),并通過輕量級(jí)權(quán)重更新加以運(yùn)用,LLM可以自主整合新知識(shí)并適應(yīng)新任務(wù)。

5.SEAL的局限性

話雖如此,SEAL并非萬能解決方案。比如它可能存在“災(zāi)難性遺忘”,即持續(xù)的重訓(xùn)練周期可能導(dǎo)致模型學(xué)習(xí)早期知識(shí)。

Pari表示:“我們目前的做法是鼓勵(lì)采用混合方法。企業(yè)應(yīng)該有選擇性地確定哪些知識(shí)重要到需要永久整合?!?/p>

事實(shí)性、不斷變化的數(shù)據(jù)可以通過RAG保留在外部存儲(chǔ)區(qū)中,而持久性、改變行為的知識(shí)更適合通過SEAL進(jìn)行權(quán)重級(jí)更新。這種混合記憶策略確保正確的信息持久保存,又避免模型不堪重負(fù)或?qū)е虏槐匾倪z忘。

另外值得一提的是,SEAL需要相當(dāng)長(zhǎng)的時(shí)間來調(diào)優(yōu)自編輯樣例并訓(xùn)練模型,因此在大多數(shù)生產(chǎn)環(huán)境下持續(xù)的實(shí)時(shí)編輯行不通。

Pari說:“我們?cè)O(shè)想一種更實(shí)用的部署模式,即系統(tǒng)在一段時(shí)間內(nèi)(比如幾小時(shí)或一天)收集數(shù)據(jù),然后在預(yù)定的更新間隔內(nèi)執(zhí)行針對(duì)性的自編輯。這種方法讓企業(yè)可以控制適應(yīng)成本,同時(shí)仍得益于SEAL內(nèi)化新知識(shí)的能力?!?/p>

論文鏈接:https://arxiv.org/pdf/2506.10943

參考鏈接:https://venturebeat.com/ai/beyond-static-ai-mits-new-framework-lets-models-teach-themselves/

本文轉(zhuǎn)載自??51CTO技術(shù)棧??,編譯:沈建苗

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
標(biāo)簽
已于2025-6-30 13:51:46修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 国产成人精品一区二区三区在线 | 日韩一区二区av | 日韩欧美国产精品一区二区 | 亚洲第一色av | 少妇久久久久 | 91免费在线播放 | 成人网视频| 日韩精品一区二区三区免费观看 | 欧美色综合 | 天天综合久久网 | 欧美一区二区在线 | 国产精品视频中文字幕 | 荷兰欧美一级毛片 | 国产黄色网址在线观看 | 中文字幕亚洲欧美日韩在线不卡 | 亚洲精品第一国产综合野 | www.国产一区| 在线免费观看毛片 | 精品国产91 | 色男人的天堂 | 国产一区二区三区在线免费观看 | 天天干天天爽 | 三级欧美 | 色av一区二区三区 | 国产乱码精品一区二区三区中文 | 蜜桃av一区二区三区 | 欧美精品福利 | 亚洲视频在线观看 | 91人人看| 欧美日韩中文在线观看 | 国产精品欧美一区二区三区不卡 | 中文字幕高清av | 久久69精品久久久久久久电影好 | 欧美理论片在线 | 中文字幕久久久 | 成在线人视频免费视频 | 中文字幕 亚洲一区 | 颜色网站在线观看 | 国产亚洲一区在线 | 一区中文字幕 | 欧美日韩精品一区二区三区蜜桃 |