五年白領(lǐng)下崗,AGI靠RL一飛沖天?網(wǎng)友:這是讓狗學(xué)會打麻將!
只靠強化學(xué)習(xí),AGI就能實現(xiàn)?
「到2030年,不靠算法創(chuàng)新,只要繼續(xù)收集數(shù)據(jù),針對性訓(xùn)練,就能實現(xiàn)AGI。」
最近,這一關(guān)于AGI的未來道路的觀點,引起了熱議。
這還要從Darkesh Patel主持的播客節(jié)目說起。
在上月的節(jié)目中,Claude 4核心成員Sholto Douglas和Trenton Bricken認(rèn)為強化學(xué)習(xí)就足以實現(xiàn)AGI,5年內(nèi)AI就能勝任白領(lǐng)工作。
即使人工智能的發(fā)展完全停滯,但收集不同的白領(lǐng)工作任務(wù)的數(shù)據(jù)足夠容易,因此我們預(yù)計在未來五年內(nèi)將看到它們實現(xiàn)自動化。
事后,主持人Darkesh Patel覺得事情沒那么容易。
他認(rèn)為目前算法并不成熟,AGI要更晚才會到來。
最大的問題在于:隨著時間流逝,LLM不會像人類一樣變得更好。
它們無法進(jìn)行持續(xù)學(xué)習(xí)。工程師能做的就是不斷修改系統(tǒng)提示詞,但這遠(yuǎn)遠(yuǎn)不及人類能通過反饋、積累經(jīng)驗和自我糾錯而持續(xù)進(jìn)步。即便是RL微調(diào)也無法提供人類那種有機、不斷適應(yīng)的學(xué)習(xí)體驗。
Darkesh Patel的系列推文引起了Karpathy的注意。
Karpathy同意當(dāng)前的LLM能力不足,無法持續(xù)學(xué)習(xí),無法保存學(xué)習(xí)到的經(jīng)驗和知識,就像人失憶一樣。
Ai2的后訓(xùn)練負(fù)責(zé)人、「強化學(xué)習(xí)傳人」Nathan Lambert,也回應(yīng)了Darkesh Patel的觀點。
他認(rèn)為在LLM中,強化學(xué)習(xí)確實已經(jīng)取得突破,而之后還有三個值得探索的方向:Scaling強化學(xué)習(xí)、稀疏獎勵和持續(xù)學(xué)習(xí)。
強化學(xué)習(xí)下一步
如何將當(dāng)前可驗證獎勵強化學(xué)習(xí)(reinforcement learning with verifiable rewards,RLVR)擴展到下一代語言模型?
甚至擴展到通用人工智能(AGI)或超級人工智能(ASI)?
即便我們真希望如此,但最樂觀的設(shè)想也有一個前提:RL是否具備解決更高難度任務(wù)的能力。
目前的訓(xùn)練方法在處理數(shù)學(xué)或編程問題時,每個答案通常生成1萬到10萬個token。而設(shè)想的下一代RL訓(xùn)練中,單個答案可能需要生成100萬到1億個token。
這意味著每次訓(xùn)練要整合多個推理調(diào)用、提示以及與環(huán)境的多輪交互,納入到統(tǒng)一的學(xué)習(xí)回合(Episode)中,并據(jù)此更新策略。
然而,RL能否適用于新領(lǐng)域,目前遠(yuǎn)不像它在現(xiàn)有訓(xùn)練機制中那樣明確。
在現(xiàn)有方法中,模型只需完成一次任務(wù),例如解決一道編程題、算出一個數(shù)學(xué)答案或完成一次信息檢索,就能根據(jù)表現(xiàn)獲得獎勵。
但RL并不能「魔法般」地讓我們訓(xùn)練出能優(yōu)化整個代碼庫、開展現(xiàn)實世界科學(xué)實驗或制定復(fù)雜策略的語言模型。要實現(xiàn)這些目標(biāo),仍需重大的技術(shù)突破和基礎(chǔ)設(shè)施的升級。
因此,當(dāng)我們說「Scaling RL是提升語言模型性能的最短路徑」時,真正的含義是
繼續(xù)沿用當(dāng)前模型的擴展方法,而不是一下子進(jìn)軍全新的復(fù)雜應(yīng)用領(lǐng)域。
這種「超長回合」的強化學(xué)習(xí),與「持續(xù)學(xué)習(xí)」(Continual Learning)的理念密切相關(guān)——
也就是語言模型與現(xiàn)實世界不斷交互,持續(xù)進(jìn)步。
從結(jié)構(gòu)上看,擴大RL訓(xùn)練規(guī)模很可能是未來發(fā)展的前沿方向,但目前還不確定的是:要擴展的這些新任務(wù),是否在訓(xùn)練效果上具有本質(zhì)上的不同。
以下三個相關(guān)方向,依舊值得展開討論:
- 推理中繼續(xù)擴展RL——也就是在不依賴重大算法創(chuàng)新的前提下,繼續(xù)在數(shù)據(jù)規(guī)模和應(yīng)用領(lǐng)域上擴展當(dāng)前的RLVR技術(shù)。
- 將RL應(yīng)用于反饋稀疏的任務(wù)——例如那些需要數(shù)小時甚至數(shù)天才能獲得反饋的科學(xué)研究或機器人任務(wù)。隨著傳統(tǒng)領(lǐng)域的訓(xùn)練逐漸飽和,AI實驗室的研究重點自然會轉(zhuǎn)向這些方向。
- 實現(xiàn)語言模型的持續(xù)學(xué)習(xí)——即模型根據(jù)實際使用情況不斷更新參數(shù),而不是一旦訓(xùn)練完畢就固定權(quán)重,進(jìn)入只負(fù)責(zé)推理的靜態(tài)狀態(tài)。
推理任務(wù)中繼續(xù)擴展RL
從建模的角度來看,隨著預(yù)訓(xùn)練與后訓(xùn)練方法的演化,未來的趨勢可能是:
預(yù)訓(xùn)練進(jìn)一步降低,而后訓(xùn)練的強化學(xué)習(xí)(RL)階段將顯著延長。
更長的RL訓(xùn)練周期,自然呈現(xiàn)出類似「持續(xù)學(xué)習(xí)」(Continual Learning)的特征:訓(xùn)練可以從某個中間階段的RL檢查點繼續(xù),執(zhí)行偏好對齊與安全性相關(guān)的后訓(xùn)練,最終產(chǎn)出可直接部署給用戶的模型。
不過需要指出的是,這并不是嚴(yán)格意義上的「持續(xù)學(xué)習(xí)」。它更多意味著:
模型的發(fā)布將更加頻繁,每次訓(xùn)練的周期也更長。
對于訓(xùn)練團隊而言,這是重要的轉(zhuǎn)變。
過去,只有在預(yù)訓(xùn)練完全結(jié)束后,才能啟動后訓(xùn)練,最后評估模型的性能。比如說,GPT-4或GPT-4.5(又稱Orion),這些模型通常需要大量后訓(xùn)練來「馴服」預(yù)訓(xùn)練模型,但性能難以預(yù)測,完成時間也具有高度不確定性。
可預(yù)見的是,未來幾年整個行業(yè)將進(jìn)入以RL擴展為核心、強調(diào)持續(xù)優(yōu)化的迭代模式,整體上類似「持續(xù)學(xué)習(xí)」。
在Dwarkesh Patel看來,真正的「持續(xù)學(xué)習(xí)」應(yīng)更像人類「活到老,學(xué)到老」。也就是說,模型能夠從經(jīng)驗中學(xué)習(xí)、調(diào)整參數(shù),從而在特定任務(wù)上不斷改進(jìn)。
「從失敗中學(xué)習(xí)」的機制,是當(dāng)前智能系統(tǒng)所缺失的一塊核心拼圖。
畢竟,人類之所以特別,就在于我們具備極強的適應(yīng)能力,并能從反饋中迅速成長。
與此相關(guān),Arc Prize組織也提出了另一種衡量智能的方式: 他們稱之為「技能獲取效率」(skill acquisition efficiency)。
無論是實現(xiàn)Dwarkesh所設(shè)想的「持續(xù)學(xué)習(xí)」,還是提升「技能獲取效率」,要在這兩個方向取得實質(zhì)進(jìn)展,都極其困難。
相比之下,像「推理時擴展」(inference-time scaling)這樣的方式則更容易實現(xiàn)和理解。
所謂「推理時擴展」,本質(zhì)上是進(jìn)一步放大思維鏈提示(CoT prompting)方法。在訓(xùn)練與應(yīng)用階段加大力度,它可以將模型性能提升10倍甚至100倍。
但要真正實現(xiàn)「持續(xù)學(xué)習(xí)」——尤其是在模型規(guī)模不斷擴大、應(yīng)用場景日益復(fù)雜的背景下
——則需要顛覆性的科學(xué)突破。 這種突破,往往具有極高的不確定性。
我們確實可以通過更高效的編程系統(tǒng),持續(xù)優(yōu)化當(dāng)前模型體系。 但要實現(xiàn)更智能的目標(biāo),仍離不開人類的創(chuàng)造力與開放式研究的推動。
稀疏強化學(xué)習(xí)擴展中的難題
如前所述,當(dāng)前業(yè)界正積極探索:
將現(xiàn)有的強化學(xué)習(xí)(RL)機制與可驗證獎勵機制結(jié)合,并不斷擴大應(yīng)用范圍。
在這種模式下,模型發(fā)布頻率更高,可以更頻繁地交付更新版本。 由于開發(fā)重心正逐漸轉(zhuǎn)向后訓(xùn)練階段,模型的迭代優(yōu)化也變得更加自然和高效。
但在另一個極端,我們也談到過——
若試圖在現(xiàn)有語言模型的基礎(chǔ)上,構(gòu)建真正意義上的「持續(xù)學(xué)習(xí)」系統(tǒng), 本質(zhì)上,是一種高度不確定性的嘗試。
而介于這兩者之間的方向,即:
嘗試將RL應(yīng)用于反饋稀疏、評估周期較長的任務(wù)領(lǐng)域,前景更具爭議 。
從個人角度,對此Nathan Lambert持略為悲觀的態(tài)度。
原因在于,這類研究路徑在實踐中,越來越像復(fù)雜機器人系統(tǒng)的研究。而在機器人領(lǐng)域,端到端的強化學(xué)習(xí),并不是當(dāng)前公認(rèn)的最佳方案。
這一事實提醒我們:將RL拓展到稀疏反饋領(lǐng)域時,必須格外謹(jǐn)慎,不能盲目套用已有的訓(xùn)練范式。
真需要「持續(xù)學(xué)習(xí)」嗎?
AI應(yīng)該像人一樣,能在互動之后獲得永久性的成長。
這個愿景雖然美好,但也暗藏隱患,甚至帶有某種危險。
事實上,當(dāng)前實現(xiàn)「持續(xù)學(xué)習(xí)」的最接近方式,其實是推薦系統(tǒng)。
很多人驚嘆推薦系統(tǒng)能在短短幾分鐘內(nèi)精準(zhǔn)捕捉到個人興趣,這其實就是通過用戶交互進(jìn)行的即時學(xué)習(xí)。
但想象一下,如果這種能力被賦予超強理解力的AI模型,并且背后的交互反饋機制又被某家公司所掌控,那將帶來一系列令人不安的后果。
其實,也有一些更穩(wěn)妥的替代方案。
比如說,雖然ChatGPT當(dāng)前的「記憶」功能還不完美,但它已經(jīng)可以根據(jù)你過往的糾正,避免重復(fù)犯錯。
這種基于歷史對話記錄的記憶機制,雖然沒有更新模型權(quán)重,但在體驗上,其實已接近「持續(xù)學(xué)習(xí)」。
如果覺得還不夠強,那我們可以繼續(xù)等待技術(shù)成熟:
讓本地模型邊用邊學(xué),真正實現(xiàn)私有化的持續(xù)進(jìn)化。
這些路徑雖然發(fā)展更慢,卻能顯著降低「超級偏見AI」的風(fēng)險。
在這場討論中,有一個詞其實更容易被大眾接受——「個性化」。
相比之下,「持續(xù)學(xué)習(xí)」這個提法,更有利于AI巨頭。 因為他們可以從每一位用戶的交互中提取數(shù)據(jù)、反哺模型。但對這些AI實驗室而言,真正的個性化其實和他們的戰(zhàn)略相悖。
他們更傾向于:用少數(shù)幾個通用模型,服務(wù)成千上萬的用戶。
而如果開源模型能持續(xù)進(jìn)步,或許真的能迎來「個性化」時代—— 每個人都擁有屬于自己的專屬AI。
圖靈獎得主
從經(jīng)驗中學(xué)習(xí)
早在1993年,2024年度圖靈獎得主Richard Sutton就寫下這樣一段話:
我從智能體(agent)與環(huán)境之間的互動關(guān)系起步,因為目標(biāo)的設(shè)定、選擇以及信息的獲取,都是基于這種互動。
可以說,這種互動是唯一真實存在的事物,我們對世界的所有理解正是由此而來。
他的核心觀點是,智能的本質(zhì),是智能體與環(huán)境之間的直接交互體驗——即來回傳遞的信號。
從邏輯上講,這幾乎是不證自明的:智能體的智能只能通過它的行為展現(xiàn)出來,而這種行為的好壞又只能通過對環(huán)境反饋的影響來評估。
所謂「了解環(huán)境」,對智能體而言,其實就是了解這些交互造成的效果。
智能體所感知的一切世界,其實都來自自身不斷接收到的經(jīng)驗流。
不管如何抽象世界,例如物體、物理規(guī)則或其他智能體等復(fù)雜概念,對于一個智能體來說,這些不過是經(jīng)驗中反復(fù)出現(xiàn)的模式。經(jīng)驗流構(gòu)成了智能體全部的輸入和輸出,它的智能行為正是在對這些經(jīng)驗的理解和處理中顯現(xiàn)出來。
這一看似顯而易見卻頗具顛覆性的思想,正是他研究生涯的出發(fā)點。
他認(rèn)為隨著主流AI范式演變,人類將進(jìn)入「體驗時代」。
圖1:主流AI范式的演變時間簡圖。縱軸表示整個領(lǐng)域中用于強化學(xué)習(xí)(RL)的研究精力和計算資源的大致比例
體驗時代的到來標(biāo)志著AI的關(guān)鍵轉(zhuǎn)折。
在已有的堅實基礎(chǔ)上,智能體將突破「人類衍生數(shù)據(jù)」的局限。
它們將更多依靠自身與世界的互動進(jìn)行學(xué)習(xí)。通過觀察和行動,智能體能主動與環(huán)境交流。在持續(xù)終身的體驗中,它們不斷適應(yīng)和進(jìn)化。它們的目標(biāo)可以設(shè)定為任何基于現(xiàn)實信號的組合。
借助超過人類的推理能力,智能體能規(guī)劃決策,用行動影響環(huán)境。隨著體驗數(shù)據(jù)的積累,規(guī)模與質(zhì)量最終將超過人類生成的數(shù)據(jù)。
這種范式轉(zhuǎn)變,結(jié)合強化學(xué)習(xí)的進(jìn)步,將催生許多超越人類極限的新能力。