成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

五年白領(lǐng)下崗,AGI靠RL一飛沖天?網(wǎng)友:這是讓狗學(xué)會打麻將!

人工智能 新聞
只靠強化學(xué)習(xí),AGI就能實現(xiàn)?Claude-4核心成員放話「5年內(nèi)AI干掉白領(lǐng)」,卻被Karpathy等聯(lián)手潑冷水!持續(xù)學(xué)習(xí)真的可能嗎?RL的真正邊界、下一代智能的關(guān)鍵轉(zhuǎn)折點到底在哪兒?

只靠強化學(xué)習(xí),AGI就能實現(xiàn)?

「到2030年,不靠算法創(chuàng)新,只要繼續(xù)收集數(shù)據(jù),針對性訓(xùn)練,就能實現(xiàn)AGI。」

最近,這一關(guān)于AGI的未來道路的觀點,引起了熱議。

這還要從Darkesh Patel主持的播客節(jié)目說起。

在上月的節(jié)目中,Claude 4核心成員Sholto Douglas和Trenton Bricken認(rèn)為強化學(xué)習(xí)就足以實現(xiàn)AGI,5年內(nèi)AI就能勝任白領(lǐng)工作。

即使人工智能的發(fā)展完全停滯,但收集不同的白領(lǐng)工作任務(wù)的數(shù)據(jù)足夠容易,因此我們預(yù)計在未來五年內(nèi)將看到它們實現(xiàn)自動化。

事后,主持人Darkesh Patel覺得事情沒那么容易。

圖片

他認(rèn)為目前算法并不成熟,AGI要更晚才會到來。

圖片

最大的問題在于:隨著時間流逝,LLM不會像人類一樣變得更好。

它們無法進(jìn)行持續(xù)學(xué)習(xí)。工程師能做的就是不斷修改系統(tǒng)提示詞,但這遠(yuǎn)遠(yuǎn)不及人類能通過反饋、積累經(jīng)驗和自我糾錯而持續(xù)進(jìn)步。即便是RL微調(diào)也無法提供人類那種有機、不斷適應(yīng)的學(xué)習(xí)體驗。

Darkesh Patel的系列推文引起了Karpathy的注意。

Karpathy同意當(dāng)前的LLM能力不足,無法持續(xù)學(xué)習(xí),無法保存學(xué)習(xí)到的經(jīng)驗和知識,就像人失憶一樣。

圖片

Ai2的后訓(xùn)練負(fù)責(zé)人、「強化學(xué)習(xí)傳人」Nathan Lambert,也回應(yīng)了Darkesh Patel的觀點。

圖片

他認(rèn)為在LLM中,強化學(xué)習(xí)確實已經(jīng)取得突破,而之后還有三個值得探索的方向:Scaling強化學(xué)習(xí)、稀疏獎勵和持續(xù)學(xué)習(xí)。

圖片

強化學(xué)習(xí)下一步

如何將當(dāng)前可驗證獎勵強化學(xué)習(xí)(reinforcement learning with verifiable rewards,RLVR)擴展到下一代語言模型?

甚至擴展到通用人工智能(AGI)或超級人工智能(ASI)?

即便我們真希望如此,但最樂觀的設(shè)想也有一個前提:RL是否具備解決更高難度任務(wù)的能力。

目前的訓(xùn)練方法在處理數(shù)學(xué)或編程問題時,每個答案通常生成1萬到10萬個token。而設(shè)想的下一代RL訓(xùn)練中,單個答案可能需要生成100萬到1億個token。

這意味著每次訓(xùn)練要整合多個推理調(diào)用、提示以及與環(huán)境的多輪交互,納入到統(tǒng)一的學(xué)習(xí)回合(Episode)中,并據(jù)此更新策略。

然而,RL能否適用于新領(lǐng)域,目前遠(yuǎn)不像它在現(xiàn)有訓(xùn)練機制中那樣明確。

在現(xiàn)有方法中,模型只需完成一次任務(wù),例如解決一道編程題、算出一個數(shù)學(xué)答案或完成一次信息檢索,就能根據(jù)表現(xiàn)獲得獎勵。

但RL并不能「魔法般」地讓我們訓(xùn)練出能優(yōu)化整個代碼庫、開展現(xiàn)實世界科學(xué)實驗或制定復(fù)雜策略的語言模型。要實現(xiàn)這些目標(biāo),仍需重大的技術(shù)突破和基礎(chǔ)設(shè)施的升級。

因此,當(dāng)我們說「Scaling RL是提升語言模型性能的最短路徑」時,真正的含義是

繼續(xù)沿用當(dāng)前模型的擴展方法,而不是一下子進(jìn)軍全新的復(fù)雜應(yīng)用領(lǐng)域。

這種「超長回合」的強化學(xué)習(xí),與「持續(xù)學(xué)習(xí)」(Continual Learning)的理念密切相關(guān)——

也就是語言模型與現(xiàn)實世界不斷交互,持續(xù)進(jìn)步。

從結(jié)構(gòu)上看,擴大RL訓(xùn)練規(guī)模很可能是未來發(fā)展的前沿方向,但目前還不確定的是:要擴展的這些新任務(wù),是否在訓(xùn)練效果上具有本質(zhì)上的不同。

以下三個相關(guān)方向,依舊值得展開討論:

  • 推理中繼續(xù)擴展RL——也就是在不依賴重大算法創(chuàng)新的前提下,繼續(xù)在數(shù)據(jù)規(guī)模和應(yīng)用領(lǐng)域上擴展當(dāng)前的RLVR技術(shù)。
  • 將RL應(yīng)用于反饋稀疏的任務(wù)——例如那些需要數(shù)小時甚至數(shù)天才能獲得反饋的科學(xué)研究或機器人任務(wù)。隨著傳統(tǒng)領(lǐng)域的訓(xùn)練逐漸飽和,AI實驗室的研究重點自然會轉(zhuǎn)向這些方向。
  • 實現(xiàn)語言模型的持續(xù)學(xué)習(xí)——即模型根據(jù)實際使用情況不斷更新參數(shù),而不是一旦訓(xùn)練完畢就固定權(quán)重,進(jìn)入只負(fù)責(zé)推理的靜態(tài)狀態(tài)。

推理任務(wù)中繼續(xù)擴展RL

從建模的角度來看,隨著預(yù)訓(xùn)練與后訓(xùn)練方法的演化,未來的趨勢可能是:

預(yù)訓(xùn)練進(jìn)一步降低,而后訓(xùn)練的強化學(xué)習(xí)(RL)階段將顯著延長。

更長的RL訓(xùn)練周期,自然呈現(xiàn)出類似「持續(xù)學(xué)習(xí)」(Continual Learning)的特征:訓(xùn)練可以從某個中間階段的RL檢查點繼續(xù),執(zhí)行偏好對齊與安全性相關(guān)的后訓(xùn)練,最終產(chǎn)出可直接部署給用戶的模型。

不過需要指出的是,這并不是嚴(yán)格意義上的「持續(xù)學(xué)習(xí)」。它更多意味著:

模型的發(fā)布將更加頻繁,每次訓(xùn)練的周期也更長。

對于訓(xùn)練團隊而言,這是重要的轉(zhuǎn)變。

過去,只有在預(yù)訓(xùn)練完全結(jié)束后,才能啟動后訓(xùn)練,最后評估模型的性能。比如說,GPT-4或GPT-4.5(又稱Orion),這些模型通常需要大量后訓(xùn)練來「馴服」預(yù)訓(xùn)練模型,但性能難以預(yù)測,完成時間也具有高度不確定性。

可預(yù)見的是,未來幾年整個行業(yè)將進(jìn)入以RL擴展為核心、強調(diào)持續(xù)優(yōu)化的迭代模式,整體上類似「持續(xù)學(xué)習(xí)」。

在Dwarkesh Patel看來,真正的「持續(xù)學(xué)習(xí)」應(yīng)更像人類「活到老,學(xué)到老」。也就是說,模型能夠從經(jīng)驗中學(xué)習(xí)、調(diào)整參數(shù),從而在特定任務(wù)上不斷改進(jìn)

「從失敗中學(xué)習(xí)」的機制,是當(dāng)前智能系統(tǒng)所缺失的一塊核心拼圖。

畢竟,人類之所以特別,就在于我們具備極強的適應(yīng)能力,并能從反饋中迅速成長。

與此相關(guān),Arc Prize組織也提出了另一種衡量智能的方式: 他們稱之為「技能獲取效率」(skill acquisition efficiency)。

無論是實現(xiàn)Dwarkesh所設(shè)想的「持續(xù)學(xué)習(xí)」,還是提升「技能獲取效率」,要在這兩個方向取得實質(zhì)進(jìn)展,都極其困難。

相比之下,像「推理時擴展」(inference-time scaling)這樣的方式則更容易實現(xiàn)和理解。

所謂「推理時擴展」,本質(zhì)上是進(jìn)一步放大思維鏈提示(CoT prompting)方法。在訓(xùn)練與應(yīng)用階段加大力度,它可以將模型性能提升10倍甚至100倍

但要真正實現(xiàn)「持續(xù)學(xué)習(xí)」——尤其是在模型規(guī)模不斷擴大、應(yīng)用場景日益復(fù)雜的背景下

——則需要顛覆性的科學(xué)突破。 這種突破,往往具有極高的不確定性。

我們確實可以通過更高效的編程系統(tǒng),持續(xù)優(yōu)化當(dāng)前模型體系。 但要實現(xiàn)更智能的目標(biāo),仍離不開人類的創(chuàng)造力與開放式研究的推動

稀疏強化學(xué)習(xí)擴展中的難題

如前所述,當(dāng)前業(yè)界正積極探索:

將現(xiàn)有的強化學(xué)習(xí)(RL)機制與可驗證獎勵機制結(jié)合,并不斷擴大應(yīng)用范圍。

在這種模式下,模型發(fā)布頻率更高,可以更頻繁地交付更新版本。 由于開發(fā)重心正逐漸轉(zhuǎn)向后訓(xùn)練階段,模型的迭代優(yōu)化也變得更加自然和高效。

但在另一個極端,我們也談到過——

若試圖在現(xiàn)有語言模型的基礎(chǔ)上,構(gòu)建真正意義上的「持續(xù)學(xué)習(xí)」系統(tǒng), 本質(zhì)上,是一種高度不確定性的嘗試。

而介于這兩者之間的方向,即:

嘗試將RL應(yīng)用于反饋稀疏、評估周期較長的任務(wù)領(lǐng)域,前景更具爭議  。

從個人角度,對此Nathan Lambert持略為悲觀的態(tài)度。

原因在于,這類研究路徑在實踐中,越來越像復(fù)雜機器人系統(tǒng)的研究。而在機器人領(lǐng)域,端到端的強化學(xué)習(xí),并不是當(dāng)前公認(rèn)的最佳方案。

這一事實提醒我們:將RL拓展到稀疏反饋領(lǐng)域時,必須格外謹(jǐn)慎,不能盲目套用已有的訓(xùn)練范式。

真需要「持續(xù)學(xué)習(xí)」嗎?

AI應(yīng)該像人一樣,能在互動之后獲得永久性的成長

這個愿景雖然美好,但也暗藏隱患,甚至帶有某種危險。

事實上,當(dāng)前實現(xiàn)「持續(xù)學(xué)習(xí)」的最接近方式,其實是推薦系統(tǒng)。

很多人驚嘆推薦系統(tǒng)能在短短幾分鐘內(nèi)精準(zhǔn)捕捉到個人興趣,這其實就是通過用戶交互進(jìn)行的即時學(xué)習(xí)

但想象一下,如果這種能力被賦予超強理解力的AI模型,并且背后的交互反饋機制又被某家公司所掌控,那將帶來一系列令人不安的后果。

其實,也有一些更穩(wěn)妥的替代方案

比如說,雖然ChatGPT當(dāng)前的「記憶」功能還不完美,但它已經(jīng)可以根據(jù)你過往的糾正,避免重復(fù)犯錯

這種基于歷史對話記錄的記憶機制,雖然沒有更新模型權(quán)重,但在體驗上,其實已接近「持續(xù)學(xué)習(xí)」。

如果覺得還不夠強,那我們可以繼續(xù)等待技術(shù)成熟:

讓本地模型邊用邊學(xué),真正實現(xiàn)私有化的持續(xù)進(jìn)化。

這些路徑雖然發(fā)展更慢,卻能顯著降低「超級偏見AI」的風(fēng)險

在這場討論中,有一個詞其實更容易被大眾接受——「個性化」。

相比之下,「持續(xù)學(xué)習(xí)」這個提法,更有利于AI巨頭。 因為他們可以從每一位用戶的交互中提取數(shù)據(jù)、反哺模型。但對這些AI實驗室而言,真正的個性化其實和他們的戰(zhàn)略相悖。

他們更傾向于:用少數(shù)幾個通用模型,服務(wù)成千上萬的用戶

而如果開源模型能持續(xù)進(jìn)步,或許真的能迎來「個性化」時代—— 每個人都擁有屬于自己的專屬AI。

圖靈獎得主

從經(jīng)驗中學(xué)習(xí)

早在1993年,2024年度圖靈獎得主Richard Sutton就寫下這樣一段話:

我從智能體(agent)與環(huán)境之間的互動關(guān)系起步,因為目標(biāo)的設(shè)定、選擇以及信息的獲取,都是基于這種互動。

可以說,這種互動是唯一真實存在的事物,我們對世界的所有理解正是由此而來。

圖片

他的核心觀點是,智能的本質(zhì),是智能體與環(huán)境之間的直接交互體驗——即來回傳遞的信號。

從邏輯上講,這幾乎是不證自明的:智能體的智能只能通過它的行為展現(xiàn)出來,而這種行為的好壞又只能通過對環(huán)境反饋的影響來評估。

所謂「了解環(huán)境」,對智能體而言,其實就是了解這些交互造成的效果。

智能體所感知的一切世界,其實都來自自身不斷接收到的經(jīng)驗流。

不管如何抽象世界,例如物體、物理規(guī)則或其他智能體等復(fù)雜概念,對于一個智能體來說,這些不過是經(jīng)驗中反復(fù)出現(xiàn)的模式。經(jīng)驗流構(gòu)成了智能體全部的輸入和輸出,它的智能行為正是在對這些經(jīng)驗的理解和處理中顯現(xiàn)出來。

這一看似顯而易見卻頗具顛覆性的思想,正是他研究生涯的出發(fā)點。

他認(rèn)為隨著主流AI范式演變,人類將進(jìn)入「體驗時代」。

圖片

圖1:主流AI范式的演變時間簡圖。縱軸表示整個領(lǐng)域中用于強化學(xué)習(xí)(RL)的研究精力和計算資源的大致比例

體驗時代的到來標(biāo)志著AI的關(guān)鍵轉(zhuǎn)折。

在已有的堅實基礎(chǔ)上,智能體將突破「人類衍生數(shù)據(jù)」的局限。

它們將更多依靠自身與世界的互動進(jìn)行學(xué)習(xí)。通過觀察和行動,智能體能主動與環(huán)境交流。在持續(xù)終身的體驗中,它們不斷適應(yīng)和進(jìn)化。它們的目標(biāo)可以設(shè)定為任何基于現(xiàn)實信號的組合。

借助超過人類的推理能力,智能體能規(guī)劃決策,用行動影響環(huán)境。隨著體驗數(shù)據(jù)的積累,規(guī)模與質(zhì)量最終將超過人類生成的數(shù)據(jù)。

這種范式轉(zhuǎn)變,結(jié)合強化學(xué)習(xí)的進(jìn)步,將催生許多超越人類極限的新能力。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2015-10-14 22:26:04

阿里云云棲大會飛天

2018-05-29 13:55:21

2024-03-14 09:46:42

算法檢測

2014-03-20 17:27:45

百會CRM

2024-01-24 13:15:00

Redis分布式鎖SpringBoot

2018-07-25 09:52:42

2024-09-25 15:02:47

2015-09-18 09:29:21

2019-03-13 09:51:56

AI人工智能打麻將

2019-04-15 14:52:02

2018-12-24 10:04:32

區(qū)塊鏈數(shù)據(jù)存儲分布式記賬

2022-12-05 13:58:36

2020-05-21 12:15:35

機器狗人工智能波士頓

2014-12-17 10:15:55

喬布斯電影

2011-09-09 09:09:16

LBS應(yīng)用

2010-05-10 10:32:42

白領(lǐng)年齡

2017-02-23 10:42:39

2015-04-17 09:17:29

云計算網(wǎng)絡(luò)安全人員

2020-01-17 06:02:46

技術(shù)開發(fā)AI

2020-04-13 16:05:25

JS裝飾器前端
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 你懂的在线视频播放 | 午夜影院网站 | 国产亚洲一区二区三区 | 国产综合视频 | 色综合天天天天做夜夜夜夜做 | 亚洲国产成人精品久久久国产成人一区 | 亚洲国产精选 | 91av在线看 | 国产高清免费视频 | 欧美日韩精品一区二区三区四区 | 国产欧美日韩综合精品一 | 国产资源在线播放 | 99国产精品久久久久 | 国产成人免费观看 | 成人精品一区二区 | 国产综合精品一区二区三区 | 日韩精品在线网站 | 色成人免费网站 | 97超碰人人草 | 日韩精品一区二区三区在线播放 | 欧美aaaaaaaaaa | 亚洲专区在线 | 免费成人高清在线视频 | 亚洲视频在线观看免费 | 亚洲免费三区 | 亚洲小视频在线播放 | 一区二区久久 | 黄色网址在线免费播放 | 成人自拍视频网站 | 久久久久久久91 | 国产精品久久久久久婷婷天堂 | 午夜日韩精品 | 九九福利 | 久久国产精品无码网站 | 涩涩视频在线看 | 精品国产欧美一区二区 | 亚洲成色777777在线观看影院 | 日本不卡一区 | 亚洲成人一区二区三区 | 精品欧美一区二区三区久久久 | 久久蜜桃精品 |