九年實現(xiàn)愛因斯坦級AGI？OpenAI科學(xué)家Dan Roberts談強(qiáng)化學(xué)習(xí)擴(kuò)展的未來

2025-05-12 09:02:00

Dan Roberts 介紹了預(yù)訓(xùn)練和強(qiáng)化學(xué)習(xí)的 Scaling Law，并預(yù)測強(qiáng)化學(xué)習(xí)將在未來的 AI 模型構(gòu)建中發(fā)揮越來越大的作用，而隨著強(qiáng)化學(xué)習(xí)繼續(xù)擴(kuò)展，我們最終將造出有能力發(fā)現(xiàn)新科學(xué)的模型。

近日，在紅杉資本主辦的 AI Ascent 上，OpenAI 研究科學(xué)家 Dan Roberts 做了主題為「接下來的未來 / 擴(kuò)展強(qiáng)化學(xué)習(xí)」的演講，其上傳到 YouTube 的版本更是采用了一個更吸引人的標(biāo)題：「9 年實現(xiàn) AGI？OpenAI 的 Dan Roberts 推測將如何模擬愛因斯坦。」

在這場演講中，Dan Roberts 介紹了預(yù)訓(xùn)練和強(qiáng)化學(xué)習(xí)的 Scaling Law，并預(yù)測強(qiáng)化學(xué)習(xí)將在未來的 AI 模型構(gòu)建中發(fā)揮越來越大的作用，而隨著強(qiáng)化學(xué)習(xí)繼續(xù)擴(kuò)展，我們最終將造出有能力發(fā)現(xiàn)新科學(xué)的模型。

https://www.youtube.com/watch?v=_rjD_2zn2JU

Dan Roberts，Open AI 研究科學(xué)家，強(qiáng)化學(xué)習(xí)科學(xué)團(tuán)隊負(fù)責(zé)人，同時也是 MIT 理論物理中心訪問科學(xué)家。他還曾與 Sho Yaida 合著了《The Principles of Deep Learning Theory（深度學(xué)習(xí)理論的原理）》一書，該書有發(fā)布在 arXiv 上的免費版本：https://arxiv.org/abs/2106.10165 。他還曾在 Facebook AI 研究中心擔(dān)任過研究科學(xué)家，之后他參與創(chuàng)立了一家為國防、情報和金融服務(wù)客戶提供協(xié)作情報文本挖掘產(chǎn)品的公司 Diffeo—— 該公司后來被 Salesforce 收購，Dan Roberts 也一并加入了 Salesforce。后來，他又加入了紅杉資本，成為了一位 AI Fellow。去年，他離開紅杉資本，加入了 OpenAI。

機(jī)器之心整理了 Dan Roberts 的演講內(nèi)容。

正如你們許多人知道的，去年 9 月，OpenAI 發(fā)布了一個名為 o1 的模型。

我這里展示的是一張圖表，y 軸代表模型在某種數(shù)學(xué)推理基準(zhǔn)測試上的表現(xiàn)，但真正有趣的是 x 軸。

左邊的圖表顯示，隨著訓(xùn)練時間的增加，模型性能隨之提升。這種走勢是每個訓(xùn)練 AI 模型的人都熟悉的。

但真正令人興奮的是右邊的圖表：它表明在「測試時間」增加時，模型的表現(xiàn)也會得到改善。模型學(xué)會了思考，思考的時間越多，進(jìn)步就越大。

這個發(fā)現(xiàn)太重要了，我們甚至把它印在了 T 恤上。因為這代表了一個全新的擴(kuò)展維度 —— 不僅僅是訓(xùn)練時間擴(kuò)展，還包括測試時間擴(kuò)展。

這種發(fā)現(xiàn)意味著什么呢？意味著我們有了一個會思考的模型。

上個月，我們發(fā)布了一個更強(qiáng)大的推理模型 o3，比如圖中展示的一張草稿圖，你可以提問「Solve the QED problem on the left（解決左邊的量子電動力學(xué)問題）」。

來源 https://openai.com/index/thinking-with-images/

這類模型在測試時，能進(jìn)行思考，分析圖像，并放大圖像細(xì)節(jié)（過程如下）。

其實這張紙上有個費曼圖（一種用于表示量子場論計算的圖示），模型經(jīng)過分析后，最終給出正確答案 —— 整個過程大約花了一分鐘。

順便提個趣事：在發(fā)布這篇博客前，一位同事讓我驗證這個計算。盡管這是教科書級別的題目，但我花了 3 個小時才搞定 —— 我得一步步追蹤它的推導(dǎo)，確保所有正負(fù)號都正確，最后才能確認(rèn)答案是對的。

那么，我們現(xiàn)在能做什么？模型思考一分鐘，就能完成一些相當(dāng)復(fù)雜的計算 —— 但我們的目標(biāo)遠(yuǎn)不止于此。

不如做個思維實驗吧！說到思維實驗，誰最擅長？阿爾伯特?愛因斯坦。

讓我們以愛因斯坦為對象做個假設(shè)：如果回到 1907 年（他剛開始研究廣義相對論之前），讓他回答一道廣義相對論的期末考題 —— 這題目其實是 GPT-4.5 編的，但我可以保證，這確實是你會遇到的那種典型問題。

我們設(shè)想愛因斯坦在 1907 年被問到以下問題：問題 1：黑洞與施瓦西度規(guī)。

當(dāng)然，作為 OpenAI，我們不會直接問愛因斯坦，而是問「愛因斯坦 v1907-super-hacks」。

我認(rèn)為愛因斯坦是個視覺型思考者。他總愛用電梯和自由落體來舉例 —— 學(xué)廣義相對論時肯定會碰到這些概念，還有那些橡膠膜上的小球的比喻。不過看起來他中途走神去琢磨量子力學(xué)了……（我們的模型也經(jīng)常這樣分心！）。

看起來「愛因斯坦 v1907-super-hacks」的思考逐漸接近黑洞的概念了…… 不過我也不知道為什么他會把自己代入到這些場景里。但答案是正確的。

但事實證明，GPT-4.5 沒能答對這道題，我們得靠 o3 才能解決。

我在 OpenAI 的工作大概就是專門驗證這些物理計算，而不是搞 AI 研究。

不過重點在于：模型給出了正確答案，而愛因斯坦當(dāng)然也能答對 —— 只是他花了 8 年時間。

目前，我們的模型已經(jīng)可以通過一分鐘的思考重現(xiàn)教科書級別的計算及其衍生問題。但我們的目標(biāo)遠(yuǎn)不止于此 —— 我們希望它們能為人類知識與科學(xué)的前沿做出重大貢獻(xiàn)。

我們在回到這張圖表（左邊），如何才能實現(xiàn)這一目標(biāo)？通過圖表可以看出，模型的性能會隨著訓(xùn)練量的增加而提升，而我們的訓(xùn)練方法主要是強(qiáng)化學(xué)習(xí)（Reinforcement Learning, RL）。

這次演講我最想傳達(dá)的核心信息是：我們需要持續(xù)擴(kuò)大強(qiáng)化學(xué)習(xí)的規(guī)模。一年前，我們發(fā)布了 GPT-4o，當(dāng)時所有的計算資源都投入在預(yù)訓(xùn)練（pre-training）上。

但隨后，我們開始探索新方向，這才有了如今測試階段的「思考」能力 —— 比如在 o1 模型中，我們額外增加了強(qiáng)化學(xué)習(xí)計算量（RL compute）。

當(dāng)然，這只是一個卡通演示，比例不一定對，但其方向是對的。o3 用到了一些強(qiáng)化學(xué)習(xí)，但未來強(qiáng)化學(xué)習(xí)計算的比重會更大。到某個時候，強(qiáng)化學(xué)習(xí)計算可能會成為主導(dǎo)。

這是我從 Yann LeCun 的幻燈片借的一張圖，大概是他 2019 年的一場演講。這張幻燈片有點復(fù)雜，難以理解。其中關(guān)鍵在于：預(yù)訓(xùn)練就像這個大蛋糕，強(qiáng)化學(xué)習(xí)應(yīng)該像上面的小櫻桃。我們實際上要做的是顛覆這個迷因。我們的蛋糕大小可能不會變化，但我們可能會有一顆超大的強(qiáng)化學(xué)習(xí)櫻桃。

那么，我們計劃怎么做呢？但我不能泄漏我們的計劃。我一開始擔(dān)心我的幻燈片會被刪減一些，但一切都還好。

我們的計劃其實很明顯：大規(guī)模擴(kuò)展計算。

什么意思呢？我們將籌集 5000 億美元，在德克薩斯州的阿比林買一些地，建一些建筑，在里面放一些計算機(jī)。我們也將訓(xùn)練一些模型，然后希望能借此獲得大量收入，然后我們會建更多建筑并在里面放更多計算機(jī)。這就是我們擴(kuò)展計算的方式。與此同時，我們也將發(fā)展 scaling 科學(xué)，這就是我在 OpenAI 所做的事情。

這張圖來自介紹 GPT-4 的博客文章，那時候我還沒有加入 OpenAI，但這張圖確實振奮人心。下面的綠點是 GPT-4 的最終損失性能，前面的灰點是訓(xùn)練過程中記錄的性能。而這張圖采用了對數(shù)尺度。

將這些點連起來，可以得到一條趨勢線，我們可以借此預(yù)測未來：訓(xùn)練前所未有的大模型確實能帶來好處。

現(xiàn)在我們有了測試時間計算和強(qiáng)化學(xué)習(xí)訓(xùn)練的新方向。我們是否必須拋棄一切，重新發(fā)明應(yīng)用于擴(kuò)展計算的含義？所以我們需要擴(kuò)展科學(xué)。

這張圖來自播客主理人 Dwarkesh。他問，既然現(xiàn)在 LLM 已經(jīng)記住了如此多的知識，為什么還沒有做出什么科學(xué)發(fā)現(xiàn)呢？

原因可能是我們提問的方式不正確。在研究中，很多時候提問的方式比研究過程和答案更重要。所以關(guān)鍵在于問對問題。

還有一個可能原因是，我們現(xiàn)在過于關(guān)注競賽數(shù)學(xué)等問題了，這就導(dǎo)致模型在不同問題上的能力參差不齊。

總之，我認(rèn)為真正會發(fā)生的事情是擴(kuò)大規(guī)模。我們需要進(jìn)一步擴(kuò)大規(guī)模，這是有用的。

總結(jié)一下，這就是接下來會發(fā)生的事情。這是去年 AI Ascent 上的一張圖，其中 Y 軸是半對數(shù)的。可以看到，智能體 / AI 所能處理的任務(wù)的長度每 7 個月就會翻一倍。根據(jù)這張圖，他們可以執(zhí)行長達(dá)一個小時的測試了，但明年呢？大概會在 2 到 3 小時之間。

不過，預(yù)測 AI 的發(fā)展并不容易，大家總是錯的。但假如這張圖的預(yù)測是對的，沿著其趨勢，到 2034 年 AI Ascent 時，AI 將有能力進(jìn)行長達(dá) 8 年的計算和思考 —— 而 8 年正是愛因斯坦發(fā)現(xiàn)廣義相對論所用的時間。

我想，或許 9 年后，我們就將有能發(fā)現(xiàn)廣義相對論的模型。

責(zé)任編輯：張燕妮來源：機(jī)器之心

AI 模型強(qiáng)化學(xué)習(xí)

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

九年實現(xiàn)愛因斯坦級AGI？OpenAI科學(xué)家Dan Roberts談強(qiáng)化學(xué)習(xí)擴(kuò)展的未來