成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

九年實現(xiàn)愛因斯坦級AGI?OpenAI科學(xué)家Dan Roberts談強(qiáng)化學(xué)習(xí)擴(kuò)展的未來

人工智能 新聞
Dan Roberts 介紹了預(yù)訓(xùn)練和強(qiáng)化學(xué)習(xí)的 Scaling Law,并預(yù)測強(qiáng)化學(xué)習(xí)將在未來的 AI 模型構(gòu)建中發(fā)揮越來越大的作用,而隨著強(qiáng)化學(xué)習(xí)繼續(xù)擴(kuò)展,我們最終將造出有能力發(fā)現(xiàn)新科學(xué)的模型。

近日,在紅杉資本主辦的 AI Ascent 上,OpenAI 研究科學(xué)家 Dan Roberts 做了主題為「接下來的未來 / 擴(kuò)展強(qiáng)化學(xué)習(xí)」的演講,其上傳到 YouTube 的版本更是采用了一個更吸引人的標(biāo)題:「9 年實現(xiàn) AGI?OpenAI 的 Dan Roberts 推測將如何模擬愛因斯坦。」

圖片

在這場演講中,Dan Roberts 介紹了預(yù)訓(xùn)練和強(qiáng)化學(xué)習(xí)的 Scaling Law,并預(yù)測強(qiáng)化學(xué)習(xí)將在未來的 AI 模型構(gòu)建中發(fā)揮越來越大的作用,而隨著強(qiáng)化學(xué)習(xí)繼續(xù)擴(kuò)展,我們最終將造出有能力發(fā)現(xiàn)新科學(xué)的模型。

https://www.youtube.com/watch?v=_rjD_2zn2JU

Dan Roberts,Open AI 研究科學(xué)家,強(qiáng)化學(xué)習(xí)科學(xué)團(tuán)隊負(fù)責(zé)人,同時也是 MIT 理論物理中心訪問科學(xué)家。他還曾與 Sho Yaida 合著了《The Principles of Deep Learning Theory(深度學(xué)習(xí)理論的原理)》一書,該書有發(fā)布在 arXiv 上的免費版本:https://arxiv.org/abs/2106.10165 。他還曾在 Facebook AI 研究中心擔(dān)任過研究科學(xué)家,之后他參與創(chuàng)立了一家為國防、情報和金融服務(wù)客戶提供協(xié)作情報文本挖掘產(chǎn)品的公司 Diffeo—— 該公司后來被 Salesforce 收購,Dan Roberts 也一并加入了 Salesforce。后來,他又加入了紅杉資本,成為了一位 AI Fellow。去年,他離開紅杉資本,加入了 OpenAI。

機(jī)器之心整理了 Dan Roberts 的演講內(nèi)容。

正如你們許多人知道的,去年 9 月,OpenAI 發(fā)布了一個名為 o1 的模型。

我這里展示的是一張圖表,y 軸代表模型在某種數(shù)學(xué)推理基準(zhǔn)測試上的表現(xiàn),但真正有趣的是 x 軸。

左邊的圖表顯示,隨著訓(xùn)練時間的增加,模型性能隨之提升。這種走勢是每個訓(xùn)練 AI 模型的人都熟悉的。

圖片

但真正令人興奮的是右邊的圖表:它表明在「測試時間」增加時,模型的表現(xiàn)也會得到改善。模型學(xué)會了思考,思考的時間越多,進(jìn)步就越大。

圖片

這個發(fā)現(xiàn)太重要了,我們甚至把它印在了 T 恤上。因為這代表了一個全新的擴(kuò)展維度 —— 不僅僅是訓(xùn)練時間擴(kuò)展,還包括測試時間擴(kuò)展。

圖片

這種發(fā)現(xiàn)意味著什么呢?意味著我們有了一個會思考的模型。

上個月,我們發(fā)布了一個更強(qiáng)大的推理模型 o3,比如圖中展示的一張草稿圖,你可以提問「Solve the QED problem on the left(解決左邊的量子電動力學(xué)問題)」。

圖片


圖片

來源 https://openai.com/index/thinking-with-images/

這類模型在測試時,能進(jìn)行思考,分析圖像,并放大圖像細(xì)節(jié)(過程如下)。

圖片

其實這張紙上有個費曼圖(一種用于表示量子場論計算的圖示),模型經(jīng)過分析后,最終給出正確答案 —— 整個過程大約花了一分鐘。

圖片

順便提個趣事:在發(fā)布這篇博客前,一位同事讓我驗證這個計算。盡管這是教科書級別的題目,但我花了 3 個小時才搞定 —— 我得一步步追蹤它的推導(dǎo),確保所有正負(fù)號都正確,最后才能確認(rèn)答案是對的。

那么,我們現(xiàn)在能做什么?模型思考一分鐘,就能完成一些相當(dāng)復(fù)雜的計算 —— 但我們的目標(biāo)遠(yuǎn)不止于此。

不如做個思維實驗吧!說到思維實驗,誰最擅長?阿爾伯特?愛因斯坦。

讓我們以愛因斯坦為對象做個假設(shè):如果回到 1907 年(他剛開始研究廣義相對論之前),讓他回答一道廣義相對論的期末考題 —— 這題目其實是 GPT-4.5 編的,但我可以保證,這確實是你會遇到的那種典型問題。

我們設(shè)想愛因斯坦在 1907 年被問到以下問題:問題 1:黑洞與施瓦西度規(guī)。

圖片

當(dāng)然,作為 OpenAI,我們不會直接問愛因斯坦,而是問「愛因斯坦 v1907-super-hacks」。

我認(rèn)為愛因斯坦是個視覺型思考者。他總愛用電梯和自由落體來舉例 —— 學(xué)廣義相對論時肯定會碰到這些概念,還有那些橡膠膜上的小球的比喻。不過看起來他中途走神去琢磨量子力學(xué)了……(我們的模型也經(jīng)常這樣分心!)。

圖片

看起來「愛因斯坦 v1907-super-hacks」的思考逐漸接近黑洞的概念了…… 不過我也不知道為什么他會把自己代入到這些場景里。但答案是正確的。

但事實證明,GPT-4.5 沒能答對這道題,我們得靠 o3 才能解決。

我在 OpenAI 的工作大概就是專門驗證這些物理計算,而不是搞 AI 研究。

不過重點在于:模型給出了正確答案,而愛因斯坦當(dāng)然也能答對 —— 只是他花了 8 年時間。

目前,我們的模型已經(jīng)可以通過一分鐘的思考重現(xiàn)教科書級別的計算及其衍生問題。但我們的目標(biāo)遠(yuǎn)不止于此 —— 我們希望它們能為人類知識與科學(xué)的前沿做出重大貢獻(xiàn)。

圖片

我們在回到這張圖表(左邊),如何才能實現(xiàn)這一目標(biāo)?通過圖表可以看出,模型的性能會隨著訓(xùn)練量的增加而提升,而我們的訓(xùn)練方法主要是強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)。

圖片

圖片

這次演講我最想傳達(dá)的核心信息是:我們需要持續(xù)擴(kuò)大強(qiáng)化學(xué)習(xí)的規(guī)模。一年前,我們發(fā)布了 GPT-4o,當(dāng)時所有的計算資源都投入在預(yù)訓(xùn)練(pre-training)上。

圖片

但隨后,我們開始探索新方向,這才有了如今測試階段的「思考」能力 —— 比如在 o1 模型 中,我們額外增加了強(qiáng)化學(xué)習(xí)計算量(RL compute)。

當(dāng)然,這只是一個卡通演示,比例不一定對,但其方向是對的。o3 用到了一些強(qiáng)化學(xué)習(xí),但未來強(qiáng)化學(xué)習(xí)計算的比重會更大。到某個時候,強(qiáng)化學(xué)習(xí)計算可能會成為主導(dǎo)。

圖片

這是我從 Yann LeCun 的幻燈片借的一張圖,大概是他 2019 年的一場演講。這張幻燈片有點復(fù)雜,難以理解。其中關(guān)鍵在于:預(yù)訓(xùn)練就像這個大蛋糕,強(qiáng)化學(xué)習(xí)應(yīng)該像上面的小櫻桃。我們實際上要做的是顛覆這個迷因。我們的蛋糕大小可能不會變化,但我們可能會有一顆超大的強(qiáng)化學(xué)習(xí)櫻桃。

圖片

那么,我們計劃怎么做呢?但我不能泄漏我們的計劃。我一開始擔(dān)心我的幻燈片會被刪減一些,但一切都還好。

圖片

我們的計劃其實很明顯:大規(guī)模擴(kuò)展計算。

圖片

什么意思呢?我們將籌集 5000 億美元,在德克薩斯州的阿比林買一些地,建一些建筑,在里面放一些計算機(jī)。我們也將訓(xùn)練一些模型,然后希望能借此獲得大量收入,然后我們會建更多建筑并在里面放更多計算機(jī)。這就是我們擴(kuò)展計算的方式。與此同時,我們也將發(fā)展 scaling 科學(xué),這就是我在 OpenAI 所做的事情。

圖片

這張圖來自介紹 GPT-4 的博客文章,那時候我還沒有加入 OpenAI,但這張圖確實振奮人心。下面的綠點是 GPT-4 的最終損失性能,前面的灰點是訓(xùn)練過程中記錄的性能。而這張圖采用了對數(shù)尺度。

將這些點連起來,可以得到一條趨勢線,我們可以借此預(yù)測未來:訓(xùn)練前所未有的大模型確實能帶來好處。

現(xiàn)在我們有了測試時間計算和強(qiáng)化學(xué)習(xí)訓(xùn)練的新方向。我們是否必須拋棄一切,重新發(fā)明應(yīng)用于擴(kuò)展計算的含義?所以我們需要擴(kuò)展科學(xué)。

圖片

這張圖來自播客主理人 Dwarkesh。他問,既然現(xiàn)在 LLM 已經(jīng)記住了如此多的知識,為什么還沒有做出什么科學(xué)發(fā)現(xiàn)呢?

原因可能是我們提問的方式不正確。在研究中,很多時候提問的方式比研究過程和答案更重要。所以關(guān)鍵在于問對問題。

還有一個可能原因是,我們現(xiàn)在過于關(guān)注競賽數(shù)學(xué)等問題了,這就導(dǎo)致模型在不同問題上的能力參差不齊。

圖片

總之,我認(rèn)為真正會發(fā)生的事情是擴(kuò)大規(guī)模。我們需要進(jìn)一步擴(kuò)大規(guī)模,這是有用的。

總結(jié)一下,這就是接下來會發(fā)生的事情。這是去年 AI Ascent 上的一張圖,其中 Y 軸是半對數(shù)的。可以看到,智能體 / AI 所能處理的任務(wù)的長度每 7 個月就會翻一倍。根據(jù)這張圖,他們可以執(zhí)行長達(dá)一個小時的測試了,但明年呢?大概會在 2 到 3 小時之間。

圖片

不過,預(yù)測 AI 的發(fā)展并不容易,大家總是錯的。但假如這張圖的預(yù)測是對的,沿著其趨勢,到 2034 年 AI Ascent 時,AI 將有能力進(jìn)行長達(dá) 8 年的計算和思考 —— 而 8 年正是愛因斯坦發(fā)現(xiàn)廣義相對論所用的時間。

圖片

我想,或許 9 年后,我們就將有能發(fā)現(xiàn)廣義相對論的模型。


責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-12-10 10:16:26

LLMAGI

2018-12-05 09:40:19

人工智能AIAGI

2020-06-30 09:54:30

框架AI開發(fā)

2012-12-06 15:36:55

CIO

2024-12-30 09:30:00

OpenAIAI訓(xùn)練

2023-11-02 13:35:00

訓(xùn)練模型

2017-08-04 15:53:10

大數(shù)據(jù)真?zhèn)螖?shù)據(jù)科學(xué)家

2020-03-20 14:40:48

數(shù)據(jù)科學(xué)Python學(xué)習(xí)

2024-12-06 09:00:00

2023-10-12 14:18:06

2015-06-11 10:27:29

數(shù)據(jù)科學(xué)家

2025-05-14 09:03:00

2015-10-16 09:44:51

2022-08-24 10:57:38

深度學(xué)習(xí)人工智能

2009-03-27 09:09:03

GoogleAndroid移動OS

2017-06-29 15:53:43

5Gsdnnfv

2021-01-08 18:25:15

騰訊

2019-11-22 19:54:46

戴爾

2021-05-31 08:13:39

亞馬遜職場面試

2018-12-24 08:37:44

數(shù)據(jù)科學(xué)家數(shù)據(jù)模型
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 国产美女一区二区 | 国产一区不卡 | 美日韩中文字幕 | 国产一级黄色网 | 日韩精品久久一区二区三区 | 97av在线| 国产最新精品视频 | 亚洲国产成人在线 | 成人精品在线观看 | 午夜国产精品视频 | 亚洲欧美中文日韩在线v日本 | 青青久久 | 日韩成人av在线播放 | 欧美爱爱视频网站 | 日韩三级一区 | 国产精品视频综合 | 亚洲精品在线播放 | 久久另类视频 | 国产精品久久久99 | 青青久久 | 91网站在线看 | www久久爱| 久久成人精品一区二区三区 | 日韩精品久久 | 国产日韩欧美中文 | 成人在线精品视频 | 欧美福利在线 | 久久精品中文字幕 | 日本超碰 | 日本免费在线观看视频 | 久久久婷婷 | 国产一区二区三区四区五区加勒比 | 亚洲欧美日韩在线一区二区 | 日韩在线视频免费观看 | 久久久一二三 | 视频一区二区在线 | 色姑娘综合网 | 国产精品久久av | 香蕉婷婷 | 美女爽到呻吟久久久久 | 日本三级网址 |