OpenAI緊急直播,ChatGPT瘋狂開掛「深度研究」!10分鐘爆肝萬字現AGI雛形,刷榜人類最后考試
一大早,OpenAI開啟的在線直播,簡直讓人猝不及防。
OpenAI研究負責人Mark Chen帶領三位工作人員,在20多分鐘內向我們詳細演示了Deep Research的功能。
最大亮點之一:只要數十分鐘,它就能完成人類專家花費幾小時的復雜調研任務!
Mark Chen將之稱為「我們的下一代智能體產品」。
去年,OpenAI就推出了o1,但這些推理模型的一個限制,是它們無法使用工具,因為缺少了瀏覽互聯網這個核心能力,
因此,現在OpenAI宣布了一個重大步驟:引入Deep Research!
奧特曼激動地表示,這就像是擁有一種超能力,可以隨時調用專家!
它能夠使用互聯網進行復雜的研究和推理,并為你提供詳細報告。它非常強大,能夠完成那些通常需要數小時、數天,且花費數百美元的任務。
需要強調的是,Deep Research是基于優化版o3打造——一個可以瀏覽網頁和執行python代碼的o3。
這是一個可以在互聯網上進行多步驟研究的模型,它能發現、綜合內容,并對之進行推理。甚至隨著發現更多信息,它還會調整自己的計劃。
也就是說,Deep Research的一大特點,就是消除了模型中的延遲限制,它返回結果可能需要五分鐘,甚至長達半小時。
模型能在無人監督的情況下,以更長時間執行自主任務,這儼然就是AGI的雛形。最終,OpenAI的愿景是:模型能自主發現和發掘新知識。
OpenAI研究員表示,「使用Deep Research對我來說真的是一次個人的AGI時刻。只要10分鐘,它就能生成準確又全面的競爭對手和市場研究報告(還有來源),以前這些東西我得花3個小時才能做完」。
現在,Deep Research會自己上網,然后給你一份全面、引用翔實的研究論文!也就是說,它已經妥妥達到了某領域研究專家的級別。
奧特曼還特意發文表示,這還不是o3-mini的「One More Thing」,這個小彩蛋過幾天公布。
今天,Deep Research就將在Pro中推出了(每月100次查詢),之后還會很快在Plus、Team、Education和Enterprise版本中上線。
幫PM完成深度市場調查報告
從一個按鈕「Deep Research」開始,就可以和Deep Research聊天了。
OpenAI研究者演示說,自己一直在思考的就是,是否該開發一款新的語言翻譯app呢?
這個市場調研,就可以交給Deep Research——
「幫我找到ios和Android的采用率,想要學習另一種語言的人的百分比,過去幾年移動普及率的變化,以及發達國家和發展中國家的差異。」
研究者明確表示,希望自己想要的信息以格式化的報告呈現,其中要包含表格和明確建議,說明哪些是最佳的新興機會。
這個市場調查要求,可著實不簡單。如果是普通打工人來調研,最少也得花費數小時。
但是Deep Research,立馬就啟動了調查。
接下來,研究者進一步細化了自己的要求:給我滲透率的用戶百分比,分析總體使用情況,對其余部分進行最好的假設。
在這里,Deep Research就開始發揮自己的長處:自主啟動研究過程。
在這個過程中,它會瀏覽不同網頁,查看相關圖片、表格、PDF,提取所有信息,來確定下一步要做什么。
在OpenAI的演示結束時,Deep Research仍然在進行搜索和調研。此時,它已經查看了29個不同來源和大量信息。
可以看出,它的報告中已經包含了不同的表格,以及多種呈現數據的形式。
而且,我們能夠點擊查看模型的每一個引用,以及它遇到的不同網站。
對于不同學術領域的市場研究,比如物理學、計算機科學、生物學,Deep Research都很擅長。
OpenAI研究者還展示了一個財務研究的例子:「我是一個硅谷風投公司的投資分析師,想分析民用超音速航空旅行市場,準備一份詳盡的投資備忘錄。」
在這個過程中,模型開展了7分鐘的研究,使用了12個不同來源,提供了一份全面的調查報告。
下面是一個生物學方面的例子。
研究者上傳了一篇論文,想找到關于同一主題的其他論文。
最終Deep Research給出的結果,得到了生物學專家的認可。
有趣的東西:買買買
而且,Deep Research能做的絕不僅僅是嚴肅的學術調查報告,它還可以幫你完成很多有趣、好玩的調查,比如——我該買什么?
如果我們要入手一件很貴的東西,肯定不敢貿然下單,而是提前在網上細細研讀每一頁說明和買家評論。
比如想在日本滑雪,想買滑雪板,就可以直接讓Deep Research給我們出一份帶表格的報告。
在這個過程中,我們可以細化要求:高級滑雪者,有時雪是粉狀的,自己身高很高所以需要長滑雪板,而且顏色要很漂亮。
最終,Deep Research給出了長篇的報告,還對理想的滑雪板做了詳細列表。
也就是說,如果你想要的答案非常具體,那么Deep Research就會非常有效。
甚至,我們可以用Deep Research找出10年前在東京去過的餐廳的名字,或者找到我們忘記名字、但記得其中某集內容的電視劇。
除了描述情節之外,其余的信息就是這是5到10年前的電視劇了。
結果,Deep Research居然找出了正確答案!
優化版o3加持,AGI又近一步
去年12月,谷歌最先放出了研究智能體Deep Research。
OpenAI同款Deep Research,也是智能體的一種,能夠針對復雜任務上網進行多步研究。
它能在幾十分鐘內,完成人類需要數小時才能完成的工作。
只需一個提示,ChatGPT即可查找、分析和綜合數百個在線資源,創建一份「研究分析師級」的綜合報告。
值得一提的是,Deep Research由即將推出的o3模型的「優化版本」加持。
OpenAI通過端到端強化學習,對它的深度瀏覽和推理任務進行了訓練。
該版本專門用于網頁瀏覽和數據分析,它利用推理能力來搜索、解釋和分析互聯網上大量的文本、圖像和PDF,并根據遇到的信息隨時調整方向。
要知道,「綜合知識」的能力,是創造新知識的先決條件。
因此,Deep Research的推出,標志著OpenAI向更廣泛的目標——開發AGI邁出了重要一步。
OpenAI研究科學家Hyung Won Chung對此表示:
Deep Research的一個顯著特點就是它極強的耐心。我認為它已經接近了「超人類耐心」。在這個項目的過程中,我意識到智力和耐心是非常契合的。
就像推理模型o1一樣,Deep Research是通過強化學習(RL)進行學習的。它學習如何搜索相關信息,并通過推理整合知識。當scale遇上RL時,魔力就會產生。
畢竟,OpenAI一直設想,真正的AGI是能夠自己產出新穎的科學研究。
幾天前的Reddit在線問答中,奧特曼也發表了同樣的觀點。
在我看來,最重要的影響將是加速科學發現的速度,我認為這是對提高生活質量貢獻最大的因素。
一個提示,即出一份專業報告
那么,Deep Research究竟能做什么?
據OpenAI介紹,它是專為那些在金融、科學、政策和工程等領域從事密集知識工作,需要全面、精確和可靠研究的人們而打造的。
對于那些「買買買」購物狂來說,Deep Research還能為你所需研究的購買項目,比如汽車、家電、家具等,提供高度的個性化建議。
而且,每個輸出都有完整的文檔記錄,包含清晰的引用和思維過程總結,方便隨后參考和驗證。
尤其是,它特別擅長發現需要瀏覽眾多網站才能獲取的小眾、非直觀信息。
只需查詢一次,Deep Research就能get要點,加快復雜、耗時的網絡研究,節省了大量寶貴的時間。
此外,Deep Research能夠獨立發現、推理并整合來自網絡各種見解。
在技術層面上,它采用了與o1相同的強化學習方法,并進行了重要的升級。
它在真實世界任務中進行了訓練,整合了瀏覽器的操作能力,強化了Python工具使用。
雖然o1在編碼、數學和其他技術領域展示了令人印象深刻的能力,但許多現實世界的挑戰需要從不同在線來源獲取大量背景和信息。
Deep Research在這些推理能力的基礎上彌補了這一差距,使其能夠處理人們在工作和日常生活中面臨的各類問題。
最快5分鐘,圖像數據可視化要來
進入ChatGPT,可以再聊天對話框中選擇「Deep Research」,直接輸入提示即可。
不論是對流媒體平臺的競爭分析,還是關于最佳通勤自行車的個性化報告,ChatGPT全能hold住。
甚至,你還可以上傳文件、電子表格,提供與問題更多相關的背景信息。
一旦開啟對話,側邊欄會顯示所采取步驟和信息來源的摘要。
一般來說,Deep Research需要5-30分鐘完成一份研究,具體實踐取決于深入網絡研究所需的時間。
在此期間,你完全可以去干別的事,ChatGPT完成研究后會主動向你發送通知,最終的輸出將以報告形式展現在聊天中。
更驚喜的是,未來幾周,OpenAI還將在這些報告中添加嵌入式圖像、數據可視化和其他分析輸出,提供更多清晰度和背景信息。
與Deep Research相比,GPT-4o更適合實時的多模態對話。
對于需要深入和細節的多維度、專業領域的問題,Deep Research能夠進行廣泛探索并為每個論點提供引用來源。
這種能力使其有別于簡單的快速總結,而是能夠提供經過充分論證和驗證的專業答案,這些答案的質量足以作為正式的工作成果使用。
比如,你想要統計過去10年內,按GDP排名的前10個發達國家和前10個發展中國家的以下數據:iOS和安卓系統的使用率、想學習另一門語言的人口比例、移動設備普及率的變化。
GPT-4o僅僅是幫你列了出來,而Deep Research更像是一個報告,甚至給出了完整的可視化表格。
端到端強化學習,與o1同源
Deep Research是如何運作的?
它通過在各個領域的復雜瀏覽和推理任務上,進行端到端強化學習訓練而成。
通過這種訓練,它學會了規劃和執行多步驟路徑,找到所需數據,必要時可以回溯并對實時信息做出反應。
該模型還能夠瀏覽用戶上傳的文件,使用Python工具繪制和迭代圖表,在回答中嵌入生成的圖表和網站圖片,并引用其來源中的具體句子或段落。
通過這種訓練,它在多個關注現實世界問題的公開評估中刷新SOTA。
人類最后一場考試,得分26.6%刷爆了
全網爆火的「人類最后一次考試」中,Deep Research取得了26.6%準確率破紀錄。
奧特曼驕傲地表示,早在周五,「人類最后一場考試」的最高分是 o3-mini-high,得分為 13%。但到了周日,Deep Research功能的得分已經達到了26.6%。
要知道這項測試包含了超3,000道「專家級」多選題和簡答題,涵蓋從語言學到火箭科學、從古典學到生態學等100多個學科。
與o1相比,最大的進步出現在化學、人文社會科學和數學領域。
驅動Deep Research的模型通過在必要時有效尋找專業信息,展現出類人的解決方案。
GAIA
在GAIA測試中,這是一個評估AI解決現實世界問題能力的公開基準測試。
驅動Deep Research的模型同樣刷新SOTA,位居外部排行榜榜首。
這些測試包含三個難度等級的問題,成功完成這些任務需要具備推理能力、多模態流暢性、網頁瀏覽和工具使用等多項技能。
下面是一級和三級任務的對比區別。
專家級任務
另外,在對各個領域專家級任務的內部評估中,Deep Research能夠自動化完成,需要多個小時的復雜人工調查工作。
下圖為專家級任務與最大工具調用次數的對比,顯示出了模型花更多時間思考和瀏覽時,性能就會更強。
這跟OpenAI的理念相吻合:在未來世界里,智能體將花費越來越長的時間,完成越來越困難的任務。
下面這個案例中,Deep Research進行的化學研究,節省了大約4小時的時間。
語言學方面,更是節省了5個小時。
以下兩個圖表可以證實這一事實。其中,上圖為不同估算經濟價值范圍的通過率,下圖為完成不同任務所需時間范圍的通過率。
所謂通過率,即模型在專家級任務中提供滿意答案的比率,答案由專家評定。
從圖表中可以看出,通過率與估算經濟價值的相關性,比估計小時數的相關性更高,也就是說,模型發現困難的事,也是對人類來說更耗時的事。
局限性
Deep Research仍處于早期階段,同樣存在一些限制。
根據內部評估,它有時會在回答中產生虛構的事實或做出錯誤的推斷,不過,頻率明顯低于現有的ChatGPT模型。
它可能難以區分權威信息和謠言,目前在置信度校準方面表現較弱,往往無法準確傳達不確定性。
在發布時,報告和引用可能存在微小的格式錯誤,任務可能需要更長時間才能開始。
OpenAI預計所有這些問題都會隨著使用時間的增加而快速改善。
Pro用戶先上手,Plus一個月內上線
OpenAI稱,Deep Research在ChatGPT中非常消耗計算資源。
研究查詢所需時間越長,所需的推理計算就越多。
目前,OpenAI開始向Pro用戶提供優化版本,每月最多100次查詢。
接下來,這項功能會逐漸向Plus和Team用戶(帶越一個月內),以及Enterprise用戶推出。
未來,所有付費用戶都將獲得更高的使用配額。
屆時,OpenAI將發布一個更快、更具成本效益的深度研究版本,它由更小的模型驅動,但仍能提供高質量的結果。
下一步:Operator+Deep Research
ChatGPT的Deep Research功能現已在網頁版正式上線,并將在一個月內推廣到移動端和桌面端。
如前所述,目前,Deep Research可以訪問實時互聯網,獲取最新信息,并對上傳的文件進行深入分析。
但,這僅僅是開始。
未來,任何一個人將能夠接入更專業的數據源,比如學術期刊或企業內部資源。
這種定制化的知識獲取能力,讓ChatGPT真正成為你的專屬智能助手。
最激動人心的是,OpenAI正在醞釀一場更大的革命。
下一步,通過將Deep Research(負責異步網絡調查)與Operator(負責實際行動執行)相結合,ChatGPT將不再局限于信息處理,能夠為每個人執行愈加復雜的任務。
這種突破性組合,將開創一個全新的AI個人助手時代。