5分鐘頂人類8小時!OpenAI Deep Research訂閱全推送,端到端強化微調是關鍵
Deep Research(深度研究)是繼「Operator」之后,OpenAI推出的第二個智能體,利用模型的推理能力,綜合分析浩瀚的互聯網信息,從而完成復雜的研究任務。
月初,OpenAI首先向ChatGPT Pro用戶開放了Deep Research功能。最近,進一步開放給了更多等級的訂閱用戶。
其中,Plus、Team、教育和企業用戶每月10次查詢機會,Pro用戶每月120次機會。
OpenAI對新功能寄予厚望:
它能在幾分鐘內完成人類需要數小時才能完成的工作。
綜合知識的能力是創造新知識的先決條件。
因此,深度研究標志著我們在開發AGI(通用人工智能)這一更廣泛目標上邁出了重要一步。
長期以來,我們一直設想AGI能夠進行創新性科學研究。
奧特曼表示:這是他最喜歡的已發布的功能之一。
此次更新,固然給用戶帶來了新體驗,「錢沒白花」。
但考慮到每月最多使用10次,新功能顯得「雞肋」:
考慮到同一梯隊的競爭對手,不僅類似功能推出的更早,而且免費,OpenAI這次發布,的確算不上出彩。
那這次OpenAI都推出哪些新特性?為什么這次落后競爭對手了呢?
技術報告發布
在X上,OpenAI連發多條消息,介紹深度研究相關更新情況。
除更多用戶可用之外,本次更新的主要改進為:
在輸出中嵌入帶引用的圖片
更好理解和參閱上傳的文件
然后,其他改進呢?無。
至于,沒什么落后競爭對手,OpenAI給出的解釋是為了控制風險,保證安全:
在推出深度研究并將其提供給Pro用戶之前,我們進行了嚴格的安全性測試、準備評估和治理審查。
我們還進行了額外的安全性測試,以更好地了解與深度研究瀏覽網頁能力相關的逐步風險,并添加了新的緩解措施。重點工作包括加強對在線發布的個人信息的隱私保護,并訓練模型抵抗在互聯網搜索過程中,可能遇到的惡意指令。
在廣泛發布深度研究之前,我們花時間進行了更多的人工探測和自動化測試,以評估特定風險。
在官網發布的系統卡(System card),OpenAI從提示注入、禁止內容、隱私、運行代碼能力、偏見和幻覺等方面,全面測試、評估并緩解了系統安全問題。
OpenAI展示了一系列測試結果,最后認為
總體上,深度研究在準備框架(Preparedness Framework)中被歸類為中等風險,并且已采取相應的保障措施和安全緩解措施,為這個模型做好了準備。
值得關注的是,在模型自主性方面,在處理更長時間跨度和智能體任務時,深度研究性能有所改進,尤其是在模型自主性風險相關的任務中。
比如,在SWE-Bench Verified評測中,深度研究展現了執行明確定義的編程任務的能力,被評定為中等風險水平。
已有網友給出了全面的總結:
更多安全測試結果與分析,參閱OpenAI官方系統卡:
文檔鏈接:https://cdn.openai.com/deep-research-system-card.pdf
尷尬之處在于,已免費推出相關功能的Grok-3,以安全性著稱。
紅杉采訪亮點
紅杉資本合伙人Sonya和Lauren,與OpenAI Deep Research的產品負責人Isa和Josh展開了深度對話。
當問及2025年的風口時,Isa和Josh不約而同地回答:「智能體」。
Deep Research是OpenAI在「Operator」之后推出的第二個智能體。通過端到端的強化學習訓練,Deep Research能像經驗豐富的研究員一樣,查資料、思考并完成全面的報告。
這不僅是節省5%時間,而是將原本需要8小時的任務縮減到5分鐘!
Deep Research無法為你完成一切,但它能為你節省幾個小時,甚至是幾天。
Isa表示:「我確信它會成為人們生活中不可或缺的一部分。」
從行業分析到醫學研究,再到計劃生日派對,Deep Research幾乎無所不能。
Deep Research不是普通的搜索工具,它能廣泛收集有關來源的信息,擅長在互聯網上找到小眾的事實,并整合到一個漂亮、整潔的報告中,嵌入圖表,并附上指向原始信息的引用。
當你想尋找特定的信息,并需要搜尋大量資料時,它才能發揮出最佳水平。它很擅長尋找和綜合信息,但Isa不認為Deep Research當前能做出新的科學發現。
應用場景
Deep Research常被應用于科學研究、醫學研究等領域。人們用它來了解市場、公司和房地產等。
Isa的朋友正考慮創辦一家消費品公司,會用它來做競品調研,查看特定域名是否被占用,以及估算市場規模。
出人意料的是,用戶會用Deep Research搜索代碼,查找關于某個軟件包的最新文檔,并幫他們編寫腳本。
Deep Research不僅能用于工作,在購物和旅行建議上也很有用。比如想買一輛新車時,可以請它整理一份報告。在日本發布Deep Research功能時,它可以用來幫忙尋找餐廳。
個性化教育也是非常有趣的場景,如果想復習生物學知識,它會是個好幫手。
輸入想了解的信息,它會為你整理出一份很棒的報告。
技術架構
驅動Deep Research的是o3模型的微調版本,o3是OpenAI最先進的推理模型。
模型針對困難的搜索和推理任務進行了訓練,可以調用瀏覽工具和Python工具。通過在這些任務上進行端到端訓練,模型學會了在線搜索和分析。
Deep Research最大的創新在于「端到端訓練」。研究的過程中,很多事是無法預測的。Isa認為沒有腳本能像訓練出的模型那樣靈活,能對實時的信息做出反應。
Deep Research在做有創造性的搜索,查看思維鏈總結會發現,它在想出下一個要查找的內容方面非常聰明。
Josh表示「我們經常誤以為自己寫代碼會比模型更聰明,但實際上,模型通常會提出更好的解決方案。」
強化學習微調很可能是構建強大智能體的關鍵!
Yann LeCun有個「蛋糕比喻」,無監督學習是蛋糕,監督學習是糖霜,強化學習是頂部的櫻桃。
成功的秘訣是構建高質量的數據集,數據質量是決定模型質量的最大因素。
Josh認為「AGI」目前只是運營問題。