OpenAI推出由o3驅動的全新“深度研究”模式,展現了AI代理時代的力量
如果你因為關注格萊美獎而錯過了這一消息,那么讓我來告訴你:OpenAI在周日晚間宣布推出其新的“Deep Research(深度研究)”模式,令全世界為之震驚,這是一項面向ChatGPT Pro訂閱計劃(200美元/月)用戶的AI工具,旨在通過深入且廣泛地研究網絡上的特定主題,并匯編出涵蓋商業、科學、醫學、營銷等多個專業領域的高質量報告,從而為用戶節省數小時的時間。
美國的ChatGPT Pro(以及即將推出的ChatGPT Plus、Team、Enterprise和Edu)用戶將能夠通過點擊ChatGPT網站和應用程序底部提示輸入/撰寫欄下方的選項來訪問Deep Research。
OpenAI的CEO Sam Altman在其個人社交網絡X賬號上發布的一系列帖子中描述這一功能“如同超能力,隨叫隨到的專家!”他補充道,“它真的非常出色,能夠完成那些需要數小時/數天并花費數百美元的任務。”
Deep Research基于OpenAI的O系列推理模型,特別是即將發布的完整o3模型(一個更小、功能較弱的o3-mini模型已于1月31日推出)。完整的o3模型能夠分析大量信息,并將文本、PDF和圖像整合成一個連貫的分析。
在YouTube上發布的直播中,OpenAI前沿研究負責人Mark Chen解釋稱,Deep Research能夠在“互聯網上進行多步驟研究,它發現內容、合成內容并對這些內容進行推理,隨著發現越來越多的信息,不斷調整其計劃。”
Chen還強調了這項創新對于OpenAI愿景的重要性:“這是我們AGI路線圖的核心,我們的最終目標是打造一個能夠自行發現和探索新知識的模型。”
Deep Research的推出是OpenAI官方工具中的第二個,此前本月早些時候已推出了瀏覽器和光標控制工具Operator。OpenAI Stargate Command任務對齊負責人Joshua Achiam在X上寫道,這兩個模型都有助于更好地定義“AI工具”的概念——這是一個當前在企業中流行但模糊不清的術語——其意義遠超公司或這些特定用例。
“我覺得‘工具’這個詞在沙漠里徘徊了一段時間,”Achiam寫道,“它沒有基礎或示例可以指向,但Operator或Deep Research等工具為這個概念賦予了一定的形態。一個工具是一個GenAI,它為你執行一個或多個使用工具的工作流。”
OpenAI的Deep Research在“人類最后一場考試”AI基準測試中取得新最高分
Deep Research在準確性和推理方面樹立了新的基準。
OpenAI研究團隊成員Isa Fulford在YouTube直播中分享稱,該模型在“人類最后一場考試”中取得了“26.6%準確率的新高”。“人類最后一場考試”是一個相對較新的AI基準測試,旨在成為任何AI模型(或人類)最難完成的測試,涵蓋100個不同領域的3000個問題,如翻譯考古發現上的古代銘文。
此外,其瀏覽網頁、動態推理和精確引用來源的能力使其區別于早期的AI工具。
“該模型是在困難的瀏覽和推理任務上通過端到端的強化學習進行訓練的,”Fulford說,“它學會了規劃和執行多步驟軌跡,對實時信息做出反應,并在必要時回溯。”
Deep Research的一個突出特點是其處理任務的能力,這些任務否則可能需要人類花費數小時甚至數天的時間。
在宣布時,Chen解釋說,“Deep Research生成的輸出類似于一篇全面、充分引用的研究論文——這是該領域的分析師或專家可能會產出的內容。”
應用場景和用例
Deep Research的應用場景既多樣又具有影響力。
OpenAI的官方X賬號發布稱,它是“為在金融、科學、政策和工程等領域從事密集知識工作并需要徹底和可靠研究的人員而構建的。”
根據OpenAI在其官方Deep Research宣布博客文章(其中包括對某人購買的最佳滑雪板的詳細研究評估)中分享的示例,對于尋求個性化推薦或進行詳細產品研究的消費者來說,它也顯得很有價值。
Altman總結了該工具的多樣性,他寫道:“在你最難的工作任務上試試它,這些任務只需通過互聯網就能解決,看看會發生什么。”
Deep Research的個人醫療成功案例
OpenAI政府市場拓展負責人Felipe Millon分享了一個關于Deep Research如何影響他家庭的深刻個人經歷。他在X上的一系列帖子中寫道,他的妻子與雙側乳腺癌抗爭,而這款AI工具成為了他們意想不到的盟友。
“10月底,我的妻子被診斷出患有雙側乳腺癌,”Millon寫道,“一夜之間,我們的世界天翻地覆。”
在經過雙乳切除術和化療后,這對夫婦面臨了一個關鍵決定:是否進行放射治療。情況充滿了不確定性,因為即使他們的專家也給出了不同的建議。“對于她的具體情況,完全處于灰色地帶,”Millon解釋說,“我們感到束手無策。”
由于提前獲得了Deep Research的預覽訪問權限,Millon決定上傳妻子的手術病理報告,并詢問放射治療是否會有益。他寫道,“接下來發生的事情令人震驚。它不僅確認了我們腫瘤學家提到的內容——而且更深入。它引用了我從未聽說過的研究,并在我們補充了她的年齡和遺傳因素等細節后進行了調整。”
他使用的具體提示是:
“閱讀附帶的手術病理報告,其中包含關于雙側乳腺癌的信息。然后研究[判斷]對于該患者在6輪TCHP化療后,根據其乳腺癌類型,是否建議進行放射治療。我想了解該患者進行放射治療的利弊,它降低復發可能性的概率,以及益處是否大于潛在的長期風險。”
Millon和他的妻子核實了模型引用的每一項研究,發現它們準確且高度相關。“我們很快就要去看另一位專家了,但我們已經對自己的決定更有信心了,”他寫道,“它在我們最需要的時候給了我們安心。”
可用性和下一步計劃?
Deep Research目前可供ChatGPT Pro用戶使用,計劃擴展到Plus和Team層級,隨后是Enterprise和教育市場。
正如Chen所警告的,“它仍然有可能產生幻覺,所以當你制作報告時,一定要自己檢查來源。”
該模型長時間自主思考的能力也使其資源密集,OpenAI目前正在努力優化其性能,以提高可訪問性。
OpenAI還暗示了未來將與自定義數據集進行集成,這將使企業能夠利用該工具進行專有研究。
對于Millon來說,Deep Research的影響已經顯而易見。“我們經常在OpenAI內部談論那些讓你‘感受到AGI’的時刻,而這就是其中之一,”他寫道,“這個東西將改變世界。”