OpenAI突然發布智能體API!支持網絡和文件搜索以及computer use
「Agent/智能體」可說是當今 AI 領域最炙手可熱的話題。今天凌晨,OpenAI 發布了一系列可讓開發者通過 API 構建智能體的新工具,其中最大的看點便是 Responses API?,這是對之前的 Chat Completions API 的一輪大升級,使其獲得了 Assistants API 般使用工具的能力,從而可以幫助開發者構建智能體。目前,Responses API? 已經內置了網絡搜索、文件搜索和計算機使用(computer use)能力。
OpenAI CEO Sam Altman 表示 Chat Completions API 是有史以來設計最完善、最實用的 API 之一。
熟悉大模型應用開發的人都知道,當今不少大模型提供商的服務都兼容 OpenAI 之前提出的 Chat Completions API,其對行業標準化做出了非常大的貢獻。而今發布的 Responses API? 或許也將成為智能體響應標準化的重要組成部分。
Chat Completions API 的一個簡單示例
除此之外,OpenAI 還發布了用于編排單智能體和多智能體工作流的 Agents SDK 以及用于跟蹤和檢查智能體工作流程執行情況的 observability tools。
OpenAI 表示:「這些新工具簡化了核心智能體邏輯、編排和交互,使開發者能夠更輕松地開始構建智能體。在接下來的幾周和幾個月內,我們計劃發布更多工具和功能,以進一步簡化和加速在我們的平臺上構建智能體應用的過程。」
相關文檔鏈接如下:
- Responses API?:https://platform.openai.com/docs/quickstart?api-mode=responses
- 網絡搜索:https://platform.openai.com/docs/guides/tools-web-search
- 文件搜索:https://platform.openai.com/docs/guides/tools-file-search
- computer use:https://platform.openai.com/docs/guides/tools-computer-use
- Agents SDK:https://platform.openai.com/docs/guides/agents
- observability tools:https://platform.openai.com/docs/guides/agents#orchestration
另外,OpenAI 還準備了 PlayGround 供開發者嘗試:https://platform.openai.com/playground/prompts?preset=ks7kayjX55ehTBR9oyUviuJe
下面來具體看看 OpenAI 今天發布的東西。
Responses API 是什么?
簡單來說,Responses API 是一種 API 新原語,其作用是使用 OpenAI 內置工具來構建智能體。OpenAI 表示它將 Chat Completions 的簡單性與 Assistants API 的工具使用功能結合到了一起。「隨著模型功能的不斷進化,我們相信 Responses API 將為開發者構建智能體應用提供更靈活的基礎。只需一次 Responses API 調用,開發者就能夠使用多個工具和模型輪次來解決越來越復雜的任務。」
首先,Responses API 將支持新的內置工具,如網絡搜索、文件搜索和 computer use。這些工具可以協同工作,將模型連接到現實世界,從而讓模型可以完成更加有用的任務。Responses API 還包含一些可用性改進,包括統一的基于事項(item)的設計、更簡單的多態性、直觀的流式事件和 SDK 助手(如可幫助輕松獲取模型的文本輸出的 response.output_text)。
對于希望輕松將 OpenAI 模型和內置工具結合到其應用中的開發者,Responses API 可提供一個統一的接口,而無需集成多個 API 或外部供應商。
該 API 還使在 OpenAI 上存儲數據變得更加容易,因此開發者可以使用跟蹤和評估等功能來評估智能體性能。OpenAI 還特別指出:「即使數據存儲在 OpenAI 上,我們也不會默認使用業務數據來訓練我們的模型。」
Responses API 即日可用,并且不會單獨收費 ——token 和工具按照 OpenAI 定價頁面上指定的標準費率計費。
現有的 API 呢?
Chat Completions API:OpenAI 表示,Chat Completions 仍然是他們最廣泛采用的 API,他們也會讓新模型和新功能支持它。無需內置工具的開發者可以放心地繼續使用 Chat Completions。只要 Chat Completions 的功能不依賴于內置工具或調用多個模型,OpenAI 表示就會繼續發布支持 Chat Completions 的新模型。而 Responses API 是 Chat Completions 的超集?,具有同樣出色的性能,因此對于新的集成,OpenAI 建議從 Responses API 開始。
Assistants API?:根據開發者對 Assistants API beta 的反饋,OpenAI 在 Responses API 中加入了一些關鍵改進,使其更加靈活、更快、更易于使用。OpenAI 表示正在努力實現 Assistants 和 Responses API 之間的完全功能對等,包括對類似 Assistant 和類似 Thread 的對象以及代碼解釋器工具的支持。OpenAI 表示,完成這個過程后,就會正式宣布棄用 Assistants API,目標截止日期為 2026 年中期。棄用后,OpenAI 將提供從 Assistants API 到 Responses API 的遷移指南,使開發者能夠保留所有數據并遷移其應用。而在正式宣布棄用之前,OpenAI 將繼續讓新模型支持 Assistants API。
OpenAI 表示:「Responses API 代表了在 OpenAI 上構建智能體的未來方向。」
Responses API 的內置工具
網絡搜索
開發者現在可以從網絡上獲得快速、最新的答案,同時還帶有清晰且相關的引文。在 Responses API 中,使用 gpt-4o 和 gpt-4o-mini 時,網絡搜索可用作工具使用,并且可以與其他工具或函數調用搭配使用。
Responses API 中的網絡搜索使用了 ChatGPT 搜索一樣的模型。OpenAI 也發布了基準測試結果:在 SimpleQA 評估 LLM 回答簡短事實問題的準確性的基準)上,GPT-4o search preview 和 GPT-4o mini search preview 分別得分 90% 和 88%。
使用該 API 中的網絡搜索生成的響應會包含指向新聞文章和博客文章等來源的鏈接,為用戶提供了一種了解更多信息的方式。
任何網站或發布者都可以選擇是否在該 API 中的網絡搜索中顯示。
目前,網絡搜索工具已在 Responses API 中以預覽版形式提供給所有開發者。OpenAI 還支持開發者通過 gpt-4o-search-preview 和 gpt-4o-mini-search-preview 直接訪問 Chat Completions API 中經過微調的搜索模型。GPT?4o search 和 4o-mini search 的定價分別為每千次查詢 30 美元和 25 美元。
文件搜索
開發者現在可以使用經過改進的文件搜索工具輕松地從大量文檔中檢索相關信息。其支持多種文件類型、查詢優化、元數據過濾和自定義重新排名,并能提供快速、準確的搜索結果。同樣,使用 Responses API,只需幾行代碼即可完成集成。
文件搜索工具可用于各種實際用例,包括使客服智能體輕松訪問常見問題解答、幫助法律助理快速參考合格專業人員的過去案例以及協助編程智能體查詢技術文檔。
此工具在 Responses API 中可供所有開發者使用。使用價格為每千次查詢 2.50 美元,文件存儲價格為 0.10 美元/GB /天,首 GB 免費。
該工具也將繼續在 Assistants API 中提供。最后,OpenAI 表示還向 Vector Store API 對象添加了一個新的搜索端點,開發者可直接將其用于查詢自己的數據,然后用于其他應用和 API。
Computer Use
為了構建能夠在計算機上完成任務的智能體,開發者現在可以使用 Responses API 中的 Computer Use 工具,該工具使用了 Computer-Using Agent(CUA)模型 —— 與 Operator 一樣。
而此研究預覽版(research preview)模型創下了新的 SOTA 記錄:在 OSWorld? 的全 Computer Use 任務上實現了 38.1% 的成功率,在 WebArena? 上實現 58.1% 的成功率,在 WebVoyager? 的基于 Web 的交互任務上實現 87% 的成功率。
內置的 Computer Use 工具可捕獲模型生成的鼠標和鍵盤操作,使開發者能夠通過將這些操作直接轉換為其環境中的可執行命令來自動執行 Computer Use 任務。
開發者可以使用 Computer Use 工具來自動化基于瀏覽器的工作流程,例如在 Web 應用上執行質量驗證任務或跨舊系統執行數據輸入任務。
OpenAI 表示,在去年推出支持 Operator 的 CUA 之前,他們進行了廣泛的安全測試和紅隊測試,解決了三個關鍵風險領域:誤用、模型錯誤和前沿風險。
而通過 API 中的 CUA 將 Operator 的功能擴展到本地操作系統也會引入新的風險,為此 OpenAI 進行了額外的安全評估和紅隊測試。
OpenAI 還為開發者添加了緩解措施,包括防止提示詞注入的安全檢查、敏感任務的確認提示、幫助開發者隔離其環境的工具以及增強對潛在政策違規行為的檢測。雖然這些緩解措施有助于降低風險,但該模型仍然容易受到無意錯誤的影響,尤其是在非瀏覽器環境中。
例如,CUA 在 OSWorld(旨在衡量 AI 智能體在實際任務中的表現的基準)上的表現目前為 38.1%,這表明該模型對于在操作系統上自動執行任務還不夠可靠。在這些情況下,OpenAI 建議進行人工監督。
更多詳情可訪問已更新的系統卡:https://openai.com/index/operator-system-card/
從今天開始,Computer Use 工具將作為研究預覽版在 Responses API 中提供給使用等級為 3-5 的選定開發者。
使用價格為 3 美元/100 萬輸入 token 和 12 美元/100 萬輸出 token。
Agents SDK
除了構建智能體的核心邏輯并讓它們能夠訪問有用的工具之外,開發者還需要編排智能體工作流。
OpenAI 開源發布的 Agents SDK 可簡化多智能體工作流的編排,并且相比于 Swarm? 有了顯著的改進。Swarm 是 OpenAI 去年發布的實驗性 SDK 并已被開發者社區廣泛采用,可參閱機器之心報道《OpenAI 今天 Open 了一下:開源多智能體框架 Swarm》。
- 智能體:易于配置的 LLM,具有清晰的說明和內置工具。
- 交接:在智能體之間智能地轉移控制權。
- 護欄:可配置的安全檢查,用于輸入和輸出驗證。
- 跟蹤和可觀察性:可視化智能體執行跟蹤以調試和優化性能。
智能體 SDK 適用于各種實際應用,包括客戶支持自動化、多步驟研究、內容生成、代碼審查和銷售潛在客戶挖掘。
Agents SDK 可與 Responses API 和 Chat Completions API 配合使用。只要其他提供商提供 Chat Completions 樣式的 API 端點,該 SDK 還可以與其他提供商的模型配合使用。
開發者可以立即將其集成到他們的 Python 代碼庫中,Node.js 支持也即將推出。
OpenAI 還提到未來可能會開源 Agents SDK:「在設計 Agents SDK 時,我們的團隊受到了社區中其他人的出色工作的啟發,包括 Pydantic、Griffe 和 MkDocs。我們致力于繼續將 Agents SDK 構建為開源框架,以便社區中的其他人可以擴展我們的方法。」
最后,OpenAI 稱:「我們相信智能體很快就會成為勞動力不可或缺的一部分,從而顯著提高各行業的生產力。隨著公司越來越多地尋求利用 AI 來完成復雜的任務,我們致力于為開發者和企業提供構建模塊,使他們能夠有效地創建可產生實際影響的自動系統。」
Responses API? 背后的故事
Responses API? 背后的設計者之一、OpenAI 的 Atty Eleti 還在 ?? 上分享了 Responses API? 背后的故事。
他表示,Responses API? 是他設計 OpenAI API 2 年的經驗累積的成果。
兩年前,他們與 GPT-3.5 Turbo 團隊一起推出了 Chat Completions。而這個 API 是他與 Rachel Lim 在一個周末內完成的:周五設計,周二發布 GA。如今,Chat Completions 已成為事實上的行業標準,為數十萬個應用提供支持,并被每個主要模型提供商所采用。
當年晚些時候,他們發布了 Assistants API 的 beta 版,這是構建智能體原語的初稿。其運行在后臺進行,并能根據需要調用工具。
許多開發者喜歡它,因為它易于上手(只需使用 OpenAI 作為自己的數據庫!)并且通過「file_search」工具內置了強大的 RAG。
但從那時起,很多事情都發生了變化:今天的模型是多模態的(文本、圖像、音頻)、智能體形式的(調用一個或多個工具),并且在說話前會思考。
Chat Completions 不是為此設計的;它是無狀態的(會迫使你傳回大量圖像和音頻),不支持工具,并且存在許多可用性問題(特別是,流式傳輸很難正確實現。)
Assistants 支持工具,但它太抽象了。你需要了解六個概念才能開始使用,而且后臺處理意味著它默認很慢。
這些 API 的形式成為了開發者調用底層功能的障礙。
Responses API 則將上述兩種 API 的優勢整合到了一起。
只需 4 行代碼即可開始使用,只需一個參數即可包含文件搜索、網絡搜索、函數調用和結構化輸出等功能。
Responses 具有多種狀態。
默認情況下,所有 Responses 都會被存儲,用戶可以在儀表板中查看它們,以便以后進行調試。你可以使用「previous_response_id」繼續對話 —— 無需一次又一次地發送大載荷。
Responses 也是狀態機(state-machines),可以更好地模擬不完整、中斷和失敗的模型輸出。
Responses 的核心概念是事項(item):表示用戶輸入或模型輸出的多態對象。事項可以表示消息、推理、函數調用、Web 搜索調用等。
Chat Completions 是消息來來回回的列表,而 Responses 則是事項來來回回的列表。
托管工具(Hosted tools)是 Responses 的殺手級功能。
只需一行代碼,你就可以在應用中獲得一流的網頁搜索、文件搜索以及即將推出的代碼解釋器。
至于 Responses 這個起名。Atty Eleti 指出「Responses 顯然與 HTTP Responses 沖突。」
「但我們堅信這個名字完美地平衡了優雅和描述性。我們在日常使用中都會問『模特的 Responses 是什么?』」
Eleti 表示他們還考慮過 Tasks、Generations、Messages、Interactions、Conversations 等名稱。
他也總結了 OpenAI 的 API 設計哲學:交付能力,而非抽象。(Ship capabilities, not abstractions.)
最后,順帶一提,OpenAI CEO Sam Altman 在 ?? 表示他們已經訓練出了一個擅長創意寫作的模型,不過發布時間待定。他說:「這是我第一次真正被 AI 寫的東西所震撼;它恰到好處地傳達了元小說的氛圍。」
下面是他分享的提示詞和小說,感興趣的讀者可訪問這里自行評鑒:https://x.com/sama/status/1899535387435086115
你對 OpenAI 今天的發布怎么看?