OpenAI放大招!核心API支持MCP,一夜改變智能體開發(fā)
今天凌晨,OpenAI全資收購io的消息占據(jù)了大部分頭條。同時OpenAI也“悄悄地”放出了另外一個重磅消息,用于開發(fā)智能體的核心API——Responses API支持MCP服務(wù)。
傳統(tǒng)方法,我們在開發(fā)智能體需要通過函數(shù)調(diào)用與外部服務(wù)交互,每次操作都涉及從大模型到后端再到外部服務(wù)的網(wǎng)絡(luò)傳輸,導(dǎo)致多次跳轉(zhuǎn)、延遲會很高,并增加擴展和管理的復(fù)雜性。
現(xiàn)在Responses API支持了MCP,開發(fā)者無需為每個函數(shù)調(diào)用手動連接特定服務(wù),而是可以將模型配置為指向一個或多個MCP服務(wù)。
Responses API支持MCP
自O(shè)penAI發(fā)布Responses API以來,已有數(shù)十萬開發(fā)人員通過該API處理了數(shù)萬億token數(shù)據(jù),并開發(fā)了各種各樣的智能體應(yīng)用,包括Zencoder的編碼智能體、Revi 用于私募股權(quán)和投資銀行的市場智能體,以及 MagicSchool AI的教育智能體。
為了進(jìn)一步簡化智能體開發(fā),Responses API支持了MCP服務(wù),開發(fā)人員只需幾行代碼即可將智能體連接到強大的外部工具和服務(wù)。
例如,只需要9行代碼,就能將你的智能體鏈接到電商平臺Shopify。
在過去,我們需要編寫自定義cart_add或create_payment_link包裝器并托管自己的中繼服務(wù)器。現(xiàn)在全部簡化了,一個指向輕松搞定。
只用了13行代碼將智能體連接到云通信平臺Twilio。而之前,需要在你的后端中整合兩個工具調(diào)用,并自行批處理最終的短信負(fù)載。
支持MCP后,還有一個好處就是可以集中管理工具,使得智能體能夠高效地調(diào)用外部服務(wù)。我們可以使用allowed_tools 參數(shù)精確控制智能體能夠訪問的工具,從而避免不必要的工具調(diào)用、上下文膨脹以及縮短響應(yīng)時間。
例如,在處理用戶查詢時,智能體可以根據(jù)預(yù)設(shè)的規(guī)則選擇最合適的工具進(jìn)行調(diào)用,而不是盲目地嘗試所有可能的工具。
在使用MCP時,還可以通過精確的權(quán)限控制確保智能體的安全性。例如,可以限制智能體只能調(diào)用某些特定的工具,或者在調(diào)用工具時需要顯式批準(zhǔn)。這種權(quán)限控制機制不僅防止了智能體濫用工具,還保護(hù)了外部服務(wù)的安全性。
通過在每次調(diào)用中傳遞授權(quán)密鑰和服務(wù)器 URL,MCP確保了身份驗證和授權(quán)的安全性,同時避免了敏感信息在響應(yīng)對象中的泄露。
此外,MCP支持動態(tài)工具列表的導(dǎo)入和緩存機制。當(dāng)智能體首次連接到一個MCP服務(wù)器時,會從服務(wù)器導(dǎo)入工具列表,并將其緩存到模型上下文中。在后續(xù)的調(diào)用中,智能體可以直接使用緩存的工具列表,而無需再次從服務(wù)器獲取,從而減少了延遲并提高了響應(yīng)速度。
Responses API其他新增功能
除了支持MCP外,OpenAI 還對Responses API 中的圖像生成、Code Interpreter 和文件搜索工具進(jìn)行了重大更新,進(jìn)一步增強了智能體的功能。
圖像生成:開發(fā)者現(xiàn)在可以在Responses API 中直接訪問 OpenAI 的最新圖像生成模型(如 <gpt-image-1>),并將其作為工具使用。該工具支持實時流傳輸,允許開發(fā)者在圖像生成過程中查看預(yù)覽,并支持多輪編輯,使開發(fā)者能夠逐步精細(xì)調(diào)整圖像。
Code Interpreter:Code Interpreter 工具現(xiàn)在可以在 Responses API 中使用,支持?jǐn)?shù)據(jù)分析、解決復(fù)雜的數(shù)學(xué)和編碼問題,甚至幫助模型深入理解和操作圖像。例如,在處理數(shù)學(xué)問題時,模型可以利用 Code Interpreter 運行代碼來得出答案,從而顯著提升性能。
文件搜索:文件搜索工具得到了增強,允許開發(fā)者根據(jù)用戶查詢將文檔中的相關(guān)內(nèi)容塊提取到模型的上下文中。此外,該工具還支持跨多個向量存儲執(zhí)行搜索,并允許使用數(shù)組進(jìn)行屬性過濾。
同時OpenAI也在Responses API引入了全新的功能。
后臺模式:對于需要較長時間處理的任務(wù),開發(fā)者可以使用后臺模式異步啟動這些任務(wù),而無需擔(dān)心超時或其他連接問題。開發(fā)者可以通過輪詢這些任務(wù)來檢查是否完成,或者在需要時開始流式傳輸事件。
推理摘要:Responses API 現(xiàn)在可以生成模型內(nèi)部思維鏈的簡潔自然語言摘要。這使得開發(fā)者更容易調(diào)試、審計和構(gòu)建更好的最終用戶體驗。
加密推理項:符合零數(shù)據(jù)保留(ZDR)條件的客戶可以在 API 請求之間重復(fù)使用推理項,而無需將任何推理項存儲在 OpenAI 的服務(wù)器上。這不僅提高了智能性,還減少了標(biāo)記使用量,降低了成本和延遲。