OpenAI深夜發(fā)布ChatGPT Agent：能主動(dòng)思考、自選工具，智能體賽道大變天

2025-07-18 10:46:11

ChatGPT Agent具備自主思考和行動(dòng)的能力，能夠主動(dòng)從其技能庫(kù)中選擇合適的工具，包括Operator、 Deep Research和ChatGPT來(lái)完成各種超復(fù)雜任務(wù)。

今天凌晨1點(diǎn)，OpenAI進(jìn)行了技術(shù)直播發(fā)布了重磅產(chǎn)品ChatGPT Agent。

例如，用戶可以要求 ChatGPT Agent分析三個(gè)競(jìng)爭(zhēng)對(duì)手并制作幻燈片演示文稿等請(qǐng)求。ChatGPT會(huì)智能地瀏覽網(wǎng)站、選擇日期、篩選結(jié)果、運(yùn)行代碼，甚至自動(dòng)生成經(jīng)過(guò)潤(rùn)色的幻燈片演示文稿或電子表格。

也就是說(shuō)你只需要一個(gè)提示，ChatGPT Agent就會(huì)幫你完成所有工作等待結(jié)果就好。

完整技術(shù)直播

OpenAI首席執(zhí)行官Sam Altman還非常罕見地發(fā)表了一篇長(zhǎng)文來(lái)說(shuō)明ChatGPT Agent：

今天我們推出了一款名為 ChatGPT Agent 的新產(chǎn)品。

Agent代表著 AI 系統(tǒng)能力的新高度，可以借助自身的計(jì)算機(jī)為你完成一些出色的復(fù)雜任務(wù)。它融合了Deep Research和 Operator 的核心優(yōu)勢(shì)，但實(shí)際功能比聽起來(lái)更強(qiáng)大，它能進(jìn)行長(zhǎng)時(shí)間思考、使用多種工具、進(jìn)一步思考、采取行動(dòng)，之后再深入思考，如此循環(huán)。

例如，在發(fā)布會(huì)上，我們展示了一個(gè)為朋友婚禮做準(zhǔn)備的演示：購(gòu)買服裝、預(yù)訂行程、挑選禮物等。我們還展示了一個(gè)工作場(chǎng)景的案例：分析數(shù)據(jù)并制作演示文稿。

盡管它的實(shí)用性很強(qiáng)，但潛在風(fēng)險(xiǎn)也不容忽視。

我們?cè)谄渲袃?nèi)置了大量安全保障和警示機(jī)制，并且部署了比以往任何時(shí)候都更全面的風(fēng)險(xiǎn)緩解措施，從強(qiáng)化訓(xùn)練、系統(tǒng)防護(hù)到用戶控制等方方面面都有覆蓋，但我們無(wú)法預(yù)判所有情況。本著迭代部署的原則，我們會(huì)向用戶發(fā)出重點(diǎn)警示，同時(shí)給予用戶自主選擇的空間，讓他們可以謹(jǐn)慎地使用各項(xiàng)功能。

如果要向我的家人解釋這款產(chǎn)品，我會(huì)說(shuō)它處于技術(shù)前沿，尚在試驗(yàn)階段；是一個(gè)體驗(yàn)未來(lái)的機(jī)會(huì)，但在我們通過(guò)實(shí)際應(yīng)用研究并改進(jìn)它之前，不建議用它處理高風(fēng)險(xiǎn)事務(wù)或涉及大量個(gè)人信息的場(chǎng)景。

我們并不確切知道它會(huì)產(chǎn)生哪些影響，但不良分子可能會(huì)試圖 “欺騙” 用戶的 AI 代理，讓它們泄露不應(yīng)泄露的隱私信息，或執(zhí)行不應(yīng)執(zhí)行的操作，而這些手段是我們無(wú)法預(yù)知的。我們建議，為了降低隱私和安全風(fēng)險(xiǎn)，僅向代理提供完成任務(wù)所需的最低權(quán)限。

比如，我可以讓 Agent 訪問(wèn)我的日歷，以便為團(tuán)體晚餐找到合適的時(shí)間。但如果只是讓它幫我買些衣服，就不需要授予任何額外權(quán)限。

像查看我昨晚收到的郵件，并自主處理所有需要處理的內(nèi)容，無(wú)需進(jìn)一步詢問(wèn)這類任務(wù)，風(fēng)險(xiǎn)會(huì)更高。這可能導(dǎo)致惡意郵件中的不可信內(nèi)容欺騙模型，造成你的數(shù)據(jù)泄露。

我們認(rèn)為，從實(shí)際應(yīng)用中學(xué)習(xí)至關(guān)重要，同時(shí)人們也應(yīng)在我們更好地量化和緩解潛在風(fēng)險(xiǎn)的過(guò)程中，謹(jǐn)慎、逐步地采用這些工具。與其他新的能力層級(jí)一樣，社會(huì)、技術(shù)以及風(fēng)險(xiǎn)緩解策略需要協(xié)同發(fā)展。

技術(shù)架構(gòu)方面，ChatGPT Agent通過(guò)其虛擬計(jì)算機(jī)處理任務(wù)，能夠流暢地在推理與執(zhí)行之間切換。在面對(duì)復(fù)雜任務(wù)時(shí)，不僅能夠進(jìn)行邏輯推理，還能夠?qū)嶋H執(zhí)行任務(wù)，從而獨(dú)立完成復(fù)雜的多步驟任務(wù)。

例如，當(dāng)用戶要求 ChatGPT Agent“查看我的日歷，并根據(jù)最新動(dòng)態(tài)簡(jiǎn)要匯報(bào)即將舉行的客戶會(huì)議”時(shí)，能夠理解任務(wù)需求，主動(dòng)從日歷應(yīng)用中獲取信息，并整理出簡(jiǎn)潔的匯報(bào)內(nèi)容。

ChatGPT Agent另一個(gè)重要功能模塊是其多工具集成能力，將 Operator 的網(wǎng)站交互能力、Deep Research的信息整合能力以及 ChatGPT的深度對(duì)話能力融合在一起，形成統(tǒng)一的智能體系統(tǒng)。

Operator的能力使得 ChatGPT 智能體能夠在網(wǎng)頁(yè)上滾動(dòng)、點(diǎn)擊和輸入文本，從而與網(wǎng)站進(jìn)行直接互動(dòng)；而Deep Research則擅長(zhǎng)分析和總結(jié)信息，能夠幫助 ChatGPT 智能體處理復(fù)雜的多步驟任務(wù)。

此外，ChatGPT Agent還配備了多種網(wǎng)絡(luò)工具，包括可視化瀏覽器、文本瀏覽器和直接API 訪問(wèn)權(quán)限。這些工具為 ChatGPT 智能體提供了不同的網(wǎng)絡(luò)信息訪問(wèn)與交互途徑，使其能夠選擇最優(yōu)路徑以最高效地完成任務(wù)。

例如，可以通過(guò) API 快速獲取財(cái)務(wù)數(shù)據(jù)或體育賽事比分，同時(shí)也能與主要面向人類設(shè)計(jì)的網(wǎng)頁(yè)進(jìn)行視覺交互。所有這些操作均通過(guò) ChatGPT 自身的計(jì)算環(huán)境完成，無(wú)論采用何種工具組合，任務(wù)全程的相關(guān)背景信息均會(huì)共享。

在執(zhí)行任務(wù)時(shí)，ChatGPT 智能體能夠動(dòng)態(tài)學(xué)習(xí)并優(yōu)化其工作方式。通過(guò)強(qiáng)化學(xué)習(xí)，模型在執(zhí)行任務(wù)時(shí)會(huì)根據(jù)結(jié)果調(diào)整其策略，從而不斷改進(jìn)其性能。這種動(dòng)態(tài)學(xué)習(xí)能力使得 ChatGPT 智能體能夠根據(jù)不同的任務(wù)需求靈活調(diào)整其行動(dòng)策略，提高任務(wù)完成的速度和準(zhǔn)確性。

ChatGPT Agent還專為迭代式、協(xié)作式工作流程設(shè)計(jì)，顯著提升了其交互性和靈活性。在任務(wù)執(zhí)行過(guò)程中，用戶可以隨時(shí)中斷對(duì)話以澄清指令、重新定位任務(wù)方向，或引導(dǎo)其朝向預(yù)期結(jié)果。ChatGPT 智能體會(huì)從中斷處繼續(xù)，同時(shí)整合新信息，但不會(huì)丟失先前進(jìn)展。使得用戶能夠在任務(wù)執(zhí)行過(guò)程中隨時(shí)調(diào)整任務(wù)方向，確保任務(wù)結(jié)果符合用戶的預(yù)期。

在安全性方面，ChatGPT 智能體的設(shè)計(jì)也充分考慮了用戶的安全需求。在執(zhí)行涉及敏感或重要操作前，ChatGPT會(huì)明確征得用戶的授權(quán)，確保用戶始終掌握控制權(quán)。此外，ChatGPT 智能體還具備主動(dòng)監(jiān)督和風(fēng)險(xiǎn)緩解功能，能夠主動(dòng)拒絕高風(fēng)險(xiǎn)任務(wù)，例如，金融交易或敏感法律互動(dòng)。

根據(jù)OpenAI公布的測(cè)試數(shù)據(jù)顯示，ChatGPT Agent 在多項(xiàng)測(cè)試中表現(xiàn)優(yōu)異。在 “人類終極考試” 中，單次嘗試通過(guò)率達(dá)41.6的新SOTA成績(jī)，采用并行策略時(shí)分?jǐn)?shù)提升至44.4；在“前沿?cái)?shù)學(xué)”基準(zhǔn)中，準(zhǔn)確率達(dá)27.4%，大幅超越以往模型。

在模擬復(fù)雜現(xiàn)實(shí)世界任務(wù)的內(nèi)部基準(zhǔn)測(cè)試中，針對(duì)復(fù)雜且具經(jīng)濟(jì)價(jià)值的知識(shí)型工作任務(wù)，其輸出在約一半案例中與人類相當(dāng)或更好，顯著優(yōu)于o3和o4-mini，涵蓋多種現(xiàn)實(shí)專業(yè)工作。

在DSBench 中表現(xiàn)顯著超越人類；在SpreadsheetBench 中大幅優(yōu)于現(xiàn)有模型，被賦予直接編輯電子表格能力時(shí)得分達(dá) 45.5%，遠(yuǎn)超 Excel 中Copilot 的 20.0%。

在衡量投資銀行分析師建模任務(wù)能力的內(nèi)部基準(zhǔn)中，顯著優(yōu)于深度研究和 o3，涉及多種建模任務(wù)，均按數(shù)百項(xiàng)標(biāo)準(zhǔn)評(píng)分。

在BrowseComp基準(zhǔn)中以68.9% 的成績(jī)創(chuàng)SOTA，比深度研究高17.4 %；在WebArena中表現(xiàn)優(yōu)于由o3驅(qū)動(dòng)的CUA。

有網(wǎng)友表示，ChatGPT Agent更像是Manus 2.0。Manus剛推出時(shí)概念確實(shí)很有意思，但它太不穩(wěn)定了，根本沒法好好用。

很期待體驗(yàn) ChatGPT Agent，看看它是否能配得上這些熱度，這算是向 AGI又邁進(jìn)了一步嗎？

這真的太令人興奮了，已經(jīng)迫不及待想嘗試了。而且我完全認(rèn)同這種做法：“強(qiáng)大的智能體可能擁有超強(qiáng)能力，但同時(shí)也伴隨著巨大風(fēng)險(xiǎn)。風(fēng)險(xiǎn)不僅來(lái)自惡意攻擊者，還包括幻覺問(wèn)題。讓我們一起探索，去理解其中的深層影響吧。

團(tuán)隊(duì)這次更新太棒了，對(duì)此我非常期待。盼著能用起來(lái)，也期待著它會(huì)隨著時(shí)間推移變得更強(qiáng)大。

我很欣賞你們把它交到我們手中的做法，沒有等到那個(gè)遙不可及的零風(fēng)險(xiǎn)高標(biāo)準(zhǔn)才發(fā)布。在我看來(lái)，帶著提醒和注意事項(xiàng)去信任用戶，這做法非常好。

這太不可思議了！看著人工智能真的能瀏覽網(wǎng)站、完成實(shí)際任務(wù)，感覺就像科幻小說(shuō)照進(jìn)了現(xiàn)實(shí)。我已經(jīng)在琢磨，這能如何為內(nèi)容創(chuàng)作者和小企業(yè)簡(jiǎn)化工作流程了。生產(chǎn)力革命，從現(xiàn)在開始！