干翻全場!OpenAI深夜發(fā)布通用Agent 原創(chuàng) 精華
嘿,大家好!這里是一個專注于前沿AI和智能體的頻道~
家人們,昨晚 OpenAI 直播,不聲不響地甩出了一個重磅產(chǎn)品:ChatGPT Agent 正式發(fā)布!
一個全新產(chǎn)品,把之前的 Operator(網(wǎng)頁操作)和 Deep Research(深度研究)能力真正合體,塞進了一個統(tǒng)一的系統(tǒng)里。讓 ChatGPT 有一個可以自己操作的虛擬電腦,從頭到尾地干完一件復(fù)雜的活兒。
今天給家人深度分析一下這個新產(chǎn)品的功能與特性,以及對市場上同類型產(chǎn)品的影響。
通用智能體?
首先要搞清楚,這次的 Agent 不是一個新產(chǎn)品,而是 ChatGPT 的一次能力糅合。它把三種看家本領(lǐng)融為一體:
- 能力一: operator - 像人一樣點擊、滾動、輸入,直接與網(wǎng)頁的圖形界面(GUI)互動。
- 能力二: Deep Research - 強大的信息分析、推理和總結(jié)能力。
- 能力三: 4o - 流暢的自然語言交互能力。
這三者結(jié)合,讓 ChatGPT Agent 可以在一個專屬的虛擬環(huán)境中,根據(jù)你的指令,自主規(guī)劃、調(diào)用工具、執(zhí)行任務(wù)。比如,你可以直接甩給它一句:“分析三個競爭對手,做個PPT出來”。它會自己去上網(wǎng)搜集資料、分析數(shù)據(jù)、總結(jié)要點,最后交付一個你可以直接編輯的PPT文件。
整個過程,你都能在屏幕上看到它的“思維鏈”和操作步驟,就像在看一個超級助理幫你干活。
5個核心亮點
簡單總結(jié)了一下,新產(chǎn)品的5個亮點功能,當然可能別的通用智能體也有。
端到端任務(wù)執(zhí)行
可以理解用戶的模糊需求,上網(wǎng)篩選信息,再到登錄網(wǎng)站、填寫表單、下載文件,最后生成報告,可以一氣呵成。
官方演示了一個例子,讓它預(yù)訂一個“羅馬評分最高的一日游”。它會自己打開 TripAdvisor,篩選、比較,然后把最暢銷的那個找出來,整個過程挺流暢。
人機協(xié)作
在執(zhí)行任何關(guān)鍵或不可逆操作(比如下單付款、提交表單)之前。 都會請求用戶確認。
你隨時可以暫停任務(wù),也可以直接“接管”它的瀏覽器自己操作,整個過程控制權(quán)都在你手里。
可編輯、可復(fù)用的專業(yè)級輸出
生成的結(jié)果是可以原生編輯的 PPT 和 Excel 文件。
這意味著它幫你做的競品分析PPT,你可以直接打開修改圖表和文字。在 ??SpreadsheetBench?
? (表格處理) 測試中,它的準確率達到了45.5%,是 Excel Copilot 的兩倍還多!
性能數(shù)據(jù)
不看廣告看療效。官方博客公布了一系列性能數(shù)據(jù),基本都是“屠榜”級別的。
HLE 得分 41.6%,再次刷新 SOTA。
在構(gòu)建財務(wù)模型的復(fù)雜任務(wù)上,準確率達到 71.3%,顯著優(yōu)于之前的 o3 和 Deep Research。
在網(wǎng)上尋找刁鉆信息的任務(wù)中,創(chuàng)下了 68.9% 的新紀錄。
總的來說,就是新產(chǎn)品的能力在多個專業(yè)領(lǐng)域都已經(jīng)達到了非常高的水準。
可定時執(zhí)行
結(jié)合了之前的任務(wù)能力,新產(chǎn)品用戶同樣可以安排一個已經(jīng)完成的任務(wù),讓它自動重復(fù)執(zhí)行。
比如,你可以讓它“每天早上,幫我生成一份關(guān)于xxx的動態(tài)報告”。
它會干掉Manus們嗎?
ChatGPT Agent 如此強大,那是不是意味著 Manus、Genspark 這類創(chuàng)業(yè)公司的末日到了?
manus還發(fā)了一個帖子,用了一些樣例對比他們的結(jié)果和chatgpt agent的結(jié)果~
當前有2個現(xiàn)實問題。
目前價格昂貴
強大功能背后是高昂的成本。根據(jù)目前公布的信息,這玩意兒可不便宜:
- Pro 用戶:每月 400 條 Agent 消息額度。
- Plus 和 Team 用戶:每月僅 40 個額度。
用完就得花錢買。對于需要長時間、高強度執(zhí)行任務(wù)的專業(yè)用戶來說,這個成本可能會非常高。相比之下,目前來自一些創(chuàng)業(yè)公司的智能體產(chǎn)品的定價可能會便宜一些。(盡管 manus 的定價也被吐槽~)。
安全問題
官方提及,當一個 AI 能自己上網(wǎng)、登錄你的賬戶、操作你的數(shù)據(jù)時,安全問題就變得非常重要。
比如說,一個惡意網(wǎng)站在看不見的地方藏了一段prompt hack,誘騙你的 Agent 把你的個人信息發(fā)給攻擊者。
因為 Agent 擁有了實際操作權(quán),這種攻擊的危害比以往任何時候都大。盡管 OpenAI 做了很多防護(比如高風險操作需確認、Watch Mode 監(jiān)視模式等),但問題仍然存在。
最后
對于那些致力于通用型 Agent 的創(chuàng)業(yè)公司來說,這無疑是一次降維打擊。當平臺方親自下場,并拿出在性能、集成度上都遙遙領(lǐng)先的產(chǎn)品時,留給其他玩家的空間就被極大地壓縮了。
未來的機會,或許更多地在于那些更垂直、更深入特定行業(yè)場景的專用 Agent,或者是在開源生態(tài)中提供差異化價值的框架和工具。
本文轉(zhuǎn)載自??探索AGI??,作者:獼猴桃
