又一華人面孔!OpenAI 深夜祭Agent大招！背后研究人員曝光！奧特曼：感受AGI！VibePPT將至，Manus曬對比測評

2025-07-18 14:43:13

7 月對于 OpenAI 而言意義非凡，從去年盛傳 GPT-5 將會發布，再到近日的被挖角風波，再到 OpenAI 即將推出 AI 瀏覽器，各種傳言全都醞釀在今天凌晨的直播里。

編輯 | 云昭

出品 | 51CTO技術棧（微信號：blog51cto）

又是一個不眠夜！

發布前，小編的預期是，肯定是 Agentic 辦公類的產品。因為在前兩個月的博客中，Sam Altman 不止一次提及，現在是 Vibe Coding，下一個則看好類似 Google Docs 的辦公 Agent 產品。

這次，Sam 在官宣發布推文后，給出的第一條推文總結了他的感受：

“feel the AGI” moment。

“觀看 ChatGPT Agent 使用計算機思考、計劃和執行復雜任務對我來說是一個真正的‘感受 AGI’時刻。”

果然，小編只猜中了一半。猜對的是果真是面向日常辦公工作的產品，主打一個一句提示搞定 Excel 和 PPT。

正如那位 OpenAI 的研究員所發的推文：

在對各種實際工作任務（可能需要> 10 小時的專家任務）進行測試時，我們發現其輸出幾乎在 50% 的時間內都達到了人類質量。

沒猜到的是，Altman 坦承了想法：很簡單，我們就是融二為一了。

省流版的解釋，這個 Agent 就是兼有下面兩種功能，研究和動手兩不誤——

這次直播中，Sam Altman 表示，ChatGPT Agent 的想法是在 OpenAI 推出其其他代理 Operator 和 Deep Research 之后產生的。Operator 使用自己的瀏覽器執行任務，而 Deep Research 可以在互聯網上進行多步驟調查。

“我們很清楚，人們真正想要的是將這些功能整合在一起……人們想要一個統一的代理，它可以獨立運行，使用自己的電腦，并為他們執行真正復雜的任務。”

OpenAI 表示，這款新工具可以“使用它自己的電腦”來處理復雜任務。

不過，在人類看來，這里的復雜任務，算不上多復雜。無疑就是我們日常辦公的那些事兒了：讀/發郵件、做PPT、編輯 Excel、網上購物等等。

但如果說這次給的演示有什么特別的話，就是場景更加貼近實際生活工作了：

ChatGPT 代理可以充當虛擬助手，連接到 Gmail 和 Google 日歷等應用程序，執行起草電子郵件和安排預約等任務。它使用自己的虛擬計算機完成任務，并自行在推理和行動之間切換以執行指令。
OpenAI 表示，新工具可以“分析三個競爭對手并制作幻燈片”——代理將制定行動方案、瀏覽網站并創建可編輯的幻燈片。
它還可以通過“根據舊金山年度綜合財務報告 (ACFR) 制作電子表格”之類的提示來創建可編輯的 Excel 電子表格。
該代理還可以為用戶在線購物，但在執行敏感操作（例如輸入個人信息或進行購買）之前，它始終會征求批準。

這些任務的完成并非通過傳統編程接口調用，而是由 ChatGPT 自己在一個虛擬計算機環境中完成，這個環境配備了多種工具，能在網頁上模擬真實用戶的操作。

用戶還可以授權連接自己的 Gmail、GitHub 等服務，讓 ChatGPT 在任務中調用其中的信息。

這里小編為大家扒了看下兩個案例：PPT 和 Excel。

至于原理，OpenAI 介紹道，Agent 模式可以調用三種工具：文本瀏覽器、可視化瀏覽器和終端。模型可以自主選擇切換各種工具。

具體來說，文本瀏覽器用于廣泛地讀取和檢索文字信息；可視化瀏覽器則在確定目標信息后，模擬鼠標和鍵盤操作，甚至可以處理圖像內容；而終端則具備執行代碼的能力，能夠生成如 PPT、Excel 等各類文檔，同時還可以調用云端 API 完成更復雜的任務，比如投行建模這些燒腦的事情。

總之，ChatGPT Agent 會動態選擇最佳執行路徑：它可以篩選結果、運行代碼，甚至生成幻燈片和電子表格——同時在多步驟任務中保持完整上下文。

這里小編還要強調三個不同的地方：

大家都知道，目前大模型不是萬能的，但大模型調用工具的能力可以說是“愛無限”。在演示中，Agent 可以連接 Google Drive API，讀取文件之后生成更精準的 PPT 或郵件、表格；也可以調用 Image 生成器/生成模型，來實現文本到多模態的跨越（想起了騰訊元寶讓DeepSeek畫圖的消息~）
對于涉及到隱私風險的操作，通知并得到用戶的交互許可，依舊是主流。
Agent 的安全風險問題依舊嚴峻。OpenAI 隨后在官方推文中表示，ChatGPT 具備新能力的同時，也引入了新的風險。目前，OpenAI 已針對多個風險類別實施了廣泛的安全防護措施。

尤其是針對 對抗性提示注入（prompt injection）攻擊采取了特別的防護機制，以防止模型被惡意操控。（似乎是在暗懟最近Claude和Grok的安全問題。）