OpenAI首個智能體Operator大測評，你也能擁有24小時私人管家！

作者：新智元 2025-01-24 15:09:43

人工智能新聞

今天發布的Operator無疑是AI圈最大的亮點，本文為大家帶來了關于Operator的全面評測。這款AI智能體能夠自動處理一系列任務，像是演唱會購票、家政服務預訂、AI新聞查找等。

演唱會搶票終于不用自己蹲守了，公司訂餐也可以直接「無腦托管」，這就是OpenAI今天發布的Operator。

顧名思義，Operator就是能幫你端到端處理任務的AI智能體。

比較有趣的是，OpenAI針對Operator新開了一個網頁operator.chatgpt.com，而不是像之前發布的功能都直接統一內置在ChatGPT中。

Operator的頁面與ChatGPT大致相似，只是輸入框的提示詞從「我能幫您什么嗎？」變為了「我能幫您做什么嗎？」

顯然Operator多了個「做」字，而就是這一字之差，便已揭示了兩者的本質性區別。

Operator深度測評

這里展示了一些Operator在OpenAI的合作伙伴網站上能為您執行的推薦任務。比如，不用半小時就能用雞肉做好的晚餐食譜。

當前，Operator的功能還比較有限，但我們相信它會快速優化。不妨想想，你每天在電腦上做的那些重復任務，說不定一年之后，大部分都不用你親自動手了。

先來看看Operator能做哪些事情，并且到底做得怎么樣吧！

購票

提示：幫我找兩張Jamie XX在洛杉磯舉行的下一場演出的門票。

結果：

- 調用指定合作伙伴Stubhub，成功獲取相關門票。

- 未選定合作伙伴時，因無法瀏覽被阻止的網站，未成功。

提示：找出Jamie xx的演出安排以及每場演出的門票價格。

結果：

- 調用指定合作伙伴Stubhub，失敗。過程中出現虛假信息，在多次提示后，最終取得成功。

AI新聞

提示：AI領域的最新消息是什么？

結果：

- 調用指定合作伙伴Axios，表現尚可，返回了一篇簡短的新聞摘要。

預訂Uber

提示：現在從這里到機場的UberX多少錢？

結果：

- 使用指定合作伙伴Uber，操作成功。

- Operator提出合理的問題，詢問「請提供接客地點，以便我為您查找從接客地點到機場的UberX費用。」以及「請指定您的目的地機場。」

- 登錄后，Operator給出答案：「從南加州大學到洛杉磯國際機場的UberX當前票價為43.47美元。您是否希望預訂此行程？」

房屋清潔

提示：我需要一名家政清潔員明天來我家做一次性清潔。

結果：

- 調用指定合作伙伴Thumbtack，失敗。

- 未詢問我的具體位置，就推薦了一名位于弗吉尼亞的清潔員，可能是因為瀏覽器所在的數據中心位于該地。

Spotify Wrapped

提示：我想了解Spotify Wrapped成功的原因。（Spotify Wrapped是音樂流媒體平臺Spotify推出的年度回顧功能。）

結果：

- 采用簡單提示時，失敗。系統卡在循環中，表現不佳，且研究資料有限。

- 采用復雜提示時，結果尚可。需要多次提示，報告質量不高。在提供了如何進行高級搜索的提示后完成了任務。期間3次請求獲取2024年的信息均被拒絕。

看完上述演示，也自然引發了一個問題：

「我們能夠隨時介入Operator的操作并做出符合自己偏好的更改嗎？」

答案是：完全可以！

事實上，在任何時候，你都可以控制其遠程瀏覽器并引導操作，比如輸入用戶名和密碼。并且如果你給出自己要求后，它還會保存重要的賬戶信息，這樣，只要你登錄一次，它就能在你的賬戶內自行操作，而無需再次打擾你。

最后，Operator將在結賬頁面停止繼續操作，返回支付請求后，再獲取您的付款詳情：

目前Operator支持自動完成通常需要15-20分鐘內的網絡任務。

值得一提的是，Operator還擁有能夠極大提高用戶體驗的「保存和共享功能」。也就是說，一旦完成任務，Operator就可以輕松保存工作流程。比如持續用最新的銷售數據來更新相應的報表。它甚至提供了一個流暢的會話記錄視頻，支持用戶觀看并與其他人分享。

換句話說，Operator就像是一個可以不斷和你磨合，且可以持續進步，還能24小時不停按照既定流程為你工作的私人管家一樣。

但是，由于Operator才剛剛發布，所以還是有一定的缺陷。

Operator的缺陷

正如道德經所說，「有無相生，難易相成」。Operator自身的缺陷亦是源于它的優勢本身。

它的獨特之處在于不用使用用戶本地的瀏覽器執行操作，而是OpenAI數據中心之一的一個瀏覽器，用戶可以遠程觀看并與之互動。這種設計的優點是你可以在任何地方、任何時候使用它——例如，在任意移動設備上。

但缺點是許多像Reddit這樣的網站已經阻止AI智能體瀏覽，因此它們無法被Operator訪問。并且Operator也因性能或法律原因被OpenAI阻止訪問某些資源密集型網站，如Figma或YouTube。

簡單來講，目前的Operator就像是被隔離在玻璃門外的人一樣，對于許多東西都是「看得見卻摸不著」。

像是一個外包乙方，而不是研究助理

目前的Operator實際上更像是一個能夠完成你給外包出去業務的乙方，而不是一個足夠聰明的個人研究助理。

例如，可以讓Operator閱讀《戰爭與和平》的第一章，并總結每個角色的所有細節以及他們所展現的人類心理和行為。然后，Operator在Project Gutenberg網站上找到了《戰爭與和平》并閱讀了第一章，做得非常出色。

但是其摘要卻枯燥乏味且粗糙寬泛：

在上述摘要中，它做出了正確的觀察：「角色意識到他們的社會地位，有些人，比如安娜?帕夫洛夫娜，小心翼翼地互動以保持禮儀」。但是這個摘要也有一種SparkNotes的味道，也就是不夠詳細，還無法真正理解故事情節。

如果提供相同的信息，OpenAI的o1在這項任務上會做得更好——但是o1還沒有自主執行任務的能力。也就是說，OpenAI專注于讓Operator非常適合自動執行重復性工作流程，而不太關注其智能水平。

它確實自主，但提示很重要

關于 Operator，最令人印象深刻的一點是，它只需極少的提示就能獨自完成冗長的任務。例如，我們讓它執行一項耗時20多分鐘的任務：我們請它幫我們了解Spotify年度總結（Spotify Wrapped）功能這些年是如何演變的。

「它最初是什么樣的？」

「現在又新增了哪些內容？」

它時不時需要一些提示才能繼續推進任務，但最終也成功實現了任務目標。

不可置否的是，與12個月甚至6個月前的智能體相比，這是一個重大進步，畢竟那時的智能體往往在短短幾秒鐘后就會偏離正軌。

話雖如此，用戶對Operator的提示方式仍然很關鍵。如果你向它提供更多關于如何完成任務的細節，它成功完成你交給它的任務的幾率就會更高。

例如，在我們關于Spotify年度總結的例子中，我們要求它收集并總結不同年份的搜索結果數據。它一開始失敗了，因為它不知道如何按年份篩選搜索數據。但當我們告訴它使用谷歌的高級搜索工具（該工具提供逐年篩選搜索功能）時，它就成功完成了任務。

OpenAI：一切以消費者為中心

當前，Operator僅是一個研究預覽，而非成熟產品。但這個預覽版意義重大，要知道就連ChatGPT最初也是以研究預覽的形式問世的。

OpenAI正重拾曾經大獲成功的策略：即使產品還有很多不完善的地方，也要盡早發布，并持續頻繁迭代。

因此OpenAI不僅推出API，還發布了面向消費者的產品。

這一舉措與競爭對手Anthropic的做法有所不同。Anthropic雖然也有一款自主智能體Claude Computer use，但其僅以API的形式發布，因此應用范圍相當有限。

OpenAI從ChatGPT中學到一點，AI的發布形式對其推廣的影響，絲毫不亞于底層技術。

因此，他們將首款自主智能體產品，以面向消費者的方式發布，即使這個產品還存在不少缺陷。

總的來說，盡管Operator目前功能有限，但可以預計它會迅速改進。對于廣大用戶來講，現在是時候梳理一下你每天在電腦上做的重復性任務了，也許一年后你就無需再做其中的大部分工作。

責任編輯：張燕妮來源：新智元

AI 測評模型

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看