OpenAI首個智能體Operator大測評,你也能擁有24小時私人管家!
演唱會搶票終于不用自己蹲守了,公司訂餐也可以直接「無腦托管」,這就是OpenAI今天發布的Operator。
顧名思義,Operator就是能幫你端到端處理任務的AI智能體。
比較有趣的是,OpenAI針對Operator新開了一個網頁operator.chatgpt.com,而不是像之前發布的功能都直接統一內置在ChatGPT中。
Operator的頁面與ChatGPT大致相似,只是輸入框的提示詞從「我能幫您什么嗎?」變為了「我能幫您做什么嗎?」
顯然Operator多了個「做」字,而就是這一字之差,便已揭示了兩者的本質性區別。
Operator深度測評
這里展示了一些Operator在OpenAI的合作伙伴網站上能為您執行的推薦任務。比如,不用半小時就能用雞肉做好的晚餐食譜。
當前,Operator的功能還比較有限,但我們相信它會快速優化。不妨想想,你每天在電腦上做的那些重復任務,說不定一年之后,大部分都不用你親自動手了。
先來看看Operator能做哪些事情,并且到底做得怎么樣吧!
購票
提示:幫我找兩張Jamie XX在洛杉磯舉行的下一場演出的門票。
結果:
- 調用指定合作伙伴Stubhub,成功獲取相關門票。
- 未選定合作伙伴時,因無法瀏覽被阻止的網站,未成功。
提示:找出Jamie xx的演出安排以及每場演出的門票價格。
結果:
- 調用指定合作伙伴Stubhub,失敗。過程中出現虛假信息,在多次提示后,最終取得成功。
AI新聞
提示:AI領域的最新消息是什么?
結果:
- 調用指定合作伙伴Axios,表現尚可,返回了一篇簡短的新聞摘要。
預訂Uber
提示:現在從這里到機場的UberX多少錢?
結果:
- 使用指定合作伙伴Uber,操作成功。
- Operator提出合理的問題,詢問「請提供接客地點,以便我為您查找從接客地點到機場的UberX費用。」以及「請指定您的目的地機場。」
- 登錄后,Operator給出答案:「從南加州大學到洛杉磯國際機場的UberX當前票價為43.47美元。您是否希望預訂此行程?」
房屋清潔
提示:我需要一名家政清潔員明天來我家做一次性清潔。
結果:
- 調用指定合作伙伴Thumbtack,失敗。
- 未詢問我的具體位置,就推薦了一名位于弗吉尼亞的清潔員,可能是因為瀏覽器所在的數據中心位于該地。
Spotify Wrapped
提示:我想了解Spotify Wrapped成功的原因。(Spotify Wrapped是音樂流媒體平臺Spotify推出的年度回顧功能。)
結果:
- 采用簡單提示時,失敗。系統卡在循環中,表現不佳,且研究資料有限。
- 采用復雜提示時,結果尚可。需要多次提示,報告質量不高。在提供了如何進行高級搜索的提示后完成了任務。期間3次請求獲取2024年的信息均被拒絕。
看完上述演示,也自然引發了一個問題:
「我們能夠隨時介入Operator的操作并做出符合自己偏好的更改嗎?」
答案是:完全可以!
事實上,在任何時候,你都可以控制其遠程瀏覽器并引導操作,比如輸入用戶名和密碼。并且如果你給出自己要求后,它還會保存重要的賬戶信息,這樣,只要你登錄一次,它就能在你的賬戶內自行操作,而無需再次打擾你。
最后,Operator將在結賬頁面停止繼續操作,返回支付請求后,再獲取您的付款詳情:
目前Operator支持自動完成通常需要15-20分鐘內的網絡任務。
值得一提的是,Operator還擁有能夠極大提高用戶體驗的「保存和共享功能」。也就是說,一旦完成任務,Operator就可以輕松保存工作流程。比如持續用最新的銷售數據來更新相應的報表。它甚至提供了一個流暢的會話記錄視頻,支持用戶觀看并與其他人分享。
換句話說,Operator就像是一個可以不斷和你磨合,且可以持續進步,還能24小時不停按照既定流程為你工作的私人管家一樣。
但是,由于Operator才剛剛發布,所以還是有一定的缺陷。
Operator的缺陷
正如道德經所說,「有無相生,難易相成」。Operator自身的缺陷亦是源于它的優勢本身。
它的獨特之處在于不用使用用戶本地的瀏覽器執行操作,而是OpenAI數據中心之一的一個瀏覽器,用戶可以遠程觀看并與之互動。這種設計的優點是你可以在任何地方、任何時候使用它——例如,在任意移動設備上。
但缺點是許多像Reddit這樣的網站已經阻止AI智能體瀏覽,因此它們無法被Operator訪問。并且Operator也因性能或法律原因被OpenAI阻止訪問某些資源密集型網站,如Figma或YouTube。
簡單來講,目前的Operator就像是被隔離在玻璃門外的人一樣,對于許多東西都是「看得見卻摸不著」。
像是一個外包乙方,而不是研究助理
目前的Operator實際上更像是一個能夠完成你給外包出去業務的乙方,而不是一個足夠聰明的個人研究助理。
例如,可以讓Operator閱讀《戰爭與和平》的第一章,并總結每個角色的所有細節以及他們所展現的人類心理和行為。然后,Operator在Project Gutenberg網站上找到了《戰爭與和平》并閱讀了第一章,做得非常出色。
但是其摘要卻枯燥乏味且粗糙寬泛:
在上述摘要中,它做出了正確的觀察:「角色意識到他們的社會地位,有些人,比如安娜?帕夫洛夫娜,小心翼翼地互動以保持禮儀」。但是這個摘要也有一種SparkNotes的味道,也就是不夠詳細,還無法真正理解故事情節。
如果提供相同的信息,OpenAI的o1在這項任務上會做得更好——但是o1還沒有自主執行任務的能力。也就是說,OpenAI專注于讓Operator非常適合自動執行重復性工作流程,而不太關注其智能水平。
它確實自主,但提示很重要
關于 Operator,最令人印象深刻的一點是,它只需極少的提示就能獨自完成冗長的任務。例如,我們讓它執行一項耗時20多分鐘的任務:我們請它幫我們了解Spotify年度總結(Spotify Wrapped)功能這些年是如何演變的。
「它最初是什么樣的?」
「現在又新增了哪些內容?」
它時不時需要一些提示才能繼續推進任務,但最終也成功實現了任務目標。
不可置否的是,與12個月甚至6個月前的智能體相比,這是一個重大進步,畢竟那時的智能體往往在短短幾秒鐘后就會偏離正軌。
話雖如此,用戶對Operator的提示方式仍然很關鍵。如果你向它提供更多關于如何完成任務的細節,它成功完成你交給它的任務的幾率就會更高。
例如,在我們關于Spotify年度總結的例子中,我們要求它收集并總結不同年份的搜索結果數據。它一開始失敗了,因為它不知道如何按年份篩選搜索數據。但當我們告訴它使用谷歌的高級搜索工具(該工具提供逐年篩選搜索功能)時,它就成功完成了任務。
OpenAI:一切以消費者為中心
當前,Operator僅是一個研究預覽,而非成熟產品。但這個預覽版意義重大,要知道就連ChatGPT最初也是以研究預覽的形式問世的。
OpenAI正重拾曾經大獲成功的策略:即使產品還有很多不完善的地方,也要盡早發布,并持續頻繁迭代。
因此OpenAI不僅推出API,還發布了面向消費者的產品。
這一舉措與競爭對手Anthropic的做法有所不同。Anthropic雖然也有一款自主智能體Claude Computer use,但其僅以API的形式發布,因此應用范圍相當有限。
OpenAI從ChatGPT中學到一點,AI的發布形式對其推廣的影響,絲毫不亞于底層技術。
因此,他們將首款自主智能體產品,以面向消費者的方式發布,即使這個產品還存在不少缺陷。
總的來說,盡管Operator目前功能有限,但可以預計它會迅速改進。對于廣大用戶來講,現在是時候梳理一下你每天在電腦上做的重復性任務了,也許一年后你就無需再做其中的大部分工作。