OpenAI推出Operator幫助用戶自動瀏覽網站
OpenAI發布了一個新的用于預覽的AI代理Operator,該代理可以控制計算機瀏覽器并代表你執行操作。該工具可以通過鍵入、單擊和滾動與網頁進行交互。
Operator是OpenAI的首批AI代理之一。該公司聲稱,其表現優于競爭對手的人工智能代理,如基于Gemini 2.0構建的Google DeepMind的Mariner,以及Anthropic的Claude 3.5 Sonnet升級版的Computer Use。
那么,Operator到底能做什么呢?根據OpenAI的說法,可以使用該工具執行各種與瀏覽器相關的任務。這包括個人購物、填寫表格和旅行預訂。企業可以對Operator進行費用管理、會議安排和數據遷移的編程。
OpenAI的Operator由一種名為計算機應用代理(CUA)的新模型提供支持。通過強化學習整合高級推理和視覺,CUA被訓練成導航和使用圖形用戶界面(GUI)。這使得它可以通過屏幕截圖來“查看”屏幕,并使用計算機的鼠標和鍵盤功能進行“交互”。該工具不需要任何自定義的API集成。
雖然Operator旨在通過自我糾正來克服挑戰或錯誤,但如果它卡住或需要幫助,它可以將控制權交還給用戶。OpenAI表示,CUA還處于早期階段,存在局限性,但它在WebVoyager和WebArena上仍然表現良好,這兩個是評估AI代理的常用基準框架。
Operator經過訓練,可以要求用戶接管需要支付詳細信息、登錄或解決驗證碼的任務。與在瀏覽器上使用多個選項卡類似,用戶可以讓Operator同時運行多個任務。
OpenAI承認,Operator“目前遇到了創建幻燈片或管理日歷等復雜界面的挑戰”,但預計該工具將隨著時間的推移不斷改進和發展。
OpenAI通過介紹Operator的博客分享道:“為了確保安全和迭代的推出,我們從小處著手?!薄皬慕裉扉_始,美國的專業用戶可以在Operator.chatgpt.com上使用Operator(在新窗口中打開)。這項研究預覽使我們能夠向用戶和更廣泛的生態系統學習,并在過程中不斷完善和改進。我們的計劃是擴展到Plus、Team和Enterprise用戶,并在未來將這些功能集成到ChatGPT中?!?/span>
“早期用戶反饋將在提高其準確性、可靠性和安全性方面發揮至關重要的作用,幫助我們使Operator更好地服務于每個人?!?/span>
Operator僅面向有限的受眾,以便公司學習和改進工具的功能,并解決任何潛在的安全風險。根據OpenAI的說法,Operator通過多種保障措施確保用戶的安全和控制。
該工具要求在關鍵點提供輸入。它進入接管模式,用于輸入敏感信息,如登錄詳細信息,并在完成重大操作(如提交訂單)之前需要用戶確認。此外,Operator經過訓練,可以拒絕某些高風險任務,如銀行轉賬,并通過將控制權交還給用戶進入監視模式。
對于數據隱私,用戶可以選擇不使用數據進行模型訓練,刪除瀏覽數據,并一鍵退出所有網站。為了防御惡意行為者和敵對網站,Operator經過訓練,可以通過自動和人工審查不斷更新針對新威脅的防護措施。
OpenAI已經在與許多企業合作,以擴大Operator的用戶群和生態系統。OpenAI分享道:“運營商將人工智能從被動工具轉變為數字生態系統中的積極參與者?!薄八鼘⒑喕脩舻娜蝿?,并為那些想要創新客戶體驗和更高轉化率的公司帶來代理商的好處?!?/span>
“我們正在與DoorDash、Instacart、OpenTable、Priceline、StubHub、Thumbtack、Uber等公司合作,以確保運營商在尊重既定規范的同時滿足現實世界的需求?!?/span>
在過去的幾周里,Superintelligence(超級智能)和AGI(通用人工智能)得到了廣泛宣傳。這兩個概念指的是人工智能的高級形式。超級智能是指在幾乎所有領域都超越人類智能的人工智能系統,而AGI是指能夠執行人類可以執行的任何智能任務的人工智能的概念。
今年早些時候,OpenAI首席執行官Sam Altman通過他的個人博客分享了OpenAI知道如何構建AGI,AGI被認為是機器學習(ML)領域的圣杯。Altman進一步補充說,該公司現在的目標是超越這一點,并為超級智能設定了方向。
雖然人工智能代理也伴隨著風險和不確定性,但科技巨頭已經將其視為人工智能的下一個前沿。到2030年,人工智能代理市場的估值可能達到471億美元。Operator的推出是OpenAI在AGI的第一次真正嘗試。
Operator似乎可以“完成”很多任務,但只有時間才能證明它到底有多實用和安全。在這個初始階段,Operator在處理基于網絡的活動方面表現出了希望,但對其在現實世界中的應用仍持懷疑態度。批評者認為,雖然Operator的能力看起來令人印象深刻,但真正的考驗在于它是否能夠在不需要太多人為干預或對用戶構成風險的情況下持續執行這些任務。