剛剛，OpenAI首個L3級智能體深夜覺醒！AI自己玩電腦引爆全網，AGI一觸即發

作者：新智元 2025-01-24 08:13:38

人工智能

OpenAI首個智能體Operator，剛剛震撼登場。從此，AI打破API局限，可以像人類一樣直接和界面交互了。L3級智能體達成，AGI路上一大障礙又被掃清！

剛剛，OpenAI首個智能體終于亮相了！

奧特曼帶領團隊毫無預警地開啟半小時「Operator」在線直播，首次揭秘能像人類一樣使用電腦的AI。

Sam Altman，Yash Kumar，Casey Chu，Reiichiro Nakano

演示中，AI智能體不僅可以精準理解指令，還能自主完成各類任務。

而它的獨特之處在于，可以直接與網頁交互——打字、點擊、滾動，幾乎一氣呵成。

比如，自動填寫繁瑣的在線表單、上網購物、創建表情包、處理重復性瀏覽器任務等等。

圖片

「Operator」背后操盤手便是Computer-Using Agent （CUA），打破了特定編程接口的局限，像人類一場直接與GUI進行交互。

從此，通往AGI道路上的又一大瓶頸被掃除。智能體可以在數字世界中四處行動了！

OpenAI官博將此稱為，AI與數字世界的「通用界面」。

圖片

「Operator」究竟有多厲害？

在多個測試環境中，CUA成功率令人瞠目：在OSWORLD上完成計算機使用任務成功率高達38.1%，比此前SOTA提升近16%；在WebArena上完成瀏覽器使用任務成功率達到58.1%，性能飆升22%。

不過與人類（72.4%和78.2%）相較之下，AI的能力還是有所差距。

在WebVoyager上，CUA更是達到了驚人的87%。

圖片

好消息是，「Operator」終于上線。而壞消息是，目前只有Pro美國用戶才能體驗。

為了彌補這一遺憾，奧特曼提前劇透了，o3-mini直接在ChatGPT中「開源」，Plus用戶會有更多用量。

雖然但是，我們其實也可以用國產「Operator」替代一波（手動狗頭）

隨著Operator的正式發布，總裁Greg也再一次強調，「2025年，就是智能體之年」。

圖片

話不多說，直接上演示。

AI接管PC訂餐，但直播小翻車

我們可以在Operator中選擇OpenTable，讓它訂一張今晚7點在Beretta的兩人位子。

可以看到，輸入查詢后，Operator會實例化指令，創建在云端運行的瀏覽器操作。

圖片

隨后，Operator轉到了搜索Beretta的URL。非常令人驚喜的是，OpenTable默認的地址是弗吉尼亞，但它自動更正為舊金山。

再比如，我們做飯需要雞蛋、菠菜、雞大腿和辣椒。在紙上寫下這些食材后，就可以直接傳給Operator，同時告訴他我們偏好的商店是Gus。

圖片

在這種情況下，Operator很快就根據GPT-4o的視覺功能理解了圖中的意思，還明白Gus商店是哪里。

接下來，就像OpenTable一樣，它實例化了一個瀏覽器，然后開始了購買環節。

圖片

如果在以前，如果我們想用智能體執行類似操作，就必須確定特定網站有API，并且這個API有一切所需的功能，然而，大部分網站都是沒有API的。

而CUA通過教模型使用我們日常使用的基本界面，它就解鎖了一系列以前無法訪問的軟件！

可以看到，在執行操作的過程中，Operator進行了一些內在獨白，總結出了思維鏈。

然后它選擇了雞蛋，點擊了添加按鈕。而且每執行一個操作還會給電腦截個圖，這樣它就知道自己的操作對電腦有什么影響。

接下來，它點擊搜索框，輸入菠菜。這種采取行動、抓取屏幕截圖、創建子計劃的循環會一直持續，直到任務完成。

圖片

當然，人類也可以隨時接過Operator的控制權，這就保證了用戶隨時可以控制Operator，并向它發出指令。

有趣的是，人類接管之后，Operator并不能看到我們在接管模式下做的事——這就保證了私密性。

接下來，OpenAI的研究者給它下達了一項新任務：用StubHub買四張本周末舊金山勇士隊比賽、票價500以下的門票。

非常真實的是，Operator小翻車了一下。

那就讓它試試，買明早圣瑪麗澳網公開賽的門票。Operator立馬打開引擎，展開搜索。

圖片

隨后，研究者們讓Operator定10個中等披薩，指令發出后，它會主動向人類確認任務。

圖片

而在實際購買時，也會需要人類登錄自己的賬號，才能完成下一步操作。

問題來了：如果Operator買錯東西、訂錯酒店了怎么辦呢？不用擔心，這種情況下，人類需要隨時確認，它才能繼續行動。

如果它遇到詐騙網站，對此還會有一個提示注入監視器，功能跟防病毒軟件一樣，可以觀察和監視它的操作，遇到可疑之處立馬停止。

L3級AGI達成，開啟下一場人機交互革命

支撐Operator的核心技術Computer-Using Agent（CUA），被訓練用于與圖形用戶界面GUI（在屏幕上看到的按鈕、菜單和文本框）進行交互，就像人類一樣。這就讓它具有了很高的靈活性，無需依賴操作系統或特定網頁API，從而能夠完成各種數字化任務。

更進一步的，通過將高級GUI感知與結構化問題解決能力結合在一起，CUA還可以將任務分解為多步驟計劃，并在遇到挑戰時自適應糾錯。

CUA能夠如此之強，是因為建立在OpenAI多年關鍵研究——多模態、推理和安全性領域基礎之上。通過融合GPT-4o的視覺能力、深度推理技術和創新的強化學習方法，研發團隊攻克了AI操作計算機的諸多技術難關。

其最大的突破在于，實現了通用界面。

傳統AI往往被局限于專門的API，而CUA可以像人類一樣操作任何軟件工具。這意味著，AI能適應幾乎所有的計算機環境，解決AI長期以來難以觸及的「長尾」數字使用場景。

還記得此前，彭博爆料的OpenAI內部AGI路線圖嗎？Operator的出世，意味著L3級智能體時代正式開啟！

圖片

下一個目標，OpenAI還將擴展智能體的動作空間。接下來幾周/幾個月，我們還將會看到更多的智能體。

圖片

此外，他們還計劃開放API接口，讓開發者能夠基于CUA構建自定義的計算機智能體。

OpenAI下場智能體Operator，或許將成為下一場人機交互革命的起點。

計算機使用智能體：AI與數字世界交互的通用界面

那么，CUA具體是如何工作的？

圖片

技術報告：https://cdn.openai.com/operator_system_card.pdf

如下是它的工作原理圖，CUA會通過處理「原始像素數據」來理解屏幕上顯示的內容，并使用虛擬鼠標和鍵盤完成操作。

它可以執行多步驟任務、應對錯誤并適應意外變化。

圖片

基于這些優勢，使得CUA能夠在各種數字環境中發揮作用，比如填寫表單和瀏覽網站，而無需依賴特定的API。

根據用戶的指令，CUA通過一個結合感知、推理和行動的迭代循環來運行：

感知：從計算機截取的屏幕快照被添加到模型的上下文中，為其提供當前計算機狀態的視覺參考。
推理：CUA使用思維鏈（CoT）推斷下一步操作，同時考慮當前和過去的屏幕快照及其執行的操作。這種內在獨白通過讓模型評估觀察內容、跟蹤中間步驟并進行動態調整來提高任務完成的效果。
行動：CUA執行操作——點擊、滾動或輸入——直到判斷任務完成或需要用戶輸入。盡管它可以自動完成大多數步驟，但對于敏感操作（如輸入登錄信息或處理驗證碼表單），CUA會尋求用戶確認。