成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

剛剛,OpenAI首個L3級智能體深夜覺醒!AI自己玩電腦引爆全網,AGI一觸即發

人工智能
OpenAI首個智能體Operator,剛剛震撼登場。從此,AI打破API局限,可以像人類一樣直接和界面交互了。L3級智能體達成,AGI路上一大障礙又被掃清!

剛剛,OpenAI首個智能體終于亮相了!

奧特曼帶領團隊毫無預警地開啟半小時「Operator」在線直播,首次揭秘能像人類一樣使用電腦的AI。

Sam Altman,Yash Kumar,Casey Chu,Reiichiro NakanoSam Altman,Yash Kumar,Casey Chu,Reiichiro Nakano

演示中,AI智能體不僅可以精準理解指令,還能自主完成各類任務。

而它的獨特之處在于,可以直接與網頁交互——打字、點擊、滾動,幾乎一氣呵成。

比如,自動填寫繁瑣的在線表單、上網購物、創建表情包、處理重復性瀏覽器任務等等。

圖片圖片

「Operator」背后操盤手便是Computer-Using Agent (CUA),打破了特定編程接口的局限,像人類一場直接與GUI進行交互。

從此,通往AGI道路上的又一大瓶頸被掃除。智能體可以在數字世界中四處行動了!

OpenAI官博將此稱為,AI與數字世界的「通用界面」。

圖片圖片

「Operator」究竟有多厲害?

在多個測試環境中,CUA成功率令人瞠目:在OSWORLD上完成計算機使用任務成功率高達38.1%,比此前SOTA提升近16%;在WebArena上完成瀏覽器使用任務成功率達到58.1%,性能飆升22%。

不過與人類(72.4%和78.2%)相較之下,AI的能力還是有所差距。

在WebVoyager上,CUA更是達到了驚人的87%。

圖片圖片

好消息是,「Operator」終于上線。而壞消息是,目前只有Pro美國用戶才能體驗。

為了彌補這一遺憾,奧特曼提前劇透了,o3-mini直接在ChatGPT中「開源」,Plus用戶會有更多用量。

雖然但是,我們其實也可以用國產「Operator」替代一波(手動狗頭)雖然但是,我們其實也可以用國產「Operator」替代一波(手動狗頭)

隨著Operator的正式發布,總裁Greg也再一次強調,「2025年,就是智能體之年」。

圖片圖片

話不多說,直接上演示。

AI接管PC訂餐,但直播小翻車

我們可以在Operator中選擇OpenTable,讓它訂一張今晚7點在Beretta的兩人位子。

可以看到,輸入查詢后,Operator會實例化指令,創建在云端運行的瀏覽器操作。

圖片圖片

隨后,Operator轉到了搜索Beretta的URL。非常令人驚喜的是,OpenTable默認的地址是弗吉尼亞,但它自動更正為舊金山。

再比如,我們做飯需要雞蛋、菠菜、雞大腿和辣椒。在紙上寫下這些食材后,就可以直接傳給Operator,同時告訴他我們偏好的商店是Gus。

圖片圖片

在這種情況下,Operator很快就根據GPT-4o的視覺功能理解了圖中的意思,還明白Gus商店是哪里。

接下來,就像OpenTable一樣,它實例化了一個瀏覽器,然后開始了購買環節。

圖片圖片

如果在以前,如果我們想用智能體執行類似操作,就必須確定特定網站有API,并且這個API有一切所需的功能,然而,大部分網站都是沒有API的。

而CUA通過教模型使用我們日常使用的基本界面,它就解鎖了一系列以前無法訪問的軟件!

可以看到,在執行操作的過程中,Operator進行了一些內在獨白,總結出了思維鏈。

然后它選擇了雞蛋,點擊了添加按鈕。而且每執行一個操作還會給電腦截個圖,這樣它就知道自己的操作對電腦有什么影響。

接下來,它點擊搜索框,輸入菠菜。這種采取行動、抓取屏幕截圖、創建子計劃的循環會一直持續,直到任務完成。

圖片圖片

當然,人類也可以隨時接過Operator的控制權,這就保證了用戶隨時可以控制Operator,并向它發出指令。

有趣的是,人類接管之后,Operator并不能看到我們在接管模式下做的事——這就保證了私密性。

接下來,OpenAI的研究者給它下達了一項新任務:用StubHub買四張本周末舊金山勇士隊比賽、票價500以下的門票。

非常真實的是,Operator小翻車了一下。

那就讓它試試,買明早圣瑪麗澳網公開賽的門票。Operator立馬打開引擎,展開搜索。

圖片圖片

隨后,研究者們讓Operator定10個中等披薩,指令發出后,它會主動向人類確認任務。

圖片圖片


而在實際購買時,也會需要人類登錄自己的賬號,才能完成下一步操作。

問題來了:如果Operator買錯東西、訂錯酒店了怎么辦呢?不用擔心,這種情況下,人類需要隨時確認,它才能繼續行動。

如果它遇到詐騙網站,對此還會有一個提示注入監視器,功能跟防病毒軟件一樣,可以觀察和監視它的操作,遇到可疑之處立馬停止。

L3級AGI達成,開啟下一場人機交互革命

支撐Operator的核心技術Computer-Using Agent(CUA),被訓練用于與圖形用戶界面GUI(在屏幕上看到的按鈕、菜單和文本框)進行交互,就像人類一樣。這就讓它具有了很高的靈活性,無需依賴操作系統或特定網頁API,從而能夠完成各種數字化任務。

更進一步的,通過將高級GUI感知與結構化問題解決能力結合在一起,CUA還可以將任務分解為多步驟計劃,并在遇到挑戰時自適應糾錯。

CUA能夠如此之強,是因為建立在OpenAI多年關鍵研究——多模態、推理和安全性領域基礎之上。通過融合GPT-4o的視覺能力、深度推理技術和創新的強化學習方法,研發團隊攻克了AI操作計算機的諸多技術難關。

其最大的突破在于,實現了通用界面。

傳統AI往往被局限于專門的API,而CUA可以像人類一樣操作任何軟件工具。這意味著,AI能適應幾乎所有的計算機環境,解決AI長期以來難以觸及的「長尾」數字使用場景。

還記得此前,彭博爆料的OpenAI內部AGI路線圖嗎?Operator的出世,意味著L3級智能體時代正式開啟!

圖片圖片

下一個目標,OpenAI還將擴展智能體的動作空間。接下來幾周/幾個月,我們還將會看到更多的智能體。

圖片圖片

此外,他們還計劃開放API接口,讓開發者能夠基于CUA構建自定義的計算機智能體。

OpenAI下場智能體Operator,或許將成為下一場人機交互革命的起點。

計算機使用智能體:AI與數字世界交互的通用界面

那么,CUA具體是如何工作的?

圖片圖片

技術報告:https://cdn.openai.com/operator_system_card.pdf

如下是它的工作原理圖,CUA會通過處理「原始像素數據」來理解屏幕上顯示的內容,并使用虛擬鼠標和鍵盤完成操作。

它可以執行多步驟任務、應對錯誤并適應意外變化。

圖片圖片

基于這些優勢,使得CUA能夠在各種數字環境中發揮作用,比如填寫表單和瀏覽網站,而無需依賴特定的API。

根據用戶的指令,CUA通過一個結合感知、推理和行動的迭代循環來運行:

  1. 感知:從計算機截取的屏幕快照被添加到模型的上下文中,為其提供當前計算機狀態的視覺參考。
  2. 推理:CUA使用思維鏈(CoT)推斷下一步操作,同時考慮當前和過去的屏幕快照及其執行的操作。這種內在獨白通過讓模型評估觀察內容、跟蹤中間步驟并進行動態調整來提高任務完成的效果。
  3. 行動:CUA執行操作——點擊、滾動或輸入——直到判斷任務完成或需要用戶輸入。盡管它可以自動完成大多數步驟,但對于敏感操作(如輸入登錄信息或處理驗證碼表單),CUA會尋求用戶確認。

刷新SOTA,但與人類差一大截

CUA在計算機使用和瀏覽器使用的基準測試中,通過使用統一的屏幕、鼠標和鍵盤界面,刷新了SOTA。

圖片

瀏覽器使用

WebArena和WebVoyager專為評估網頁瀏覽AI智能體,在瀏覽器中完成現實任務的性能而設計。

  • WebArena利用自托管的開源離線網站,模擬現實任務場景,例如電子商務、在線商店內容管理系統(CMS)以及社交論壇平臺等。
  • WebVoyager則測試模型在亞馬遜、GitHub和Google地圖等在線實時網站上的任務完成表現。

在這些基準測試中,CUA通過同一個通用界面設定了新標準。該界面將瀏覽器屏幕視為「像素」,并通過鼠標和鍵盤執行操作。

如前所述,在基于網頁的任務中,CUA在WebArena上的任務成功率為58.1%,而在WebVoyager上達到了驚人的87%。

盡管CUA在任務相對簡單的WebVoyager上表現出較高的成功率,但在更復雜的基準測試(如WebArena)中,CUA仍需進一步優化,以縮小與人類表現之間的差距。

比如,讓CUA去「劍橋詞典的Plus專區,不用登錄,隨便做一個語法小測試,然后告訴我你考了多少分」。

只見AI一步一步找到測驗,并開始刷題,最終得到滿分12分。

在屏幕左側,可以清晰看到它每一步操作過程,其中「不斷截圖」(New screenshot)是支撐它完成任務的重要步驟。

生活中購物常會遇到退款問題,CUA也能算清楚。

給定一個完整的指令——我應該能從2023年2月取消的訂單中得到多少退款,包括運費?

CUA就會進入購物平臺one-stop-shop,打開「我的訂單」,并通過日期、訂單號查找所有可用的信息,然后計算得出退款總金額:406.53。

再比如,破解一個復雜推理題——6階多格骨牌(Polyominoes)組合方式,以及在所有形狀中,只有2行形狀有多少種。

CUA同樣是通過屏幕截圖,計算找到最終解:「在35種不同的6階多格骨牌組合中,有12種形狀只有兩行。」

對于程序員們來說非常使用的場景——更新項目的許可,CUA也能做到。

計算機使用

OSWorld是一個評估模型控制完整操作系統(如Ubuntu、Windows和macOS)能力的基準測試。

在該基準測試中,CUA成功率達到了38.1%。

此外,研究人員還觀察到測試時的性能擴展(test-time scaling),即當允許更多操作步驟時,CUA性能會進一步提升。

下圖比較了CUA和之前SOTA模型在不同最大允許步驟下的表現。

人類在該基準測試中的表現為72.4%,因此CUA仍有顯著的改進空間。

圖片圖片

以下可視化示例展示了CUA如何完成多種標準化OSWorld任務。

假設你想要下載Python在線課程,目前已經成功下載Week 0課程講義,剩下幾周PDF文件的下載,完全可以交給AI去做。

這類重復性任務,AI最擅長不過了,而且你還會有大把時間去做別的事。

相比之下,在圖片壓縮的任務中,CUA似乎非常「糾結」。

在調節圖片質量時,不僅重復了數次「設為60%」,期間還一度出現了160%、360%這種奇怪的設定。

不過,在一番波折之后,CUA最終還是完成了任務。

CUA并非100%可靠

目前,OpenAI通過Operator研究預覽版提供了CUA——一種可以上網為你執行任務的智能體。

前面已經提到了,Operator目前也只面向美國的Pro用戶開放,入口是operator.chatgpt.com。

圖片圖片

與任何早期技術一樣,CUA還只是一個初出茅廬的AI,并不能在所有場景中穩定運行。

不過,它已經在多種情況下證明了其實用性,OpenAI希望將這種可靠性拓展到更多任務場景。

在下表中,他們展示了CUA在Operator中根據提示詞完成少量試驗的表現,以說明其已知的優勢和劣勢。

其中,OpenAI明顯指出:對于不同的網站和用戶界面,CUA可靠性會有所不同。

圖片圖片

CUA在執行簡單重復的UI工作比較擅長。

即便是同一個任務,CUA的可靠性可能會根據描述任務的方式而改變。在這種情況下,可以通過以下方式進行改進:

  • 提供具體的時間細節(比如,用「上午9點到12點」而不是籠統地說「從上午9點開始的全天」)
  • 提供關于應該使用哪些UI界面元素來查找結果的提示(比如,提示「查看篩選器部分」)

簡言之,越具體,AI更容易理解你的意圖。

圖片圖片

當CUA需要與它在訓練過程中很少接觸過的UI界面進行交互時,它很難準確判斷如何恰當地使用這些UI。

這通常會導致大量的試錯過程和低效的操作。

此外,CUA在文本編輯方面并不精確。它經常在處理過程中犯很多錯誤,或者提供帶有錯誤的輸出。

圖片圖片

所以,能自己用電腦的AI,對人類足夠安全嗎?

OpenAI是這么說的:在開發CUA時,他們將安全性作為了首要任務,以應對「智能體訪問數字世界所帶來的挑戰」。比如,它會拒絕「購買武器」之類的有害任務。

而在以后,通過收集的真實世界反饋,他們還會不斷改進安全措施。

參考資料:https://x.com/sama/status/1882488842290356462

責任編輯:武曉燕 來源: 新智元
相關推薦

2016-11-08 19:43:58

Android

2012-06-05 09:35:34

PaaSOracle云計算

2024-10-25 13:30:00

2013-10-31 16:52:47

地圖團購

2014-09-09 09:45:09

WIFI智能家居

2016-08-12 15:33:29

云服務阿里云亞馬遜云

2017-07-26 13:54:10

AWS+EasySta

2017-01-11 13:54:09

聯想

2009-09-01 17:41:57

Windows7微軟兼容性

2010-11-02 08:58:22

JavaOracleJCP

2011-04-21 09:39:55

云計算創新一觸即發

2024-10-11 13:50:00

AI智能體

2016-08-03 11:43:13

云計算

2017-06-22 09:25:25

2013-12-04 13:14:13

2021-01-06 10:50:39

ITOT領導者

2011-04-29 15:41:54

移動游戲手機游戲

2012-01-01 22:30:16

2018-06-10 16:11:31

2016-09-18 13:27:25

科技 生態
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 一区二区三区精品视频 | 国产在视频一区二区三区吞精 | 亚洲中国字幕 | 精品二区 | 伊人久久精品一区二区三区 | 日韩综合在线视频 | 少妇一区在线观看 | 九九亚洲 | 久久大陆 | 在线一区二区观看 | 国产一区二区三区在线看 | 亚洲高清视频在线观看 | 国产在线观看网站 | 欧美一区精品 | 国产美女精品视频 | 久久久久国产 | 婷婷综合在线 | 国产黄色大片 | 日韩视频在线播放 | 久久国产区 | 午夜免费网站 | 久久99精品视频 | 在线播放一区二区三区 | 天天色图| 日韩黄色免费 | 欧美一区二区三区在线观看视频 | 久久亚洲一区二区 | 国产日韩欧美在线一区 | 一区二区三区精品视频 | 在线视频第一页 | 国产精品久久久久久久一区二区 | 久久另类视频 | 人人爽日日躁夜夜躁尤物 | 国产免费拔擦拔擦8x高清 | 91精品国产91久久久久久密臀 | 国产高清精品一区二区三区 | 成人在线免费 | 亚洲成人免费网址 | 在线精品国产 | 黄色片网站国产 | 久久精品亚洲 |