成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

字節(jié)版Operator搶跑OpenAI? 直接免費開源, 網(wǎng)友:怒省200美元!

人工智能 新聞
最近國內(nèi)外公司的技術(shù)進展,可以說為智能體 AI 時代開了個好頭。

一線大模型,正在全面進入智能體時代。

1 月 24 日凌晨 2 點,OpenAI 面向月供 200 美元的 ChatGPT Pro 用戶發(fā)布了自家的 Computer Use 智能體:Operator。

圖片

OpenAI 甚至給 Operator 開設(shè)了單獨的產(chǎn)品界面,將它視為與 ChatGPT、Sora 并列的關(guān)系,這也符合 Sam Altman、黃仁勛、扎克伯格等科技大佬對于「2025 年將是 AI 智能體之年」的趨勢判斷。

實際上 Operator 只是最近一段時間,全球大模型公司智能體集中發(fā)布浪潮的一部分。早于 Operator 發(fā)布前兩天,字節(jié)跳動豆包大模型團隊就已經(jīng)公布了同類型智能體:UI-TARS。

據(jù)悉,UI-TARS 的名字來源于電影《星際穿越》的 TARS 機器人,預示著它具備高度的智能和自主思考能力。

重點是:UI-TARS 是開源的!大家可以免費使用。而且,UI-TARS 還有對應(yīng)的詳細技術(shù)報告可供學習。所以,無論從應(yīng)用普及還是學術(shù)研究的角度來看,UI-TARS 都將成為一股重要的力量,推動智能體時代加速到來。

圖片

發(fā)布三四天,UI-TARS 的 GitHub star 量就突破了 1k,支持 Windows 和 Mac 系統(tǒng)的 UI-TARS-desktop 客戶端達到了 1.6k stars,可見這種質(zhì)量的開源智能體項目在社區(qū)是非常稀缺的。

此前在業(yè)內(nèi)小有名聲的 Web 自動化框架 Midscene.js ,在接入 UI-TARS 之后也增加了大量 star 關(guān)注,上榜 Github Trending。

圖片

下面是 UI TARS 實測效果。可以看到,它不僅能像 Operator 一樣控制瀏覽器和執(zhí)行推理,并且只要是能顯示在屏幕上的,它都能操作。

UI-TARS 幫用戶調(diào)整 Chrome 瀏覽器的字體大小??梢钥吹?,UI-TARS 似乎有一些內(nèi)置的知識可以支持自己的思考,比如它知道通過 Chrome 右上角三個點的圖標可以訪問「設(shè)置」,并且能精準地在屏幕上找到這三個點。

UI-TARS 幫用戶訂機票。它不僅能根據(jù)設(shè)置搜索到對應(yīng)機票,還可以按照價格排序。

有意思的是,相比于 Operator 只能操控電腦,UI-TARS 還能操控手機。

UI-TARS 幫用戶播放歌曲

與字節(jié)開源的 UI 自動化工具 Midscene.js 放到一起,UI-TARS 還能發(fā)揮更大的價值 —— 支持目標驅(qū)動、兼容畫布操作、允許私有化部署、執(zhí)行效率躍升等等,開發(fā)者能明顯感受到其中的變化。

聯(lián)合應(yīng)用 Midscene.js 與 UI-TARS ,用 JS 代碼驅(qū)動編排任務(wù),搜集周杰倫演唱會的信息,并寫入 Google Docs。

目前,已經(jīng)有許多海內(nèi)外用戶在測試 UI-TARS,并給出了非常積極的反饋。

圖片

圖片

比如,Lepton AI 聯(lián)合創(chuàng)始人謝亞東嘗試用 UI-TARS-7B-SFT 和 midscene.js 開發(fā)了一個 Web Agent。

  • UI-TARS PC 客戶端:https://github.com/bytedance/UI-TARS-desktop
  • Midscene.js 瀏覽器控制:https://github.com/web-infra-dev/midscene

UI-TARS 為啥操作準?

端到端的智能體架構(gòu)創(chuàng)新

與 OpenAI 商業(yè)化優(yōu)先相對的是,字節(jié)的 UI-TARS 優(yōu)先公開且開源了技術(shù)文檔。我們可以看到 UI-TARS 技術(shù)路線的創(chuàng)新之處。

圖片

  • 論文標題:UI-TARS: Pioneering Automated GUI Interaction with Native Agents
  • 論文地址:https://arxiv.org/pdf/2501.12326
  • 開源地址:https://github.com/bytedance/UI-TARS

具體地講,UI-TARS 具有以下幾項創(chuàng)新點:

  • 增強感知(Enhanced Perception):利用大規(guī)模 GUI 截圖數(shù)據(jù)集,實現(xiàn)對 UI 元素的上下文感知理解并生成精確描述;
  • 統(tǒng)一動作建模(Unified Action Modeling):將動作標準化處理到跨平臺的統(tǒng)一空間中,并通過大規(guī)模動作軌跡實現(xiàn)精確定位和交互;
  • System 2 推理(System-2 Reasoning):將深思熟慮的推理納入多步?jīng)Q策,并涵蓋任務(wù)分解、反思思維等多種推理模式。
  • 迭代式反思訓練(Iterative Training with Reflective Online Traces):通過在數(shù)百臺虛擬機上自動收集、過濾和反射細化新的交互軌跡來解決數(shù)據(jù)瓶頸問題。同時基于迭代訓練和反思訓練,UI-TARS 持續(xù)從錯誤中學習,并在最少的人為干預下適應(yīng)不可預見的情況。

字節(jié)豆包大模型團隊認為,如果想要 AI 智能體真正實現(xiàn)類人的自主任務(wù)執(zhí)行能力,就必須解決當前通用大模型直接應(yīng)用在 GUI(圖形用戶界面)智能體上存在的一些技術(shù)缺陷與不足。

首先,用戶指令的執(zhí)行需要提取特定元素的坐標信息,而通用大模型通常缺乏所需要的精確數(shù)值理解能力。其次,通用大模型在處理目標驅(qū)動場景時往往理解不到位,這就需要開發(fā)者提供詳細的自然語言說明操作步驟,增加了開發(fā)者的負擔。最后,同時發(fā)送圖片信息與元素描述不可避免地造成模型調(diào)用過程中消耗大量的 token,會導致性能損耗,成本升高。

在 Operator 中,OpenAI 通過 GPT-4o 的視覺能力和強化學習實現(xiàn)的高級推理相結(jié)合,讓智能體可以像人類一樣與圖形界面進行交互,靈活地執(zhí)行任務(wù)。

UI-TARS 也很好地解決了上述瓶頸,它依托強大的通用多模態(tài)語言模型進行視覺識別,并面向智能 UI 交互進行了定向訓練。這樣做的結(jié)果便是:UI-TARS 在 GUI 智能體領(lǐng)域能夠發(fā)揮出遠勝于其他通用模型或 GUI 模型的表現(xiàn),與此同時可以兼容各種形式的操作系統(tǒng)。

效果好不好,我們用權(quán)威基準測試結(jié)果來說話。在線動態(tài)環(huán)境可以模擬真實世界場景的交互,而 GUI 智能體通過實時執(zhí)行操作來改變環(huán)境狀態(tài),從而可以滿足用戶需求。

其中在 OSWorld 上,當限定的最大步數(shù)為 15 時,UI-TARS 的任務(wù)成功率可達 22.7%,超過了 Claude 的 14.9%,也超過了 Operator 的 19.7%。而當限定步數(shù)提升到 50 步時,UI-TARS 的成功率達到了 24.6%,同樣也超過 Claude,但根據(jù) OpenAI 公布的數(shù)據(jù),Operator 在 50 步時的表現(xiàn)達到了 32.6%,相對 UI-TARS 有明顯優(yōu)勢。這意味著 test-time scaling 是 UI-TARS 下一步需要升級的方向。

不僅如此,在基于 Andriod 操作系統(tǒng)的 AndroidWorld 基準上,UI-TARS 獲得了 46.6% 的任務(wù)成功率,大幅超過了 GPT-4o 的 34.5%。

圖片

除了在線動態(tài)環(huán)境中實現(xiàn)能力新 SOTA 之外,UI-TARS 同樣在 Multimodal Mind2Web(用于創(chuàng)建和評估執(zhí)行語言指令的 web 智能體)以及 Android Control(評估移動端環(huán)境中的規(guī)劃和動作執(zhí)行能力)、GUI Odyssey(專注于移動端環(huán)境中跨應(yīng)用導航任務(wù))等三個離線靜態(tài)、預定義環(huán)境相關(guān)的基準測試中表現(xiàn)領(lǐng)先。

圖片

更進一步,UI-TARS 的智能體系統(tǒng)是端到端的,這被認為是智能體 AI 的下一個方向。

自 GPT-4 出現(xiàn)后,智能體成為了 AI 領(lǐng)域研究的熱門領(lǐng)域,最近又經(jīng)歷了一次范式革新。首先是智能體框架(Agent Framework),其主要利用高性能基礎(chǔ)模型(如 GPT-4o)的理解和推理能力來增強任務(wù)的靈活性。他們實現(xiàn)了自動化和靈活的交互,也可以借助更多模塊不斷增強,或完成多智能體協(xié)作,但它仍然依賴人為定義的工作流來構(gòu)建其操作。因此,智能體框架會面臨適應(yīng)性較差、模塊不兼容等問題,維護開銷較大。

在當前階段,一些研究團隊已經(jīng)提出了智能體模型(Agent Model)新范式,其中任務(wù)以端到端的方式學習和執(zhí)行,將感知、推理、記憶和動作統(tǒng)一在一個不斷發(fā)展的模型中。

圖片

這種方法從根本上實現(xiàn)了數(shù)據(jù)驅(qū)動,讓智能體可以無縫適應(yīng)新任務(wù)、界面或用戶需求,無需依賴手動制作的提示或預定義規(guī)則,擁有強大泛化能力,也可以進行自我改進。

向人類看齊

充分利用 System 2 推理能力

在生成式 AI 技術(shù)突破后,人們希望讓人工智能實現(xiàn)人腦「快慢系統(tǒng)」的思考方式。其中「System 1」負責快速的、直覺的、無意識的匹配。當給定一個問題時,System 1 匹配相關(guān)答案并直接輸出。但這些答案缺乏推理過程,直接用習慣性的結(jié)果進行匹配。

作為對比,「System 2」相對較慢,沒有 System 1 的快速匹配過程,但它帶有更多的邏輯推理和序列推理,這是一個有意識的帶規(guī)劃、帶認知的過程。

結(jié)合兩套系統(tǒng)的優(yōu)勢,我們就能實現(xiàn)更加復雜準確的推理,構(gòu)建起認知智能,這也是 UI-TARS 想要實現(xiàn)的目標。

在技術(shù)報告中,UI-TARS 的定位是「一個原生 GUI 智能體模型,其設(shè)計目標是在不依賴繁瑣的人工設(shè)計規(guī)則或級聯(lián)模塊的情況下進行運作?!?/span>

從功能上看,UI-TARS 可直接感知屏幕截圖、應(yīng)用推理過程并自主生成有效操作。此外,UI-TARS 還可以學習之前的經(jīng)驗,通過利用環(huán)境反饋來迭代改進其性能。下圖展示了其整體架構(gòu)。

圖片

整體來說,UI-TARS 的能力都是圍繞感知、推理、動作以及經(jīng)驗學習進行的。對比一下 OpenAI Operator 的架構(gòu)(如下),有一定的相似之處。

圖片

具體來說,給定一個初始任務(wù)指令,為了完成任務(wù),UI-TARS 會迭代式地接收來自設(shè)備的觀察結(jié)果并執(zhí)行相應(yīng)的操作。在每個時間步驟,UI-TARS 會以任務(wù)指令、先前交互的歷史和當前觀察為輸入,基于預定義的動作空間輸出動作。執(zhí)行完動作之后,設(shè)備會提供后續(xù)觀察,持續(xù)迭代。

為了進一步增強智能體的推理能力,并讓決策更加深思熟慮,研究團隊還集成了一個以「思維(thoughts)」形式出現(xiàn)的推理組件,該組件會在每個動作之前生成。

這些「思維」能反映 System 2 思維的反思性質(zhì)。它們是至關(guān)重要的中間步驟,可引導智能體在繼續(xù)之前重新考慮以前的動作和觀察,與環(huán)境細致互動,構(gòu)成反思性交互,從而確保每個決定都是意圖明確的并且都是經(jīng)過仔細思考的。

數(shù)據(jù)集、推理與長期記憶

UI-TARS 集成了一系列創(chuàng)新

了解了 UI-TARS 的技術(shù)框架,我們再繼續(xù)深入其各個層面的細節(jié),看看這個 Computer Use 智能體的優(yōu)良表現(xiàn)究竟來自何處。同時,這也或許能讓我們洞見一二 Operator 等其它同類智能體的設(shè)計思路。

要訓練 GUI 智能體,還需要過數(shù)據(jù)這一關(guān)。字節(jié)豆包大模型團隊采用原生智能體方法,直接處理 GUI 截圖輸入,利用大規(guī)模統(tǒng)一數(shù)據(jù)集來提升性能。

具體實施包括:收集大規(guī)模數(shù)據(jù)集;為界面元素創(chuàng)建結(jié)構(gòu)化描述 (類型、視覺、位置、功能);提供密集描述包括空間關(guān)系和整體布局;標注狀態(tài)轉(zhuǎn)換數(shù)據(jù);合成多樣化問答數(shù)據(jù)集;增加 Set-of-Mark 提示,在界面上添加不同屬性的標記,幫助模型定位識別元素。

通過這些步驟,UI-TARS 能更好地理解和處理 GUI 任務(wù)。

圖片

感知與 grounding 數(shù)據(jù)樣本

研究團隊還進行了統(tǒng)一的動作空間建模與 grounding,在增強模型準確理解和定位視覺元素的能力的同時,讓模型學會一些連續(xù)的多步軌跡,在完成一些任務(wù)時可以不假思索地完成,類似于 System 1 思維。下表 1 給出了不同平臺的統(tǒng)一動作空間,而表 2 則展示了 grounding  與多步動作軌跡數(shù)據(jù)的基本統(tǒng)計信息。

圖片

那么,UI-TARS 是如何將 System 2 推理能力整合進來的呢?

具體來說,該團隊采用的做法是首先使用 GUI 教程來增強模型的推理能力 —— 他們?yōu)榇司幣帕艘粋€ 6M 規(guī)模的高質(zhì)量 GUI 教程,平均每個教程包含 510 個文本 token 與 3.3 張圖像。

然后,再使用思維增強來進行推理模擬,也就是通過標注「思維」來填補感知與動作之間的空白,從而增強前面提到的動作軌跡數(shù)據(jù)。這些思維使模型能夠顯式地表示其決策過程,從而更好地與任務(wù)目標對齊。

圖片

整體來看,UI-TARS 和 Operator 在短程推理上表現(xiàn)類似,但 Operator 在長程推理方面目前仍有優(yōu)勢。這也預示著目前學術(shù)界已經(jīng)具有了基礎(chǔ)的 Agent Model,而 Agent test-time scaling 是下一步需要升級的方向。

有了推理能力后,該團隊還讓 UI-TARS 具備了可從長期記憶學習之前的經(jīng)驗的能力。這樣一來,這個智能體就能在使用之中不斷迭代進步了。這主要涉及三個過程,即在線軌跡 bootstrapping、反思微調(diào)、Agent DPO。

在線軌跡 bootstrapping 的過程如下圖所示,簡單來說先讓智能體在目標 GUI 環(huán)境內(nèi)基于指令生成一些原始軌跡,再對其進行過濾,得到高質(zhì)量數(shù)據(jù)。然后利用結(jié)果軌跡來實現(xiàn)自我提升。

圖片

反思微調(diào)則是讓模型看到自己犯下的真實世界錯誤與其糾正方案,從而讓模型學會從次優(yōu)決策中恢復。

Agent DPO 可通過直接編碼對正確動作的偏好(而非錯誤動作)來優(yōu)化 UI-TARS,從而更好地利用可用數(shù)據(jù)。

總之,通過這些技術(shù)創(chuàng)新,UI-TARS 擁有了強大的完成復雜任務(wù)的能力。

智能體 AI 的時代

已經(jīng)開啟

今年一開年,英偉達創(chuàng)始人、CEO 黃仁勛在 CES 展會開幕 Keynote 上就定了個調(diào):2025 年是智能體 AI 的時代。

圖片

如果說基礎(chǔ)模型構(gòu)建起的生成式 AI 可以為我們輸出有用的信息,能「看」會「用」、會自我糾錯的智能體則可以做到更加主動,在大模型智能之上幫助我們高效完成各種任務(wù)。

正如 OpenAI 創(chuàng)始成員、特斯拉前 AI 高級總監(jiān) Andrej Karpathy 所說,在 AI 智能體技術(shù)逐漸成熟、通用化之后,我們可以成為自動化系統(tǒng)的管理人,就像駕駛者監(jiān)督自動駕駛一樣 —— 不過在數(shù)字世界里,AI 施展拳腳的機會要更多,應(yīng)用速度也會更快。

最近國內(nèi)外公司的技術(shù)進展,可以說為智能體 AI 時代開了個好頭。今天,智能體可以幫你訂外賣、搶票、肝游戲;明天,由智能體組成的小組可以來幫你來完成更加長期而復雜的任務(wù),直到一個業(yè)務(wù)體系,人人都能成為智能體的 CEO。

  • UI-TARS 論文:https://arxiv.org/pdf/2501.12326
  • 開源地址:https://github.com/bytedance/UI-TARS


責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2025-01-24 13:44:49

2009-02-26 18:35:43

2023-10-31 19:11:11

2024-12-12 09:09:24

2021-09-23 09:49:02

IT工具技術(shù)

2025-01-24 14:38:51

2025-06-04 13:46:15

2013-11-04 09:47:43

微軟Windows

2024-07-08 13:11:39

2025-01-27 12:21:51

2025-02-21 15:18:20

2023-05-16 20:47:38

2025-01-24 08:30:00

2025-02-08 08:50:00

2024-01-31 12:49:40

微軟OpenAI英特爾

2024-08-14 14:30:00

AI訓練

2021-11-15 09:40:04

代碼開源GitHub

2009-04-02 08:31:50

Windows 7微軟操作系統(tǒng)

2024-06-13 13:55:04

2024-02-04 13:34:52

點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 在线不卡av | 视频羞羞 | 成人性视频免费网站 | 成人午夜高清 | 成人不卡视频 | www.国产.com| 黄免费观看 | av中文字幕在线播放 | 日韩影院一区 | 国产99热| 亚洲国产精品视频一区 | 6080亚洲精品一区二区 | 女人夜夜春 | 婷婷久久网 | 亚洲精品乱码久久久久久蜜桃91 | 日韩免费av网站 | 日干夜操 | 欧美激情精品久久久久 | 人人看人人搞 | 国产特黄一级 | 免费一级淫片aaa片毛片a级 | 国产精品色| 久久综合av | 成人精品一区亚洲午夜久久久 | 99精品久久久久久 | 亚洲精品电影网在线观看 | 91精品久久久久久久久 | 日韩一区中文字幕 | 久久r免费视频 | 欧美日韩中文在线 | 久久精品免费 | 色成人免费网站 | 免费福利视频一区二区三区 | 日韩欧美在线视频播放 | 在线观看黄色电影 | 欧美日韩一卡二卡 | 亚洲国产偷 | 在线播放一区 | 日韩精品专区在线影院重磅 | 蜜桃av人人夜夜澡人人爽 | 精品一区二区久久久久久久网站 |