成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI讓手機(jī)任務(wù)自動(dòng)“跑”起來(lái)!我國(guó)高校最新研究,簡(jiǎn)化移動(dòng)設(shè)備操作

人工智能 移動(dòng)開(kāi)發(fā)
移動(dòng)任務(wù)自動(dòng)化利用AI精準(zhǔn)捕捉并解析人類(lèi)意圖,進(jìn)而在移動(dòng)設(shè)備(手機(jī)、平板電腦、車(chē)機(jī)終端)上高效執(zhí)行多樣化任務(wù),為那些因認(rèn)知局限、身體條件限制或身處特殊情境下的用戶(hù)提供前所未有的便捷與支持。

AI解放碳基生物雙手,甚至能讓你的手機(jī)自己玩自己

你沒(méi)聽(tīng)錯(cuò)——這其實(shí)就是移動(dòng)任務(wù)自動(dòng)化。

在AI飛速發(fā)展下,這逐漸成為一個(gè)新興的熱門(mén)研究領(lǐng)域。

移動(dòng)任務(wù)自動(dòng)化利用AI精準(zhǔn)捕捉并解析人類(lèi)意圖,進(jìn)而在移動(dòng)設(shè)備(手機(jī)、平板電腦、車(chē)機(jī)終端)上高效執(zhí)行多樣化任務(wù),為那些因認(rèn)知局限、身體條件限制或身處特殊情境下的用戶(hù)提供前所未有的便捷與支持。

  • 幫助視障人群用戶(hù)完成導(dǎo)航、閱讀或網(wǎng)上購(gòu)物
  • 輔助老年人使用手機(jī),跨越數(shù)字鴻溝
  • 幫助車(chē)主在駕駛過(guò)程中完成發(fā)送短信或調(diào)節(jié)車(chē)內(nèi)環(huán)境
  • 替用戶(hù)完成日常生活中普遍存在的重復(fù)性任務(wù)
  • ……

媽媽再也不嫌重復(fù)設(shè)置多個(gè)日歷事項(xiàng)會(huì)心煩了。

最近,來(lái)自西安交通大學(xué)智能網(wǎng)絡(luò)與網(wǎng)絡(luò)安全教育部重點(diǎn)實(shí)驗(yàn)室 (MOE KLINNS Lab)的蔡忠閩教授、宋云鵬副教授團(tuán)隊(duì)(團(tuán)隊(duì)主要研究方向?yàn)橹悄苋藱C(jī)交互、混合增強(qiáng)智能、電力系統(tǒng)智能化等),基于團(tuán)隊(duì)最新AI研究成果,創(chuàng)新性提出了基于視覺(jué)的移動(dòng)設(shè)備任務(wù)自動(dòng)化方案VisionTasker

這項(xiàng)研究不僅為普通用戶(hù)提供了更智能的移動(dòng)設(shè)備使用體驗(yàn),也展現(xiàn)出了對(duì)特殊需求群體的關(guān)懷與賦能。

圖片

基于視覺(jué)的移動(dòng)設(shè)備任務(wù)自動(dòng)化方案

團(tuán)隊(duì)提出了VisionTasker,一個(gè)結(jié)合基于視覺(jué)的UI理解和LLM任務(wù)規(guī)劃的兩階段框架,用于逐步實(shí)現(xiàn)移動(dòng)任務(wù)自動(dòng)化。

該方案有效消除了表示UI對(duì)視圖層次結(jié)構(gòu)的依賴(lài),提高了對(duì)不同應(yīng)用界面的適應(yīng)性。

值得注意的是,利用VisionTasker無(wú)需大量數(shù)據(jù)訓(xùn)練大模型。

圖片

VisionTasker從用戶(hù)以自然語(yǔ)言提出任務(wù)需求開(kāi)始工作, Agent開(kāi)始理解并執(zhí)行指令。

具體實(shí)現(xiàn)如下:

1、用戶(hù)界面理解

VisionTasker通過(guò)視覺(jué)的方法做UI理解來(lái)解析和解釋用戶(hù)界面。

首先Agent識(shí)別并分析用戶(hù)界面上的元素及布局,如按鈕、文本框、文字標(biāo)簽等。

然后,將這些識(shí)別到的視覺(jué)信息轉(zhuǎn)換成自然語(yǔ)言描述,用于解釋界面內(nèi)容。

2、任務(wù)規(guī)劃與執(zhí)行

接下來(lái),Agent利用大語(yǔ)言模型導(dǎo)航,根據(jù)用戶(hù)的指令和界面描述信息做任務(wù)規(guī)劃。

將用戶(hù)任務(wù)拆解為可執(zhí)行的步驟,如點(diǎn)擊或滑動(dòng)操作,以自動(dòng)推進(jìn)任務(wù)的完成。

3、持續(xù)迭代以上過(guò)程

每一步完成后,Agent都會(huì)根據(jù)最新界面和歷史動(dòng)作更新其對(duì)話(huà)和任務(wù)規(guī)劃,確保每一步的決策都是基于當(dāng)前上下文的。

這是個(gè)迭代的過(guò)程,將持續(xù)進(jìn)行直到判斷任務(wù)完成或達(dá)到預(yù)設(shè)的限制。

用戶(hù)不僅能從交互中解放雙手,還可以通過(guò)可見(jiàn)提示監(jiān)控任務(wù)進(jìn)度,并隨時(shí)中斷任務(wù),保持對(duì)整個(gè)流程的控制。

圖片

首先是識(shí)別界面中的小部件和文本,檢測(cè)按鈕、文本框等元素及其位置。

對(duì)于沒(méi)有文本標(biāo)簽的按鈕,利用 CLIP 模型基于視覺(jué)設(shè)計(jì)來(lái)推斷其可能功能。

隨后,系統(tǒng)根據(jù) UI 布局的視覺(jué)信息進(jìn)行區(qū)塊劃分,將界面分割成多個(gè)具有不同功能的區(qū)塊,并對(duì)每個(gè)區(qū)塊生成自然語(yǔ)言描述。

這個(gè)過(guò)程還包括文本與小部件的匹配,確保正確理解每個(gè)元素的功能。

最終,所有這些信息被轉(zhuǎn)化為自然語(yǔ)言描述,為大語(yǔ)言模型提供清晰、語(yǔ)義豐富的界面信息,使其能夠有效地進(jìn)行任務(wù)規(guī)劃和自動(dòng)化操作。

實(shí)驗(yàn)評(píng)估

實(shí)驗(yàn)評(píng)估部分,該項(xiàng)目提供了對(duì)三種UI理解的比較分析,分別是:

  • GPT-4V
  • VH(視圖層級(jí))
  • VisionTasker方法
圖片

△三種UI理解方法的比較分析

對(duì)比顯示,VisionTasker在多個(gè)維度上比其他方法有顯著優(yōu)勢(shì)。

此外,在處理跨語(yǔ)言應(yīng)用時(shí)也表現(xiàn)出了良好的泛化能力。

圖片

△ 實(shí)驗(yàn)1中使用到的常見(jiàn)UI布局

表明VisionTasker的以視覺(jué)為基礎(chǔ)的UI理解方法在理解和解釋UI方面具有明顯優(yōu)勢(shì),尤其是在面對(duì)多樣化和復(fù)雜的用戶(hù)界面時(shí)尤為明顯。

圖片

△跨四個(gè)數(shù)據(jù)集的單步預(yù)測(cè)準(zhǔn)確性

文章還進(jìn)行了單步預(yù)測(cè)實(shí)驗(yàn),根據(jù)當(dāng)前的任務(wù)狀態(tài)和用戶(hù)界面,預(yù)測(cè)接下來(lái)應(yīng)該執(zhí)行的動(dòng)作或操作。

結(jié)果顯示,VisionTasker在所有數(shù)據(jù)集上的平均準(zhǔn)確率達(dá)到了67%,比基線方法提高了15%以上。

真實(shí)世界任務(wù):VisionTasker vs 人類(lèi)

實(shí)驗(yàn)過(guò)程中,研究人員設(shè)計(jì)了147個(gè)真實(shí)的多步驟任務(wù)來(lái)測(cè)試VisionTasker的表現(xiàn),這些任務(wù)涵蓋了國(guó)內(nèi)常用的42個(gè)應(yīng)用程序。

與此同時(shí),團(tuán)隊(duì)還設(shè)置了人類(lèi)對(duì)比測(cè)試,由12名人類(lèi)評(píng)估者手動(dòng)執(zhí)行這些任務(wù),然后VisionTasker的結(jié)果進(jìn)行比較。

圖片

結(jié)果顯示,VisionTasker在大多數(shù)任務(wù)中能達(dá)到與人類(lèi)相當(dāng)?shù)耐瓿陕剩⑶以谀承┎皇煜さ娜蝿?wù)中表現(xiàn)優(yōu)于人類(lèi)。

圖片

△實(shí)際任務(wù)自動(dòng)化實(shí)驗(yàn)的結(jié)果 “Ours-qwen”是指使用開(kāi)源Qwen實(shí)現(xiàn)VisionTasker框架,”O(jiān)urs”表示使用文心一言作為L(zhǎng)LM

團(tuán)隊(duì)還評(píng)估了VisionTasker在不同條件下的表現(xiàn),包括使用不同的大語(yǔ)言模型(LLM)和編程演示(PBD)機(jī)制。

VisionTasker 在大多數(shù)直觀任務(wù)中達(dá)到了與人類(lèi)相當(dāng)?shù)耐瓿陕剩谑煜と蝿?wù)中略低于人類(lèi)但在不熟悉任務(wù)中優(yōu)于人類(lèi)。

圖片△VisionTasker逐步完成任務(wù)的展示

結(jié)論

作為一個(gè)基于視覺(jué)和大模型的移動(dòng)任務(wù)自動(dòng)化框架,VisionTasker克服了現(xiàn)階段移動(dòng)任務(wù)自動(dòng)化對(duì)視圖層級(jí)結(jié)構(gòu)的依賴(lài)。

通過(guò)一系列對(duì)比實(shí)驗(yàn),證明其在用戶(hù)界面表現(xiàn)上超越了傳統(tǒng)的編程演示和視圖層級(jí)結(jié)構(gòu)方法。

它在4個(gè)不同的數(shù)據(jù)集上都展示了高效的UI表示能力,表現(xiàn)出更廣泛的應(yīng)用性;并在Android手機(jī)上的147個(gè)真實(shí)世界任務(wù)中,特別是在復(fù)雜任務(wù)的處理上,表現(xiàn)了出超越人類(lèi)的任務(wù)完成能力。

此外,通過(guò)集成編程演示(PBD)機(jī)制,VisionTasker在任務(wù)自動(dòng)化方面有顯著的性能提升。

目前,該工作已以正式論文的形式發(fā)表于2024年10月13-16日在美國(guó)匹茲堡舉行的人機(jī)交互頂級(jí)會(huì)議UIST(The ACM Symposium on User Interface Software and Technology)

UIST是人機(jī)交互領(lǐng)域?qū)W⒂谌藱C(jī)界面軟件和技術(shù)創(chuàng)新的CCF A類(lèi)頂級(jí)學(xué)術(shù)會(huì)議。

圖片

原文鏈接:https://dl.acm.org/doi/10.1145/3654777.3676386
項(xiàng)目鏈接:https://github.com/AkimotoAyako/VisionTasker

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2009-07-22 14:56:50

ERPVPNVPN加速

2016-06-27 15:55:15

移動(dòng)

2017-06-05 09:34:30

Rancher Lab容器

2010-02-04 09:35:06

戴爾移動(dòng)工作站

2015-05-07 10:47:16

安卓市場(chǎng)

2024-07-26 07:54:53

2022-06-07 09:00:32

PythonAI靜態(tài)圖片

2018-04-26 22:36:05

物聯(lián)網(wǎng)物聯(lián)網(wǎng)平臺(tái)支出

2012-02-22 16:08:17

UbuntuAndroid

2013-05-27 15:35:18

用友UAP移動(dòng)應(yīng)用移動(dòng)平臺(tái)

2015-04-21 15:05:32

海霖

2022-11-25 09:42:53

AI技術(shù)

2011-12-06 11:09:22

EPONGPON

2020-11-06 07:51:28

AI

2020-11-16 11:50:21

Python代碼命令

2010-05-04 17:45:49

自動(dòng)負(fù)載平衡

2013-02-04 12:57:32

2021-08-27 13:46:51

自動(dòng)化移動(dòng)傳輸網(wǎng)絡(luò)

2025-04-30 09:52:42

2013-04-10 18:25:07

IDF2013英特爾創(chuàng)新
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 国产精品日韩一区二区 | 国产乱码精品一区二区三区忘忧草 | 日韩精品 电影一区 亚洲 | 激情五月婷婷综合 | 久久久久久久综合色一本 | 日韩视频在线一区二区 | 观看毛片| 伊人色综合久久天天五月婷 | 亚洲人成在线播放 | 电影91久久久 | 亚洲大片在线观看 | 国产福利小视频 | 中文字幕成人在线 | 成人一区二区在线 | 一区二区三区亚洲 | 日韩精品一区二区三区中文字幕 | 国产一区二区日韩 | 国产精品99久久久久久久久 | 国产我和子的乱视频网站 | 日韩av啪啪网站大全免费观看 | 日本成人毛片 | 日本 欧美 三级 高清 视频 | 精品国产鲁一鲁一区二区张丽 | 日韩一区中文字幕 | 91麻豆精品国产91久久久久久 | 超碰在线免费av | 久久国产精品一区二区三区 | 婷婷久久一区 | 奇米在线| 久久国产精品久久久久久久久久 | 亚洲高清视频在线观看 | 国产精品一码二码三码在线 | caoporn国产 | 精品少妇一区二区三区在线播放 | 亚洲精品2区 | 日韩在线视频免费观看 | 一级特黄在线 | 中文字幕国产精品视频 | 久久久一区二区三区 | 亚洲视频免费在线播放 | av在线免费看网址 |