成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

兩位谷歌華人研究員發(fā)布首個純視覺「移動UI理解」模型,四大任務(wù)刷新SOTA

人工智能
無需對象信息,首個純視覺UI理解解決方案!

對AI來說,「玩手機(jī)」可不是一件易事,光是識別各種用戶界面(user interface, UI)就是一大難題:不光要識別出各個組件的類型,還要根據(jù)其使用的符號、位置來判斷組件的功能。

圖片

對移動設(shè)備UI的理解,能夠幫助實(shí)現(xiàn)各種人機(jī)交互任務(wù),比如UI自動化等。

之前的工作對移動UI的建模通常依賴于屏幕的視圖層次信息,直接利用了UI的結(jié)構(gòu)數(shù)據(jù),并借此繞過了從屏幕像素開始對組件進(jìn)行識別的難題。

不過并不是所有的場景下都有可用的視圖層次,這種方法通常會因?yàn)閷ο竺枋龅娜笔Щ蚪Y(jié)構(gòu)信息的錯位而輸出錯誤結(jié)果,所以盡管使用視圖層次結(jié)構(gòu)可以提升短期性能,但最終可能會阻礙模型的適用性和泛化性能。

最近Google Research的兩位研究人員提出了一個可用于移動端UI理解的純視覺方法Spotlight,在視覺語言模型的基礎(chǔ)上,只需要將用戶界面的截圖和屏幕上的一個感興趣的區(qū)域(focus)作為輸入即可。

圖片

論文鏈接:https://arxiv.org/pdf/2209.14927.pdf

Spotlight的這種通用架構(gòu)很容易擴(kuò)展,并且能夠執(zhí)行一系列的用戶界面建模任務(wù)。

文中的實(shí)驗(yàn)結(jié)果表明,Spotlight模型在幾個有代表性的用戶界面任務(wù)上均達(dá)到了sota的性能,成功超越之前使用屏幕截圖和視圖層次結(jié)構(gòu)作為輸入的方法。

此外,文中還探索了Spotlight模型的多任務(wù)學(xué)習(xí)和few-shot提示的能力,在多任務(wù)學(xué)習(xí)方向上也展現(xiàn)出了有前景的實(shí)驗(yàn)結(jié)果。

論文作者Yang Li是谷歌研究中心的高級研究員,也是華盛頓大學(xué) CSE 的附屬教員,在中國科學(xué)院獲得計算機(jī)科學(xué)博士學(xué)位,并在加州大學(xué)伯克利分校 EECS 進(jìn)行博士后研究。他領(lǐng)導(dǎo)開發(fā)了下一個 Android 應(yīng)用程序預(yù)測,也是 Android 上在設(shè)備上交互機(jī)器學(xué)習(xí)的先驅(qū),還開發(fā)手勢搜索等。

圖片

Spotlight:理解手機(jī)界面

對用戶界面的計算理解是實(shí)現(xiàn)智能 UI 行為的關(guān)鍵一步。

在此之前,該團(tuán)隊研究過各種 UI 建模任務(wù),包括窗口標(biāo)題(widget)、屏幕摘要(screen summarization)和command grounding,這些任務(wù)解決了不同交互場景下的自動化和可訪問性問題。

后續(xù)還利用這些功能演示了機(jī)器學(xué)習(xí)如何幫助「用戶體驗(yàn)從業(yè)者」通過診斷可點(diǎn)擊性混淆來提高 UI 質(zhì)量,并為改進(jìn) UI 設(shè)計提供思路,所有這些工作與其他領(lǐng)域的工作共同展現(xiàn)了深度神經(jīng)網(wǎng)絡(luò)是如何潛在地改變終端用戶的體驗(yàn)及交互設(shè)計實(shí)踐。

圖片

雖然在處理「單個 UI 任務(wù)」時取得了一定程度上的成功,但接下來的問題是:是否能夠從「特定 UI 識別」任務(wù)中提升對「通用 UI」的處理能力。

Spotlight模型也是對這個問題的解決方案進(jìn)行的第一次嘗試,研究人員開發(fā)了一個多任務(wù)模型來同時處理一系列 UI 任務(wù),盡管工作上取得了一些進(jìn)展,但仍存在一些難題。

之前的 UI 模型嚴(yán)重依賴于 UI 視圖層次結(jié)構(gòu),也就是移動端 UI 屏幕的結(jié)構(gòu)或元數(shù)據(jù),比如網(wǎng)頁的文檔對象模型(Document Object Model),模型直接獲取屏幕上 UI 對象的詳細(xì)信息,包括類型、文本內(nèi)容和位置等。

這種元數(shù)據(jù)使得以前的模型相對于純視覺的模型來說更有優(yōu)勢,但視圖層次結(jié)構(gòu)數(shù)據(jù)的可訪問性是一大難題,對象描述缺失或結(jié)構(gòu)信息對齊不當(dāng)?shù)葐栴}經(jīng)常發(fā)生。

因此,盡管使用視圖層次結(jié)構(gòu)可以獲得短期收益,但它最終可能會阻礙模型的性能和適用性。此外,之前的模型必須處理跨數(shù)據(jù)集和跨 UI 任務(wù)的異構(gòu)信息,往往會導(dǎo)致更復(fù)雜的模型體系結(jié)構(gòu),最終難以跨任務(wù)擴(kuò)展或泛化。

Spotlight模型

純視覺的Spotlight方法旨在完全從原始像素中實(shí)現(xiàn)通用的用戶界面理解能力。

研究人員引入了一個統(tǒng)一的方法來表示不同的 UI 任務(wù),其中的信息可以通用地表示為兩種核心模式:視覺和語言,其中視覺模式捕獲用戶從 UI 屏幕上看到的內(nèi)容,語言模式可以是自然語言或任何與任務(wù)相關(guān)的token序列。

Spotlight 模型輸入為一個三元組:屏幕快照、屏幕上感興趣的區(qū)域和任務(wù)的文本描述;輸出是關(guān)于感興趣區(qū)域的文本描述或響應(yīng)。

模型的這種簡單的輸入和輸出表示更加通用,可以適用于各種 UI 任務(wù),并且可擴(kuò)展到多種模型架構(gòu)上。

圖片

模型設(shè)計上能夠進(jìn)行一系列的學(xué)習(xí)策略和設(shè)置,從特定任務(wù)的微調(diào),到多任務(wù)學(xué)習(xí)和few-shot學(xué)習(xí)。

Spotlight 模型能夠利用了現(xiàn)有的架構(gòu)構(gòu)建模塊,比如 ViT 和 T5,這些模塊在高資源的通用視覺語言領(lǐng)域中進(jìn)行了預(yù)訓(xùn)練,可以直接在這些通用領(lǐng)域模型之上進(jìn)行模型構(gòu)建。

因?yàn)?UI 任務(wù)通常與屏幕上的特定對象或區(qū)域有關(guān),模型需要能夠聚焦于對象或感興趣的區(qū)域,研究人員將焦點(diǎn)區(qū)域抽取器(Focus Region Extractor)引入到視覺語言模型中,使模型能夠根據(jù)屏幕上下文聚焦于該區(qū)域。

研究人員還設(shè)計了一個區(qū)域總結(jié)器(Region Summarizer),通過使用區(qū)域邊界框生成的注意力query來獲得基于 ViT 編碼的屏幕區(qū)域的潛在表征。

具體來說,就是每個坐標(biāo)(標(biāo)量值,包括左,上,右或底部)的邊界框,在屏幕截圖中表示為黃色框。

首先通過一個多層感知機(jī)(MLP)將輸入轉(zhuǎn)換為作為一個稠密向量的集合,然后反饋給Transformer模型,根據(jù)坐標(biāo)類型獲取嵌入向量(coordinate-type embedding),對稠密向量及其相應(yīng)的坐標(biāo)類型嵌入進(jìn)行顏色編碼,以表明它們與每個坐標(biāo)值之間的關(guān)系。

圖片

然后坐標(biāo)查詢(Coordinate queries)通過「交叉注意力」參與 ViT 輸出的屏幕編碼,最終Transformer的注意力輸出被用作 T5下游解碼的區(qū)域表示。

實(shí)驗(yàn)結(jié)果

研究人員使用兩個沒有無標(biāo)簽的(unlabeled)數(shù)據(jù)集對Spotlight模型進(jìn)行預(yù)訓(xùn)練,分別是基于 C4語料庫的內(nèi)部數(shù)據(jù)集和一個內(nèi)部移動數(shù)據(jù)集,總共包含250萬個移動 UI 屏幕和8000萬個網(wǎng)頁。

然后分別針對四個下游任務(wù),標(biāo)題、摘要、grouding和可點(diǎn)擊性,對預(yù)訓(xùn)練后的模型進(jìn)行微調(diào)。

對于窗口標(biāo)題(widget captioning)和屏幕摘要任務(wù),使用CIDEr指標(biāo)來衡量模型文本描述與評分者創(chuàng)建的一組參考的相似程度;對于command grounding任務(wù),準(zhǔn)確率指標(biāo)為模型響應(yīng)用戶命令成功定位目標(biāo)對象的百分比;對于可點(diǎn)擊性預(yù)測,使用 F1分?jǐn)?shù)來衡量模型區(qū)分可點(diǎn)擊對象和不可點(diǎn)擊對象的能力。

實(shí)驗(yàn)中,將 Spotlight 與幾個基準(zhǔn)模型進(jìn)行了比較:WidgetCaption 使用視圖層次結(jié)構(gòu)和每個 UI 對象的圖像為對象生成文本描述;Screen2Words 使用視圖層次結(jié)構(gòu)和屏幕截圖以及輔助功能(例如,應(yīng)用程序描述)來為屏幕生成摘要;VUT 結(jié)合了屏幕截圖和視圖層次結(jié)構(gòu)來執(zhí)行多個任務(wù);原始的 Tappability 模型利用來自視圖層次結(jié)構(gòu)的對象元數(shù)據(jù)和屏幕快照來預(yù)測對象的 Tappability.

Spotlight 在四個 UI 建模任務(wù)中大大超越了之前的sota模型。

圖片

在一個更有難度的任務(wù)設(shè)置中,要求模型同時學(xué)習(xí)多個任務(wù),因?yàn)槎嗳蝿?wù)模型可以極大減少模型的能源消耗(model footprint),結(jié)果表明,Spotlight模型的性能仍然具有競爭力。

圖片

為了理解區(qū)域總結(jié)器(Region Summarizer)如何使 Spotlight 能夠聚焦于屏幕上的目標(biāo)區(qū)域和相關(guān)區(qū)域,研究人員分析了窗口標(biāo)題和屏幕總結(jié)任務(wù)的注意力權(quán)重,能夠指示出模型注意力在屏幕截圖上的位置。

圖片

在下圖中,對于窗口標(biāo)題任務(wù),模型在預(yù)測「選擇切爾西隊」(select Chelsea team)時,左側(cè)的復(fù)選框用紅色邊框突出顯示,可以從右邊的注意力熱力圖中看到,模型不僅學(xué)會了注意復(fù)選框的目標(biāo)區(qū)域,還學(xué)會了關(guān)注最左邊的文本「Chelsea」來生成標(biāo)題。

圖片

對于屏幕摘要任務(wù),模型預(yù)測「頁面顯示一個學(xué)習(xí)應(yīng)用程序的教程」(page displaying the tutorial of a learning app),并給出左側(cè)的截圖,示例中,目標(biāo)區(qū)域是整個屏幕,模型可以學(xué)習(xí)處理屏幕上的重要部分以進(jìn)行摘要。

參考資料:

??https://ai.googleblog.com/2023/02/a-vision-language-approach-for.html??

責(zé)任編輯:武曉燕 來源: 新智元
相關(guān)推薦

2021-06-29 15:33:28

谷歌Transformer模型

2023-08-02 12:52:02

谷歌模型

2016-11-13 23:11:15

2022-06-15 18:57:43

人工智能

2022-02-07 15:05:07

模型AI訓(xùn)練

2022-06-06 10:58:52

訓(xùn)練DeepMind研究

2020-12-23 17:50:46

AI語言模型AI倫理

2019-08-01 08:15:06

機(jī)器學(xué)習(xí)谷歌算法

2020-09-21 14:25:26

Google 開源技術(shù)

2024-03-05 09:22:36

2023-09-25 12:27:24

研究數(shù)據(jù)

2025-05-27 15:35:02

大模型技術(shù)AI

2013-12-09 10:38:08

程序員任務(wù)

2020-03-18 20:09:22

GitHub移動APP手機(jī)端

2010-09-28 10:09:35

DOM對象模型

2025-05-26 08:54:00

2015-07-06 15:15:50

移動OA

2010-09-01 11:01:02

iUIjQTouchSencha Touc
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 日本欧美在线观看视频 | 男人天堂午夜 | 久久精品视频一区二区 | 一级毛片免费 | 2022精品国偷自产免费观看 | 亚洲啪啪| heyzo在线 | 日本不卡一区 | 久久综合久久久 | yeyeav| 国产精品一区二区av | 午夜视频一区二区三区 | av性色全交蜜桃成熟时 | 欧美一级在线观看 | 天天艹逼网 | 福利视频网 | 夜夜爽99久久国产综合精品女不卡 | 亚洲综合大片69999 | 国产视频91在线 | 久久国产一区二区三区 | 国产精品亚洲精品久久 | 一区二区三区不卡视频 | 日韩在线免费视频 | 天天影视色综合 | 国产视频91在线 | 亚洲 中文 欧美 日韩 在线观看 | 中国av在线免费观看 | 高清久久 | 久久99精品久久久久久噜噜 | 日韩一区二区在线视频 | 韩日一区二区三区 | 久久精品日 | 欧美自拍另类 | 69堂永久69tangcom | 亚洲精品久久国产高清情趣图文 | 欧美日韩在线免费 | 91免费看片 | 日本黄色大片免费 | 欧美日韩国产精品激情在线播放 | 日韩超碰在线 | 黄色永久免费 |