成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

超越GPT-4V,蘋果多模態大模型上新!

發布于 2024-4-11 09:45
瀏覽
0收藏

一句話Siri就能幫忙打開美團外賣下訂單的日子看來不遠啦!


4月8日,蘋果發布了其最新的多模態大語言模型(MLLM )——Ferret-UI,能夠更有效地理解和與屏幕信息進行交互,在所有基本UI任務上都超過了GPT-4V!

超越GPT-4V,蘋果多模態大模型上新!-AI.x社區

論文地址:??https://arxiv.org/pdf/2404.05719.pdf??


雖然蘋果前段時間經歷了泰坦項目的沉沒,但看目前的形式,這是又要開卷的節奏呀~

超越GPT-4V,蘋果多模態大模型上新!-AI.x社區

不少人十分期待,這項技術如果在蘋果的Siri上,Siri豈不是要變得聰明絕頂了!

超越GPT-4V,蘋果多模態大模型上新!-AI.x社區

眾所周知,通用域多模態大型語言模型(MLLM )在理解和有效交互的能力方面往往不足。


而Ferret-UI被稱之為是一種新的MLLM,專為理解移動UI屏幕而量身定制,具備指向、定位和推理等多種能力。


Ferret-UI能夠通過靈活的輸入格式(點、框、涂鴉)和基礎任務(例如:查找小部件、查找圖標、查找文本、小部件列表)在移動用戶界面屏幕上執行引用任務(例如:小部件分類、圖標識別、OCR) )。


Ferret-UI的一個關鍵特點是「任何分辨率」(anyres),該技術通過放大細節來解決UI屏幕中小型對象的識別問題,從而提高模型對UI元素的理解精度。


這些基本任務為模型提供了豐富的視覺和空間知識,使其能夠在粗略和精細級別上區分 UI 類型, 例如區分各種圖標或文本元素。


具體來說,Ferret-UI 不僅能夠在詳細描述和感知對話中討論視覺元素, 還能在交互對話中提出目標導向的動作并通過函數推理來推斷屏幕的整體功能。

超越GPT-4V,蘋果多模態大模型上新!-AI.x社區

網友直呼:泰褲辣!

超越GPT-4V,蘋果多模態大模型上新!-AI.x社區

雖然Ferret-UI-base緊密遵循Ferret的架構,但Ferret-UI-anyres融入了額外的細粒度圖像功能。


特別是,預先訓練的圖像編碼器和投影層可以為整個屏幕生成圖像特征,對于基于原始圖像長寬比獲得的每個子圖像,生成附加圖像特征。

超越GPT-4V,蘋果多模態大模型上新!-AI.x社區

為了增強模型的推理能力, 研究人員編譯了用于高級任務的數據集,包括詳細描述、 感知/交互對話和函數推理。


在基礎任務性能的比較上, Ferret-UI展現出了對UI屏幕的出色理解能力以及執行開放式指令的能力,表現可謂亮眼!

超越GPT-4V,蘋果多模態大模型上新!-AI.x社區

掌握應用程序屏幕并使AI像人類一樣進行交互,蘋果未來或許將改變MLLM的游戲規則!

論文細節

方法

Ferret-UI建立在Ferret的基礎上。


Ferret是一種MLLM,擅長在形狀和細節各異的自然圖像中進行空間參照和定位。

超越GPT-4V,蘋果多模態大模型上新!-AI.x社區

它可以解釋區域或對象并與之交互,無論這些區域或對象被指定為任何自由形狀(點、方框等)。


它包含一個預先訓練好的視覺編碼器和一個純解碼器語言模型,并采用一種獨特的混合表示技術,將指定區域轉換為適合LLM處理的格式。


為了向Ferret灌輸UI專業知識,他們對Ferret-UI進行了兩個擴展:

1. UI參照和定位的定義與構建

2. 模型架構調整以更好地處理屏幕數據

與之前需要外部檢測模塊或屏幕視圖文件的MLLM不同, Ferret-UI 是自給自足的。


它將原始屏幕像素作為模型輸入,這種方法不僅促進了高級單屏交互,還為新應用程序鋪平道路,例如:提高可訪問性。

數據集

他們對iPhone和安卓設備的屏幕進行了研究。


對于安卓屏幕,研究人員使用RICO數據集的一個子集,具體來說,他們考慮了Spotlight中的任務,其數據是公開的,包括 screen2words、widgetcaptions 和 taperception。


對于iPhone屏幕,研究人員使用AMP數據集,它涵蓋了廣泛的應用程序。

超越GPT-4V,蘋果多模態大模型上新!-AI.x社區

在收集 Android 和 iPhone 屏幕后,他們使用預先訓練好的基于像素的UI檢測模型進一步從屏幕收集細粒度元素注 釋。


對于每個檢測到的用戶界面元素,輸出結果都包括用戶界面類型(按鈕、文本、圖標、圖片等)、相應的邊界框,以及由Apple Vision Framework識別的顯示在其上的文本(如果有的話)。


任務制定

?

首先從現有的Spotlight任務中獲取screen2words、widgetcaptions和taperception,并將它們格式化為會話QA 對。


對于每個訓練示例,他們都會對相應任務的提示進行采樣,并將其與原始源圖像和真實答案配對。


基礎任務數據生成


除了Spotlight任務之外,他們將referring任務定義為輸入中帶有邊界框的任務,而基礎任務則是輸出中帶有邊界框的任務。


對于每個任務,他們還使用GPT-3.5 Turbo來擴展基本提示以引入任務問題的變體。

數據生成的詳細信息如下圖所示。

超越GPT-4V,蘋果多模態大模型上新!-AI.x社區

高級任務數據生成


為了將推理能力融入到該模型中,他們使用LLaVA方法,并用GPT-4收集另外4種格式的數據。


首先對檢測輸出中的邊界框坐標進行標準化,然后將檢測、提示和可選的一次性示例發送到GPT-4。


為了詳細描述和功能推理,他們將生成的響應與預選的提示配對來訓練Ferret-UI。


下圖說明了高級任務的訓練數據生成過程。

超越GPT-4V,蘋果多模態大模型上新!-AI.x社區

以上數據的生成主要為4個任務,分別是:詳細描述、對話感知、對話交互和功能推理。


其中,他們擴展了詳細描述和函數推理的基本提示,將它們與GPT-4響應配對,作為模型訓練中的輸入數據。


對于對話任務,他們為GPT-4提供了一個上下文示例,以更好地遵循其輸出中的邊界框格式。

實驗結果

初級任務的性能細分如下表所示。

超越GPT-4V,蘋果多模態大模型上新!-AI.x社區

可以看到,與Spotlight相比,Ferret-UI在S2W和 WiC方面表現出了優越的性能,盡管Spotlight使用了80M網頁截圖和269M手機截圖進行預訓練。Ferret-UI性能雖然低于TaP,但仍然具有競爭力。


高級任務性能的結果如下表所示。

超越GPT-4V,蘋果多模態大模型上新!-AI.x社區

盡管Ferret-UI的訓練數據 集中缺少Android特定數據,但它在兩個平臺的高級任務上都表現出了值得稱贊的性能。


這表明用戶界面知識在不同操作系統之間具有顯著的可轉移性。


消融研究


研究發現,當僅使用高級任務數據,兩個平臺的性能均為64%。添加iPhone或Android基本任務 后,iPhone上高級任務的性能持續提高5%。


同樣,從iPhone添加基本任務可將Android在高級任務上的性能提高約4%,而合并Android基本任務可將這一性能提高9%。


包含iPhone和Android基本任務后,iPhone 和 Android 高級任務的性能分別進一步提高了3%和5%,超出了單組基本任務所帶來的改進。


這些觀察結果支持他們的假設,即:基本任務為模型提供了增強的視覺和空間理解,從而促進了高級任務。

超越GPT-4V,蘋果多模態大模型上新!-AI.x社區

為了探索不同數據配置對Spotlight Tasks性能的影響,他們特別研究了添加初級任務數據是否能提高模型性能,因為這些任務的目的是為了提高對屏幕的視覺和空間理解能力。


如下表所示,添加基本任務數據(無論是僅來自Android、iPhone還是兩者的組合)都不會顯著改變三個Spotlight任務的性能。

超越GPT-4V,蘋果多模態大模型上新!-AI.x社區

在分析Ferret-UI 的參照功能時,他們特別關注OCR和小部件分類預測,如下圖所示。

超越GPT-4V,蘋果多模態大模型上新!-AI.x社區

OCR分析揭示了三個值得注意的觀察結果:


1. 模型預測相鄰文本而不是目標區域中的文本

2. 該模型表現出預測實際單詞的傾向,而不僅僅是破譯屏幕上顯示的字符。

3.Ferret-UI展示了準確預測部分被截斷的文本的能力,即使在OCR模型返回不正確文本的情況下也是如此。


本文轉自 新智元 ,作者:新智元


原文鏈接:??https://mp.weixin.qq.com/s/CXJ1ROgt1Si2CRV85EsAPQ??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 性色的免费视频 | 九九精品久久久 | 中文字幕观看 | 天天射天天干 | 欧美久久一区二区 | 91免费版在线观看 | 久久久爽爽爽美女图片 | 一级片网站视频 | 欧美最猛性xxxxx亚洲精品 | 国产福利91精品 | 日韩精品 电影一区 亚洲 | 在线看91 | 国产成人午夜高潮毛片 | 欧美一级二级在线观看 | 国产婷婷在线视频 | 久草青青草 | 日本一区二区三区四区 | 成人国产精品久久久 | 四虎影院免费在线 | 免费一区二区 | 免费观看一区二区三区毛片 | 欧美天堂 | 亚洲精品久久久久久久久久久 | 国产精品91久久久久久 | 国产一区二区精品在线观看 | 日本国产高清 | 亚洲品质自拍视频 | 一区二区福利视频 | 日韩中文字幕在线播放 | 日韩久久久久久 | 91免费观看国产 | 免费的色网站 | 亚洲天堂av在线 | 亚洲精品二区 | 91久久精品国产免费一区 | 亚洲九色| 精品视频网| 亚洲激情在线观看 | 日韩欧美精品 | 狠狠干天天干 | 99热这里都是精品 |