成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

「知識型圖像問答」微調也沒用?谷歌發布搜索系統AVIS:少樣本超越有監督PALI,準確率提升三倍

人工智能 新聞
知識無法完全編入模型參數,學會搜索也是AI的必備技能!最近谷歌發表了一個全新的自主視覺信息搜索方法AVIS,利用大型語言模型(LLM)來動態地制定外部工具的使用策略,包括調用API、分析輸出結果、決策等操作為圖像問答提供關鍵知識。

在大型語言模型(LLM)的加持下,與視覺結合的多模態任務,如圖像描述、視覺問答(VQA)和開放詞匯目標識別(open-vocabulary object detection)等都取得了重大進展。

不過目前視覺語言模型(VLM)基本都只是利用圖像內的視覺信息來完成任務,在inforseek和OK-VQA等需要外部知識輔助問答的數據集上往往表現不佳。

最近谷歌發表了一個全新的自主視覺信息搜索方法AVIS,利用大型語言模型(LLM)來動態地制定外部工具的使用策略,包括調用API、分析輸出結果、決策等操作為圖像問答提供關鍵知識。

圖片

論文鏈接:https://arxiv.org/pdf/2306.08129.pdf

AVIS主要集成了三種類型的工具:

1. 從圖像中提取視覺信息的工具

2. 檢索開放世界知識和事實的網絡搜索工具

3. 檢索視覺上相似的圖像搜索工具

然后使用基于大型語言模型的規劃器在每個步驟中選擇一個工具和查詢結果,動態地生成問題答案。

模擬人類決策

Infoseek和OK-VQA數據集中的許多視覺問題甚至對人類來說都相當難,通常需要各種外部工具的輔助,所以研究人員選擇先進行一項用戶調研,觀察人類在解決復雜視覺問題時的解決方案。

首先為用戶配備一組可用的工具集,包括PALI,PALM和網絡搜索,然后展示輸入圖像、問題、檢測到的物體裁剪圖、圖像搜索結果的鏈接知識圖譜實體、相似的圖像標題、相關的產品標題以及圖像描述。

然后研究人員對用戶的操作和輸出進行記錄,并通過兩種方式來引導系統做出回答:

1. 通過分析用戶做出的決策序列來構建轉換圖,其中包含不同的狀態,每個狀態下的可用操作集都不同。

AVIS轉換圖

例如在開始狀態下,系統只能執行三個操作:PALI描述、PALI VQA或目標檢測。

2. 使用人類決策的樣例來引導規劃器(planner)和推理器(reasoner)與相關的上下文實例,來提高系統的性能和有效性。

總體框架

AVIS方法采用了一個動態的決策策略,旨在響應視覺信息尋求查詢。

該系統有三個主要組成部分:

1. 規劃器(planner),用來確定后續操作,包括適當的API調用以及需要處理的查詢。

2. 運行記憶(working memory)工作內存,保留了從API執行中獲得的結果信息。

3. 推理器(reasoner),用來處理API調用的輸出,可以確定所獲得的信息是否足以產生最終響應,或者是否需要額外的數據檢索。

每次需要決定使用哪個工具以及向系統發送哪些查詢時,規劃器都要執行一系列操作;基于當前狀態,規劃器還會提供潛在的后續動作。

為了解決由于潛在的動作空間可能過多,導致搜索空間過大的問題,規劃器需要參考轉換圖來消除不相關的動作,排除之前已經采取并存儲在工作記憶中的動作。

圖片

然后由規劃器從用戶研究數據中組裝出一套上下文示例,結合之前工具交互的記錄,由規劃器制定提示后輸入到語言模型中,LLM再返回一個結構化的答案,確定要激活的下一個工具以及派發的查詢。

整個設計流程可以多次調用規劃器,從而促進動態決策,逐步生成答案。

圖片

研究人員使用推理器來分析工具執行的輸出,提取有用的信息,并決定工具輸出哪個類別:提供信息的、不提供信息的或最終答案。

如果推理器返回結果是「提供答案」,則直接輸出作為最終結果,結束任務;如果結果是無信息,則退回規劃器,并基于當前狀態選擇另一個動作;如果推理器認為工具輸出是有用的,則修改狀態并將控制權轉移回規劃器,以在新狀態下做出新的決定。

AVIS采用動態決策策略來響應視覺信息搜索查詢

實驗結果

工具集合

圖像描述模型,使用PALI 17B模型為輸入圖像和檢測到的物體裁剪圖像生成描述。

視覺問題回答模型,使用 PALI 17B VQA 模型,將圖像和問題作為輸入,并將基于文本的答案作為輸出。

物體檢測,使用在Open Images數據集的超集上訓練的物體檢測器,具體類別Google Lens API提供;使用高置信度閾值,只保留 輸入圖像中排名靠前的檢測框。

圖像搜索,利用Google Image Search來獲取與檢測到的方框的圖像裁剪相關的信息。

在進行決策時,規劃器將每條信息的利用都視為一項單獨的操作,因為每條信息可能包含數百個token,需要進行復雜的處理和推理。

OCR,在某些情況下,圖像可能包含文字內容,如街道名稱或品牌名稱,使用Google Lens API 中的光學字符識別(OCR)功能獲取文本。

網絡搜索,使用谷歌搜索API,輸入為文本查詢,輸出包括相關文檔鏈接和片段、提供直接答案的知識圖譜面板、最多五個與輸入查詢相關的問題。

實驗結果

研究人員在Infoseek和OK-VQA數據集上對AVIS框架進行了評估,從結果中可以看到,即使是健壯性非常好的視覺語言模型,如OFA和PALI模型,在Infoseek數據集上進行微調后也無法獲得高準確性。

而AVIS方法在沒有微調的情況下,就實現了50.7%的準確率。

在OK-VQA數據集上,AVIS系統在few-shot設置下實現了60.2%的準確率,僅次于微調后的PALI模型。

性能上的差異可能是由于OK-VQA中的大多數問答示例依賴于常識知識而非細粒度知識,所以PALI能夠利用到在模型參數中編碼的通用知識,不需要外部知識的輔助。

AVIS的一個關鍵特性是能夠動態地做出決策,而非執行固定的序列,從上面的樣例中可以看出AVIS在不同階段使用不同工具的靈活性。

值得注意的是,文中推理器設計使AVIS能夠識別不相關的信息,回溯到以前的狀態,并重復搜索。

例如,在關于真菌分類學的第二個例子中,AVIS最初通過選擇葉子對象做出了錯誤的決定;推理器發現與問題無關后,促使AVIS重新規劃,然后成功地選擇了與假火雞尾真菌有關的對象,從而得出了正確的答案,Stereum

結論

研究人員提出了一種新的方法AVIS,將LLM作為裝配中心,使用各種外部工具來回答知識密集型的視覺問題。

在該方法中,研究人員選擇錨定在從用戶研究中收集的人類決策數據,采用結構化的框架,使用一個基于LLM的規劃器,動態地決定工具選擇和查詢形成。

LLM驅動的推理器可以從所選工具的輸出中處理和提取關鍵信息,迭代地使用規劃器和推理器來選擇不同的工具,直到收集出回答視覺問題所需的所有必要信息。

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-10-28 13:36:48

模型ChatGPT

2024-03-01 13:31:21

2024-03-15 15:15:31

模型訓練

2024-11-21 10:21:06

2022-09-25 17:07:27

訓練圖像

2018-11-26 12:29:27

2019-01-03 09:04:04

谷歌系統機器

2021-10-11 17:27:50

框架計算機開發

2024-06-06 10:08:32

2018-11-14 10:01:30

谷歌開源機器學習

2014-07-17 14:08:37

阿里云

2023-03-03 18:31:23

網絡承運商路由

2022-04-09 10:16:52

神經網絡深度學習AI

2020-05-28 13:20:49

算法谷歌性能

2024-09-12 13:50:00

模型訓練

2023-10-19 08:30:56

模型搜索

2024-08-02 13:14:51

2025-05-21 13:56:37

模型圖像AI

2009-05-11 18:40:31

內存寶德機架

2022-04-13 10:31:04

微軟Jigsaw大型語言模型
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 精品国产欧美一区二区三区成人 | 精品欧美一区二区三区久久久 | 日日夜夜免费精品 | 国产精品久久久久久久久久 | 国产片侵犯亲女视频播放 | 蜜桃视频在线观看免费视频网站www | 国产精品久久久久久久毛片 | 五月婷六月丁香 | 一区二区久久 | 正在播放国产精品 | 国产在线中文字幕 | 亚洲电影中文字幕 | 黄色大片免费网站 | 国产精品日韩欧美一区二区三区 | 丝袜美腿av| 天天天天操| 国产98色在线 | 日韩 | 久久精品综合 | 久久国产一区二区 | 国产99久久久久 | 亚洲欧美中文字幕在线观看 | 日批免费观看 | 久久久久国产精品一区二区 | 久久www免费人成看片高清 | 日本一区二区高清视频 | 亚洲三区在线观看 | 日韩在线不卡 | 国产免费一区二区 | 国产精品亚洲精品日韩已方 | 在线亚洲人成电影网站色www | 亚洲福利在线观看 | 成人美女免费网站视频 | 精品一区二区三区免费视频 | 日本精品免费在线观看 | 网站国产| 色橹橹欧美在线观看视频高清 | www.99久久.com | 国产免费一区二区三区 | 91porn在线| 国产一区二区三区四区三区四 | 欧美一区二区三区精品 |