成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

斯坦福大學:VideoAgent基于大語言模型的視頻QA系統

發布于 2024-11-14 15:17
瀏覽
0收藏

架構

斯坦福大學:VideoAgent基于大語言模型的視頻QA系統-AI.x社區圖片

上圖是VideoAgent的概覽圖,VideoAgent通過搜索、聚合視頻信息來完成長視頻QA。整個系統包括一個核心LLM、VLM(視覺大語言模型)和CLIP工具。

作者受到人類理解長視頻的啟發,提出了VideoAgent,通過基于Agent的系統來模擬這一過程的系統。

將視頻理解過程形式化為一系列狀態、動作和觀察,其中LLM作為代理控制這個過程。首先,LLM通過瀏覽從視頻中均勻抽樣的一組幀來熟悉視頻內容的背景。在每次迭代中,LLM評估當前信息(狀態)是否足以回答問題;如果不夠,它會確定需要什么額外的信息(動作)。隨后,它利用CLIP 來檢索包含這些信息的新幀(觀察),并使用VLM將這些新幀描述為文本描述,從而更新當前狀態。這種設計強調了推理能力和迭代過程,而不是直接處理長視覺輸入,其中VLM和CLIP作為工具,使LLM能夠具有視覺理解和長上下文檢索能力。

斯坦福大學:VideoAgent基于大語言模型的視頻QA系統-AI.x社區圖片

VideoAgent的迭代過程詳細視圖。每一輪都從狀態開始,其中包括先前查看過的視頻幀。然后,大型語言模型通過回答預測和自我反思來確定后續的動作。如果需要額外的信息,就會以視頻幀的形式獲取新的觀察結果。

假設LLM確定信息不足以回答問題,并選擇搜索新信息。在這種情況下,進一步要求LLM決定需要什么額外信息,以便可以利用工具來獲得額外信息。由于視頻中某些信息可能出現多次,所以進行分段級別的檢索而不是視頻級別的檢索,以增強時間推理能力。

例如,假設問題是“男孩離開房間后在沙發上留下了什么玩具?”,并且我們在幀 i 中看到了男孩離開房間。如果我們使用查詢“顯示沙發上的玩具的幀”進行檢索,則可能在幀 i 之前存在包含“沙發上的玩具”的幀,但它們與回答問題無關。

Arxiv[1]

引用鏈接

??[1]?? Arxiv: https://arxiv.org/abs/2403.10517

本文轉載自??大語言模型論文跟蹤??,作者:HuggingAGI ????

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 日韩av在线一区 | 日本 欧美 三级 高清 视频 | 福利一区在线观看 | 国产精品一区二区在线 | 午夜在线小视频 | 蜜臀久久99精品久久久久野外 | 午夜精品一区二区三区免费视频 | 国产精品无 | 亚洲精品精品 | 国产乱码精品1区2区3区 | 午夜在线免费观看视频 | 亚洲v日韩v综合v精品v | 99精品九九| 国产在线一区观看 | 日韩精品一区二区三区在线播放 | 亚洲欧美在线一区 | 亚洲三区在线观看 | 久久精品国产亚洲a | 亚洲精品乱码久久久久久按摩观 | 欧美 视频| 国产精品高清一区二区 | 超碰97人人人人人蜜桃 | 精品小视频 | 懂色av一区二区三区在线播放 | 婷婷成人在线 | 精品一区二区三区在线观看国产 | 国产精品毛片 | 高清国产一区二区 | 一区二区高清不卡 | 午夜影晥| 色又黄又爽网站www久久 | 亚洲精品女优 | 成人在线不卡 | 天天干狠狠操 | 国产午夜精品一区二区三区四区 | 欧美精| 亚洲三级国产 | 国产特级毛片aaaaaa喷潮 | 欧美黑人国产人伦爽爽爽 | 国产美女在线观看 | www.久草.com |