成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Llama都在用的RoPE有了視頻版,復旦上海AI Lab等提出長視頻理解/檢索絕佳拍檔

人工智能
本文確定了有效位置編碼的四個關鍵標準:2D/3D結構、頻率分配、空間對稱性和時間索引縮放。通過V-NIAH-D任務,作者展示了先前RoPE變體因缺乏適當的時間分配而易受干擾。

Llama都在用的RoPE(旋轉位置嵌入)被擴展到視頻領域,長視頻理解和檢索更強了。

復旦大學、上海AI實驗室等提出VideoRoPE,并確定了將RoPE有效應用于視頻所需的四個關鍵特性。

在長視頻檢索、視頻理解和視頻幻覺等各種下游任務中,VideoRoPE始終優于先前的RoPE變體。

圖片圖片

用三維結構保留時空關系

RoPE是一種能夠將相對位置信息依賴集成到self-attention中并提升transformer架構性能的位置編碼方式。

RoPE及其變體因其長上下文處理能力而被廣泛采用,但將一維RoPE擴展到具有復雜時空結構的視頻領域仍然是一個懸而未決的挑戰。

作為分析的一部分,這項工作引入了一個具有挑戰性的V-NIAH-D(帶干擾項的視覺大海撈針)任務,該任務在V-NIAH任務的基礎上增加了周期性干擾項。

V-NIAH-D任務表明,先前缺乏適當時間維度分配的RoPE變體很容易被干擾項誤導。基于分析,作者提出了VideoRoPE,它具有三維結構,旨在保留時空關系

VideoRoPE的特點包括低頻時間分配以減輕周期性碰撞、對角布局以保持空間對稱性,以及可調整的時間間隔以解耦時間和空間索引。

圖片圖片

左圖:為了展示頻率分配的重要性,基于VIAH(a),作者提出了一個更具挑戰性的V-NIAH-D任務(b),其中插入了相似圖像作為干擾項。

右圖:與M-RoPE相比,VideoRoPE在檢索中更具魯棒性,并且不容易受到干擾項的影響。

圖片圖片

上圖:M-RoPE的時間維度局限于局部信息,導致對角線布局。

下圖:VideoRoPE有效利用時間維度進行檢索。

M-RoPE在定位目標圖像上有效,但在多選問題中表現不佳,因為它主要通過垂直位置編碼來定位圖像,而非時間特征,導致時間維度未能捕捉長距離依賴關系,關注局部信息。相比之下,空間維度則捕捉長距離語義信息,導致M-RoPE在頻率分配設計上表現較差。

VideoRoPE設計

作者團隊提出了VideoRoPE,一種視頻位置嵌入策略,優先考慮時間建模,通過低頻時間分配(LTA)減少振蕩并確保魯棒性。它采用對角線布局(DL)以保持空間對稱性,并引入可調時間間隔(ATS)來控制時間間隔。VideoRoPE有效地建模了時空信息,從而實現了魯棒的視頻位置表示。

1、低頻時間分配(LTA):

考慮一個基于RoPE的LLM,頭部維度為128,對應64個旋轉角度θn,分布在不同維度上。每個圖示中,用平行的藍色平面表示cos(θnt)在3維上的表現。

(a)對于M-RoPE,時間依賴性由前16個高頻旋轉角度建模,導致振蕩和位置信息失真。低維度間隔較短,振蕩周期性使得遠距離位置可能具有相似信息,類似哈希碰撞(如紅色平面所示),容易引發干擾,誤導模型。

(b)相比之下,VideoRoPE通過最后16個旋轉角度建模時間依賴性,具有更寬的單調間隔。時間建模不再受振蕩影響,顯著抑制了干擾項的誤導效應。
2、對角線布局(DL):

圖片圖片

原始1D RoPE(Su et al., 2024)未包含空間建模。M-RoPE(Wang et al., 2024b)雖然采用3D結構,但引入了不同幀間視覺標記索引的差異。

相比之下,VideoRoPE實現了平衡,保留了原始RoPE一致的索引增長模式,并引入了空間建模。優點包括:1)保留視覺標記的相對位置,避免文本標記過于接近角落;2)保持原始RoPE編碼形式,相鄰幀的空間位置信息增量與文本標記增量一致。

3、可調時間間隔(ATS):

為了縮放時間索引,作者團隊引入縮放因子δ來對齊視覺和文本標記之間的時間信息。假設τ為標記索引,起始文本(0≤τ<Ts)的時間、水平和垂直索引為原始標記索引τ。對于視頻輸入(Ts≤τ<Ts+Tv),τ?Ts表示當前幀相對于視頻開始的索引,通過δ縮放控制時間間距。

對于結束文本(Ts+Tv≤τ<Ts+Tv+Te),時間、水平和垂直索引保持不變,形成線性進展。根據可調節的時間間距設計,視頻位置編碼(VideoRoPE)中τ-th文本標記或(τ,w,h)-th視覺標記的位置信息(t,x,y)如式(7)所示。

其中,w和h分別表示視覺塊在幀中的水平和垂直索引。

相鄰文本標記的位置信息嵌入對于Vanilla RoPE(頂部行)、相鄰幀中對應的視覺標記對于M-RoPE(中間行)以及我們設計的帶有交錯水平垂直排布和時間維度放后面設計的VideoRoPE(底部行)。

優于其他RoPE變體

長視頻檢索任務:

作者團隊展示了VideoRoPE與其他RoPE變體在V-NIAH和V-NIAH-D上的性能。V-NIAH-D比V-NIAH更具挑戰性。Vanilla RoPE和TAD-RoPE在視覺訓練上下文外具備一定外推能力,但超出極限后失效。相比之下,VideoRoPE和M-RoPE在測試上下文內表現優越,且VideoRoPE始終優于M-RoPE,展現出更強魯棒性。

長視頻理解任務:

如表所示,作者團隊在三個長視頻理解基準上比較了VideoRoPE與現有RoPE變體(Vanilla RoPE、TAD-RoPE和M-RoPE)。VideoRoPE在這些基準上優于所有基線方法,展示了其魯棒性和適應性。在LongVideoBench、MLVU和Video-MME上,VideoRoPE在64k上下文長度下分別比M-RoPE提高了2.91、4.46和1.66分,突顯了其在捕捉長距離依賴關系和處理具有挑戰性的視頻任務中的卓越能力。

視頻幻覺任務:

在VideoHallucer基準測試中,作者團隊的VideoRoPE顯著優于現有RoPE方法。特別是在時間幻覺任務中,VideoRoPE提升了29.5%,展示了更強的時間依賴關系捕捉能力,適合處理動態視頻序列。在空間方面,VideoRoPE在對象-關系幻覺任務中提升了18.0%,突顯了其辨識復雜空間交互的能力。這些結果強調了VideoRoPE在視頻幻覺問題上的魯棒性和實際應用潛力。

總結

本文確定了有效位置編碼的四個關鍵標準:2D/3D結構、頻率分配、空間對稱性和時間索引縮放。通過V-NIAH-D任務,作者展示了先前RoPE變體因缺乏適當的時間分配而易受干擾。

因此,提出了VideoRoPE,采用3D結構保持時空一致性,低頻時間分配減少振蕩,對角布局實現空間對稱性,并引入可調節時間間距。VideoRoPE在長視頻檢索、視頻理解和視頻幻覺任務中優于其他RoPE變體。

Paper:https://arxiv.org/pdf/2502.05173
Project Page:https://wiselnn570.github.io/VideoRoPE/
Code:https://github.com/Wiselnn570/VideoRoPE/

責任編輯:武曉燕 來源: 量子位
相關推薦

2022-09-30 15:15:41

模型框架

2025-05-09 08:19:00

2024-09-23 15:40:00

2025-01-03 12:00:00

AI檢測模型

2024-08-30 12:58:43

AI多模態技術

2024-11-05 14:20:00

AI模型

2025-04-07 07:55:00

視頻訓練生成

2025-04-15 09:08:51

系統數據模型

2024-03-11 00:50:00

AI框架數據

2024-01-08 13:42:00

模型訓練

2023-10-23 12:43:05

模型訓練

2024-06-04 09:48:14

自動駕駛模型

2021-09-07 16:15:07

微信視頻號移動應用

2024-03-25 07:45:00

AI視頻

2025-04-10 09:38:37

2023-12-09 09:44:07

MetaFacebook開源

2024-03-14 08:11:45

模型RoPELlama

2024-12-26 07:20:00

2024-07-15 08:58:00

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 中文精品视频 | av午夜电影| 久久精品国产99国产精品 | 精精国产xxxx视频在线播放7 | 久久精品色欧美aⅴ一区二区 | 视频一区 亚洲 | 97av视频在线观看 | 国产视频久久久久 | 日韩一级免费观看 | 精品中文在线 | 天堂在线免费视频 | 91精品国产一区二区三区 | zzzwww在线看片免费 | 夜夜夜夜夜夜曰天天天 | www久久久 | 亚洲精品电影 | 自拍视频国产 | 亚洲精品在线免费看 | 欧美一级特黄aaa大片在线观看 | 亚洲成人精品 | 黄网站涩免费蜜桃网站 | 精品国产久 | 日日日操| 日本视频一区二区三区 | 亚洲人va欧美va人人爽 | 国产精品99免费视频 | 6996成人影院网在线播放 | 国产大毛片 | 黄色一级大片在线免费看产 | 日韩国产欧美视频 | 中文字幕在线精品 | 热久色 | av色噜噜 | 国产精品二区三区 | 久久久久国产成人精品亚洲午夜 | 日韩在线一区二区 | 亚洲天堂日韩精品 | 黄色一级片视频 | 国产精品一区二区三区免费观看 | 日本一区二区三区四区 | 日韩一二三区视频 |