成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

視頻大模型無損提速:刪除多余token,訓練時間減少30%,幀率越高效果越好 | NeurIPS

人工智能 新聞
卡內基梅隆大學提出了視頻大模型加速方法Run-Length Tokenization(RLT),被NeurIPS 2024選為Spotlight論文。

Don’t look twice!

把連續相同的圖像塊合并成一個token,就能讓Transformer的視頻處理速度大幅提升。

卡內基梅隆大學提出了視頻大模型加速方法Run-Length Tokenization(RLT),被NeurIPS 2024選為Spotlight論文。

精度幾乎沒有損失的前提下,RLT可以讓模型訓練和推理速度雙雙提升

圖片

一般情況下,利用RLT,Transformer視頻識別模型的訓練時間可縮短30%,推理階段提速率提升更是可達67%

對于高幀率和長視頻,RLT的效果更加明顯,30fps視頻的訓練速度可提升1倍,長視頻訓練token減少80%

相比于傳統的剪枝方法,RLT能用更小的精度損失實現更好的加速效果。

有人想到了電視劇中的評論,認為這項研究找到了在壓縮空間中進行搜索的方法。

圖片

DeepMind科學家Sander Dieleman則評價稱,這項研究是一種“非主流”(Off-the-grid)的創新方法,但比起其他復雜的非主流研究,又顯得非常簡潔。

圖片

重復圖像塊合為一個token

RLT的核心原理,是利用視頻中存在大量時間上重復的圖像塊這一特點,將重復的圖像塊合并為一個token表示

這種情況下,還需要用一個位置編碼來表示這個token的長度,但RLT總體上減少了輸入的token數量。

圖片

要想完成重復token的修剪,首先要對視頻進行分塊

具體來說,視頻在空間和時間維度上會被劃分成固定大小的圖像塊,每個圖像塊的大小為C×D_x×D_y×D_t,每個圖像塊都對應一個空間-時間位置。

(其中C是通道數,D_x和D_y是空間維度大小,D_t是時間維度大小。)

劃分完成之后,需要比較時間上相鄰的圖像塊,判斷它們是否相似,也就是是否需要合并。

對于時間位置相差1的兩個圖像塊P_1和P_2,取P_1的第一幀和P_2的最后一幀,計算它們的L1距離。

如果距離小于一個預設的閾值τ,就認為P_1和P_2是靜態重復的(閾值τ表示允許多大程度的相似性,設置與具體數據集無關)

圖片

完成判別之后,重復的圖像塊會被移除

對于一串連續的、兩兩之間都是靜態重復的圖像塊,RLT只保留第一個塊對應的token。

這一步是在patch embedding之前完成的,因此移除token不需要改動模型結構。

經過這一步,輸入的token數量從N_P降低到了N_P’(N_P’≤N_P)

圖片

為了讓合并后的token仍然能夠反映完整的視頻信息,接下來要給每個token加上長度編碼

對于一個保留下來的token,系統會計算它所代表的原始token的長度l_i,也就是它到下一個沒有被移除的token的距離。

長度信息l_i與token的空間-時間位置(x,y,t)一起,用一個可學習的長度編碼矩陣映射成一個d維的embedding向量,與patch embedding相加,作為輸入token的最終表示。

最后只需要將處理后的token序列輸入到視頻Transformer中,進行常規的訓練或推理過程。

圖片

不過需要注意的是,由于每個視頻樣本計算出的token數量N_P’不盡相同,樣本之間可能有較大差異。

然而標準的Transformer是按批次處理固定長度的序列的。

為了能在一個批次中處理多個長度不一的視頻,RLT采用了一種稱為“example packing”的方法,將這一批中所有視頻樣本的token序列首尾相連,拼成一個超長的序列,作為Transformer的輸入。

這樣的話,Transformer實際上是在處理一個批次大小為1、長度為所有樣本token數量之和的序列。

通過以上步驟,RLT能夠去除視頻中的許多冗余token,在幾乎不損失精度的情況下,大幅降低內存占用和計算量,加速視頻Transformer的訓練和推理。

訓練時長下降30%

訓練階段,RLT對ViT-B和ViT-L兩種規模的模型都有很好的加速效果。

在Kinetics-400上,ViT-BRLT和ViT-L訓練時間分別從14.4小時和21.6小時,降低到10.2小時和15.4小時,降幅均接近30%左右,精度損失不超過0.1個百分點;

在SSv2上,兩者的訓練時間分別從10.1和15.2小時,降低到7.2和10.8小時,降幅也接近30%,精度同樣僅下降0.1個百分點。

相比之下,傳統的剪枝方法Token Merging在精度下降0.1-0.5個百分點的情況下,加速只有10-20%。

圖片

推理階段,也不需要額外的訓練,就可以將RLT作為現成的tokenizer,達到很好的加速效果。

具體來說,RLT能在幾乎不犧牲精度的情況下(不超過0.5個百分點),將推理階段的計算量和延遲降低30-60%。

同樣在Kinetics-400和SSv2上,對于ViT-B和ViT-L,RLT都能帶來60%以上的推理加速。

對于更大的ViT-H,在Kinetics-400上,RLT也能實現45%的加速效果。

圖片

特別地,作者還針對高幀率長時長視頻數據集進行了測試,發現RLT帶來的token下降幅度比在普通數據集中更高。

同時在高幀率數據集當中,RLT能夠在精度損失同樣低的情況下,實現更好的加速效果。

而且幀率越高效果也越明顯,對于30fps的視頻,加速可達100%。

圖片

論文地址:https://arxiv.org/abs/2411.05222
代碼:https://github.com/rccchoudhury/rlt

責任編輯:張燕妮 來源: 量子位
相關推薦

2023-06-27 12:56:23

微軟AI

2024-02-28 18:17:28

模型數據LLM

2023-08-31 07:16:32

人工智能AI算力

2025-03-31 00:33:00

2025-06-05 11:49:21

AI模型數據

2022-07-13 16:09:19

模型AI訓練

2013-11-29 10:10:38

移動廣告市場填充率

2010-08-31 11:06:37

2024-09-13 11:08:06

2024-06-24 18:17:07

2023-10-06 20:30:33

大模型LLMtoken

2012-05-07 17:06:29

2022-08-04 08:23:13

顯示器色域參數

2025-06-06 09:13:00

2024-09-26 00:11:01

2024-10-29 15:00:00

大模型數據

2025-06-05 08:40:00

2024-10-16 16:20:00

AI機器人

2024-10-15 14:08:06

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 自拍视频国产 | 国产日日操 | 毛片免费观看视频 | 在线欧美小视频 | 中文字幕视频在线免费 | 国产精品国产精品国产专区不蜜 | 99re在线视频 | 久久久久久看片 | 日韩一区二区在线免费观看 | 亚洲精品成人av久久 | 国产片侵犯亲女视频播放 | 一区二区在线免费观看视频 | 毛片免费看| 国产毛片视频 | 激情网站 | 国产精品不卡一区 | 欧美日韩一区二区三区四区 | 国产成人高清视频 | 激情视频网站 | 婷婷久久网| 日韩一区二区在线视频 | 久久久精品综合 | 久精品久久| 精久久久久 | 久久久久亚洲精品中文字幕 | 国产精品亚洲一区二区三区在线 | 日本不卡一区二区三区 | 久久久久国产精品免费免费搜索 | 国产一区二区三区在线免费 | 久久精品国产99国产精品亚洲 | 日韩精品一区二区三区在线播放 | 日韩欧美成人精品 | 日韩视频福利 | 久久大陆 | 日本不卡在线视频 | 国产一区二区三区四区 | 日日噜噜噜夜夜爽爽狠狠视频, | 国产69精品久久99不卡免费版 | 亚洲天堂中文字幕 | 日韩欧美手机在线 | 国产精品久久久久久久久免费软件 |