成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

能訓出SOTA模型的優(yōu)質數據集發(fā)布!復旦最新VidGen-1M: 文生視頻還得靠好數據

發(fā)布于 2024-8-8 07:57
瀏覽
0收藏

能訓出SOTA模型的優(yōu)質數據集發(fā)布!復旦最新VidGen-1M: 文生視頻還得靠好數據-AI.x社區(qū)

能訓出SOTA模型的優(yōu)質數據集發(fā)布!復旦最新VidGen-1M: 文生視頻還得靠好數據-AI.x社區(qū)

論文鏈接:https://arxiv.org/pdf/2408.02629
項目鏈接:https://sais-fuxi.github.io/projects/vidgen-1m/
git鏈接:https://github.com/SAIS-FUXI/VidGen

亮點直擊

  • 引入了一個專門用于訓練文本到視頻模型的高質量視頻數據集。
  • 提出了一種多階段策展方法,在有限計算資源下實現精準且高質量的數據策展。
  • 發(fā)布了本文的文本到視頻模型,該模型生成的高質量視頻在性能上超越了當前最先進的方法。

視頻-文本對的質量從根本上決定了文本到視頻模型的上限。目前,用于訓練這些模型的數據集存在顯著缺陷,包括低時間一致性、低質量的字幕、低質量的視頻以及數據分布不平衡?,F行的視頻策展過程依賴于圖像模型進行標記和基于規(guī)則的人工策展,導致計算負擔高且數據不干凈。因此,缺乏適合文本到視頻模型的訓練數據集。為了解決這個問題,本文提出了VidGen-1M,這是一個優(yōu)質的文本到視頻模型訓練數據集。通過粗到細的策展策略生成,該數據集保證了高質量的視頻和具有優(yōu)良時間一致性的詳細字幕。在用于訓練視頻生成模型時,該數據集的實驗結果超越了使用其他模型所獲得的結果。

方法

在構建VidGen的過程中,本文利用了來自HD-VILA數據集的380萬高分辨率、長時段視頻。隨后,這些視頻被分割成1.08億個視頻片段。接下來,本文對這些視頻片段進行了標注和采樣。然后,使用VILA模型進行視頻字幕生成。最后,為了糾正前幾個步驟中的數據整理錯誤,本文部署了LLM進行進一步的字幕整理。

粗略策展

為了在有限的計算資源下實現高效的數據整理,本文首先采用粗略的整理方法。這包括場景分割、視頻標注、過濾和采樣,以減少后續(xù)字幕生成和精細整理階段的計算負擔。

場景分割

運動不一致性,例如場景變化和漸變,常常在原始視頻中出現。然而,由于運動不一致性直接切斷了視頻語義,文本到視頻模型對其非常敏感并容易混淆,導致訓練效率大幅降低。為了減輕這種影響,本文遵循之前的研究,以級聯(lián)方式利用 PySceneDetect 檢測和移除原始視頻中的場景轉換。

標注

構建適合訓練文本到視頻模型的數據集需要滿足以下標準:高質量視頻、類別平衡和視頻內的強時間一致性。為了實現這一目標,本文首先需要對每個分割的視頻片段進行標注。隨后,這些標簽將作為策劃和采樣的基礎。

視頻質量 視頻的視覺質量對于高效訓練文本到視頻模型至關重要。為了提高文本到視頻生成中生成視頻的質量,本文采用了一種策略,過濾掉低美學吸引力和高OCR分數的視頻。在這種情況下,本文采用LAION美學模型來預測和評估美學分數,從而確保訓練數據的高質量。特別是,美學模型還可以過濾掉視覺異常的視頻,例如色彩分布不規(guī)則或視覺元素奇怪的視頻。

時間一致性 視頻中的錯誤場景分割會顯著影響模型訓練的效果。高時間一致性是訓練文本到視頻模型所需的關鍵特征。為確保這一點,本文利用CLIP模型提取視覺特征并評估時間一致性。通過計算視頻片段的起始幀和結束幀之間的余弦相似度來實現這一評估,從而提供連續(xù)性和一致性的定量衡量。

類別 HD-VILA-100M視頻數據集在其類別上顯示出顯著的不平衡,導致這些類別的視頻生成模型性能不佳。為了解決這個問題,本文使用預定義的類別標簽來標注每個視頻,并借助CLIP模型。具體來說,本文從每個視頻的初始、中間和最終幀中提取CLIP圖像特征,計算它們的平均值,然后確定這些平均圖像特征與每個標簽相關的文本特征之間的相似性。這種方法使本文能夠為每個視頻分配最合適的標簽。

運動 本文采用RAFT模型來預測視頻的光流分數。由于靜態(tài)視頻和運動過快的視頻都會對訓練文本到視頻模型產生不利影響,本文根據光流分數過濾掉這些視頻。

采樣

通過使用與視覺質量、時間一致性、類別和運動相關的標簽,本文進行了過濾和采樣任務。下圖2所展示的數據集中多個維度的數據分布清晰表明,低質量、靜態(tài)場景、運動速度過快以及文本與視頻不匹配且時間一致性差的視頻被系統(tǒng)地移除。同時,本文確保了在不同類別中樣本的相對均勻分布。

能訓出SOTA模型的優(yōu)質數據集發(fā)布!復旦最新VidGen-1M: 文生視頻還得靠好數據-AI.x社區(qū)

字幕

視頻字幕的質量對文本到視頻模型有著至關重要的影響,而HD-VILA-100M數據集中的字幕存在一些問題,包括文本與視頻之間的不匹配、描述不充分以及詞匯使用有限。為了提高字幕的信息密度,本文采用了最先進的視覺語言模型VILA。由于VILA在視頻字幕生成方面的卓越能力,本文顯著提升了字幕的質量。在生成字幕后,本文使用CLIP評分來過濾出文本與視頻相似度較低的對。本文在下表2中展示了詞匯分析,其中有效的不同名詞和有效的不同動詞是指在數據集中出現超過10次的詞匯。利用VILA模型對HD-VILA-100M數據集進行處理后,本文生成了增強版的HD-VILA-100M數據集。在Panda-70M數據集中,有270K個不同的名詞和76K個不同的動詞;然而,只有16.1%和19.2%的名詞和動詞分別符合有效性標準。使用VILA生成的字幕顯著提高了有效比例以及每個視頻中名詞和動詞的平均數量,從而增加了概念密度。

能訓出SOTA模型的優(yōu)質數據集發(fā)布!復旦最新VidGen-1M: 文生視頻還得靠好數據-AI.x社區(qū)

精細策展

在粗略策展和字幕生成階段,使用CLIP評分過濾文本-圖像對齊和時間一致性可以去除一些不一致的數據,但并不完全有效。因此,在視頻字幕中會出現一些問題,如場景轉換,以及兩種典型的描述錯誤:

  1. 生成eos標記失敗,即模型未能正確終止生成過程,導致循環(huán)或重復的標記生成
  2. 幀級生成,即模型缺乏對幀之間動態(tài)關系的理解,為每個幀生成孤立的描述,導致字幕缺乏連貫性,無法準確反映視頻的整體故事情節(jié)和動作序列。

為了解決上述數據策劃問題,一種潛在的解決方案是人工注釋,但這種方法成本過高。隨著大型語言模型的最新進展,這個問題可以得到解決。可以使用語言模型(LLM)分析特定模式,如場景轉換、重復內容和幀級描述,來識別多模態(tài)語言模型(MLLM)生成的字幕中的錯誤。像LLAMA3這樣的模型在這些任務中表現出色,使其成為人工注釋的可行替代方案。

在本文努力隔離和去除在文本-視頻對齊和時間一致性方面存在差異的視頻-文本配對時,利用了先進的語言模型(LLM)LLAMA3.1來審查各自的字幕。精細策劃的應用顯著提高了文本-視頻對的質量,如下圖3所示。研究主要圍繞三個關鍵因素展開:場景轉換(ST)、幀級生成(FLG)和重復(Redup)。

能訓出SOTA模型的優(yōu)質數據集發(fā)布!復旦最新VidGen-1M: 文生視頻還得靠好數據-AI.x社區(qū)

實驗

實施細節(jié)

為了評估本文文本到視頻訓練數據集的有效性,本文使用基礎模型進行了全面評估,該模型由空間和時間注意力塊組成。為了加速訓練過程,本文最初在大量低分辨率256X256圖像和視頻上進行了廣泛的預訓練。隨后,本文使用512X512像素分辨率的圖像和4秒視頻在本文的 VidGen-1M 數據集上進行了聯(lián)合訓練。

實驗結果

定性評估

如下圖4所示,本文模型生成高質量視頻的能力證明了高分辨率VidGen-1M數據集的穩(wěn)健性。該數據集的高質量體現在生成視頻的真實感和細節(jié)上,進一步證明了其在訓練本文模型方面的有效性。本文生成的視頻一個顯著特點是其強大的“提示跟隨”能力,這是訓練數據中視頻-文本對高度一致性的直接結果。這種一致性確保了模型能夠準確解釋文本提示,并生成具有高保真度的相應視頻內容。第一個例子進一步強調了VidGen-1M數據集的高質量。生成的視頻展示了驚人的真實感——從潛水員在水下漂浮的頭發(fā)到氣泡的運動。這些細節(jié)展示了顯著的時間一致性,并遵循現實世界的物理規(guī)律,突顯了模型生成可信且視覺上準確的視頻內容的能力。

能訓出SOTA模型的優(yōu)質數據集發(fā)布!復旦最新VidGen-1M: 文生視頻還得靠好數據-AI.x社區(qū)

VidGen-1M數據集的質量對計算機視覺領域,特別是文本到視頻生成,有著深遠的影響。通過提供高分辨率和時間一致性的訓練數據,VidGen-1M使模型能夠生成更真實和高質量的視頻。這可以推動視頻生成技術的發(fā)展,突破當前的可能性界限。此外,VidGen-1M提供的高質量數據可能會簡化模型訓練過程。借助更準確和詳細的訓練數據,模型可以更有效地學習,可能減少對大量計算資源和耗時訓練周期的需求。通過這種方式,VidGen-1M不僅改善了文本到視頻生成的結果,還促進了更高效和可持續(xù)的模型訓練實踐。

結論

在本文中介紹了一個高質量的視頻-文本數據集,該數據集具有高視頻質量、高字幕質量、高時間一致性和高視頻-文本對齊度,專門用于訓練文本到視頻生成模型。上述各種高質量特性源于本文精心設計的數據策展過程,該過程以粗到細的方式高效地確保了數據質量。為了驗證VidGen-1M的有效性,在其上訓練了一個文本到視頻生成模型。結果令人鼓舞,訓練在VidGen-1M上的模型在零樣本UCF101上取得了顯著更好的FVD分數,與最先進的文本到視頻模型相比有明顯提升。


本文轉自 AI生成未來 ,作者:Zhiyu Tan等


原文鏈接:??https://mp.weixin.qq.com/s/zhv8ZtB5JgSh1L9YkyLEhg??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 日韩一区二区三区在线播放 | 国产精品美女久久久久aⅴ国产馆 | 成人国产在线视频 | 国产精品免费观看 | 久久精品一二三影院 | 黄色大片毛片 | 日韩成人精品 | 在线视频一区二区 | 一级免费在线视频 | 亚洲国产精品人人爽夜夜爽 | 日日拍夜夜 | 欧美aaaaaaaa| 久久久免费精品 | 午夜寂寞影院列表 | 日韩精品一区二区三区第95 | 欧美日韩激情 | 国产成人午夜电影网 | 99久久夜色精品国产亚洲96 | 国产欧美精品一区二区 | 91福利影院 | 亚洲一区二区三区国产 | 99久久中文字幕三级久久日本 | 亚洲精品一区在线观看 | 精品国产一区二区三区性色av | 国产精品精品久久久 | 尤物视频在线免费观看 | 亚洲一区二区三区在线播放 | 午夜精品一区二区三区免费视频 | 国产一级一级毛片 | 亚洲成人av一区二区 | 久草久草久草 | 欧美电影免费观看 | 国产一区二区三区四区五区加勒比 | 久久剧场 | 欧美日韩在线播放 | 日本免费小视频 | 一区二区三区四区在线视频 | 综合色在线 | 色视频在线播放 | 成人av看片| 久久久久国产精品一区二区 |