真實(shí)世界AI造假驚現(xiàn)克星!清華GenWorld:用“物理一致性”讓虛假視頻無處遁形!
論文鏈接:https://arxiv.org/pdf/2506.10975
git地址:?https://chen-wl20.github.io/GenWorld
亮點(diǎn)直擊
- 高質(zhì)量真實(shí)場景數(shù)據(jù)集:GenWorld首次專注于現(xiàn)實(shí)世界場景(如自動(dòng)駕駛),提供多樣化、高逼真度的生成視頻,彌補(bǔ)領(lǐng)域空白。
- 物理合理性驅(qū)動(dòng)檢測:提出通過3D多視角一致性(而非傳統(tǒng)像素瑕疵)區(qū)分生成視頻,適應(yīng)生成技術(shù)快速發(fā)展的挑戰(zhàn)。
- 簡單有效的模型設(shè)計(jì):SpannDetector僅需結(jié)合立體重建和時(shí)序模塊即實(shí)現(xiàn)顯著性能提升,為可解釋檢測提供新方向。
總結(jié)速覽
解決的問題
- AI生成視頻檢測的挑戰(zhàn):當(dāng)前缺乏高質(zhì)量、真實(shí)場景的AI生成視頻數(shù)據(jù)集,現(xiàn)有數(shù)據(jù)集質(zhì)量參差不齊,且多為卡通或人臉偽造,難以應(yīng)對(duì)真實(shí)世界場景的檢測需求。
- 現(xiàn)有方法的局限性:現(xiàn)有檢測器依賴生成瑕疵(如像素異常),但高質(zhì)量生成視頻(如世界模型生成的視頻)已難以通過此類方法區(qū)分,亟需基于物理合理性的檢測方法。
提出的方案
- 數(shù)據(jù)集GenWorld:構(gòu)建大規(guī)模、高質(zhì)量、真實(shí)場景模擬的AI生成視頻數(shù)據(jù)集,特點(diǎn)包括:
- 真實(shí)世界模擬:聚焦自動(dòng)駕駛、室內(nèi)導(dǎo)航等現(xiàn)實(shí)場景。
- 高質(zhì)量生成:采用多模態(tài)輸入(文本/圖像/視頻)和10種先進(jìn)生成模型(如Cosmos)。
- 跨提示多樣性:覆蓋多種生成器和輸入模態(tài),增強(qiáng)泛化性。
- 檢測模型SpannDetector:
- 利用多視角一致性(如3D物理合理性)作為檢測標(biāo)準(zhǔn),結(jié)合立體重建模型和時(shí)間記憶模塊。
- 通過真實(shí)性評(píng)分器對(duì)立體特征進(jìn)行全局評(píng)估,判斷視頻真?zhèn)巍?/li>
應(yīng)用的技術(shù)
- 數(shù)據(jù)集構(gòu)建:整合多模態(tài)生成模型(文本/圖像/視頻到視頻),確保數(shù)據(jù)多樣性和質(zhì)量。
- 立體重建模型:分析生成視頻的3D一致性缺陷(如物理規(guī)律違反)。
- 時(shí)空特征融合:在SpannDetector中結(jié)合時(shí)間記憶模塊,增強(qiáng)視頻時(shí)序信息處理能力。
達(dá)到的效果
- 數(shù)據(jù)集價(jià)值:GenWorld填補(bǔ)了高質(zhì)量真實(shí)場景生成視頻數(shù)據(jù)集的空白,推動(dòng)可信檢測器的研發(fā)。
- 檢測性能:SpannDetector在高質(zhì)量生成視頻(如Cosmos生成的視頻)上顯著優(yōu)于現(xiàn)有方法,驗(yàn)證了物理合理性特征的有效性。
- 可解釋性:基于多視角一致性的方法為AI生成視頻檢測提供了可解釋的物理依據(jù)。
GenWorld
Motivation of GenWorld
盡管現(xiàn)有數(shù)據(jù)集收集了大量用于AI生成視頻檢測器研究的AI生成視頻,但在實(shí)踐中存在兩個(gè)根本性問題:
- 嘈雜且不連貫的語義內(nèi)容:當(dāng)前數(shù)據(jù)集包含各種非結(jié)構(gòu)化的視頻混合,包括動(dòng)漫、游戲畫面、漫畫風(fēng)格視頻以及其他缺乏具體信息的內(nèi)容,如圖1所示。這引發(fā)了對(duì)數(shù)據(jù)集相關(guān)性的質(zhì)疑——這些視頻是否真的具有偽造檢測價(jià)值?
- 由于缺乏精心設(shè)計(jì)的提示詞和先進(jìn)模型,生成的視頻往往質(zhì)量較差,容易被人類區(qū)分。因此,在這些數(shù)據(jù)集上訓(xùn)練的模型難以檢測實(shí)際應(yīng)用中的偽造視頻。
?
GenWorld 重新評(píng)估了哪些類型的生成視頻最具影響力且需要檢測。最重要的檢測視頻應(yīng)具備以下特征:
- 真實(shí)世界模擬:漫畫或抽象內(nèi)容等視頻對(duì)現(xiàn)實(shí)世界影響甚微。相比之下,模擬真實(shí)場景(如駕駛場景或人類活動(dòng))的視頻更可能影響現(xiàn)實(shí)。
- 高質(zhì)量和真實(shí)感:視頻越逼真,就越可能誤導(dǎo)人類并影響現(xiàn)實(shí)世界。因此,AI生成視頻檢測應(yīng)優(yōu)先考慮高質(zhì)量生成的視頻,特別是具有挑戰(zhàn)性的邊緣案例。
Collection and Organization of GenWorld
本文旨在構(gòu)建一個(gè)高質(zhì)量、真實(shí)世界的AI生成視頻檢測數(shù)據(jù)集。首先,對(duì)于真實(shí)世界數(shù)據(jù),我們分析了真實(shí)場景和當(dāng)前視頻生成世界模型,選擇了涵蓋人類生活廣泛場景的四個(gè)關(guān)鍵場景:駕駛、室內(nèi)外導(dǎo)航、具身智能操作和人類活動(dòng),作為我們數(shù)據(jù)集的核心場景。
對(duì)于AI生成視頻,本文設(shè)計(jì)了模擬真實(shí)場景的視頻生成流程,如下圖2所示。首先利用強(qiáng)大的視頻理解模型Video-Llava對(duì)選定的真實(shí)世界視頻內(nèi)容進(jìn)行標(biāo)注,以促進(jìn)下游生成。在生成過程中,采用了多種生成方法,包括文本到視頻、圖像到視頻和視頻到視頻,因?yàn)檫@些方法以不同方式模擬真實(shí)世界視頻,各自具有獨(dú)特的分析價(jià)值。文本到視頻方法偽造語義內(nèi)容同時(shí)保留模型的外觀偏好;圖像到視頻方法同時(shí)偽造語義和外觀,實(shí)現(xiàn)更高級(jí)別的視頻偽造;而視頻到視頻模型不僅偽造語義和外觀,還能操控物理規(guī)律,展現(xiàn)出最高級(jí)別的偽造能力。
下表1展示了GenWorld數(shù)據(jù)集的統(tǒng)計(jì)信息。對(duì)于真實(shí)世界視頻,從Kinetics-400、NuScenes、RT-1和DL3DV-10K中隨機(jī)選取了10,850個(gè)樣本。對(duì)于AI生成視頻,使用了10種不同的生成模型,包括Cosmos和OpenSora等先進(jìn)模型,涵蓋文本到視頻、圖像到視頻和視頻到視頻等多種偽造級(jí)別,共生成89,446個(gè)視頻。本文的數(shù)據(jù)集包含100,296個(gè)視頻,其中20%用于測試,其余用于訓(xùn)練。
由于采用了先進(jìn)的生成模型和源自真實(shí)場景的提示詞,本文的數(shù)據(jù)集具有三個(gè)關(guān)鍵優(yōu)勢:多樣化的真實(shí)世界模擬、高質(zhì)量的視頻內(nèi)容以及跨生成器和跨生成方法的多樣性。這種豐富的組合支持多種分析維度,可對(duì)檢測方法進(jìn)行全面分析。
SpannDetector
在構(gòu)建數(shù)據(jù)集的過程中,測試了多種檢測方法,發(fā)現(xiàn)其性能不足,特別是針對(duì)最新高質(zhì)量生成模型時(shí)表現(xiàn)欠佳。這促使我們探索識(shí)別AI生成視頻的新視角。考慮到視頻的時(shí)序性和多視角特性,對(duì)多視角一致性進(jìn)行了深入分析,并將其確定為檢測AI生成視頻的潛在線索。基于這一發(fā)現(xiàn),本文設(shè)計(jì)了SpannDetector——一個(gè)基于多視角一致性的AI生成視頻檢測器,該檢測器展現(xiàn)出良好的檢測能力,特別是針對(duì)世界模型生成的視覺超真實(shí)視頻。我們首先回顧多視角匹配技術(shù)。
多視角匹配基礎(chǔ)
生成視頻的多視角一致性
SpannDetector設(shè)計(jì)
實(shí)驗(yàn)
實(shí)現(xiàn)細(xì)節(jié)
數(shù)據(jù)集。為了全面評(píng)估現(xiàn)有方法,本文設(shè)計(jì)了兩項(xiàng)任務(wù)并相應(yīng)劃分?jǐn)?shù)據(jù)集。對(duì)于每個(gè)模型,保留20%的生成數(shù)據(jù)作為測試集。在評(píng)估過程中,使用一個(gè)模型的訓(xùn)練集進(jìn)行訓(xùn)練,同時(shí)使用其他模型的測試集進(jìn)行測試。第一項(xiàng)任務(wù)——訓(xùn)練測試評(píng)估,模擬了現(xiàn)實(shí)場景中需要識(shí)別未知來源圖像的情況。第二項(xiàng)任務(wù)——跨提示評(píng)估,測試檢測方法在不同偽造級(jí)別上的表現(xiàn),而不會(huì)對(duì)特定類型的生成過擬合。
評(píng)估指標(biāo)。本文使用準(zhǔn)確率(Acc.)評(píng)估方法的有效性,并以AP、F1和召回率(R)作為補(bǔ)充評(píng)估指標(biāo)。對(duì)于圖像級(jí)檢測方法,組合所有幀的預(yù)測以獲得總體結(jié)果。
基線方法。本文選擇了AI生成內(nèi)容檢測領(lǐng)域的最先進(jìn)方法,包括圖像和視頻檢測器,并評(píng)估其性能。所有模型均在單個(gè)A6000 GPU上訓(xùn)練。
與現(xiàn)有數(shù)據(jù)集的比較
下表2比較了本文的數(shù)據(jù)集與現(xiàn)有的AI生成視頻檢測數(shù)據(jù)集。突出了以下優(yōu)勢:
- 真實(shí)世界模擬:本文的真實(shí)視頻精心選自覆蓋大多數(shù)真實(shí)場景的多樣化數(shù)據(jù)集,并源自這些真實(shí)視頻。
- 跨提示多樣性:不同提示的生成方法以不同方式操縱真實(shí)視頻。文本到視頻生成主要模仿真實(shí)視頻的語義和內(nèi)容,同時(shí)保留外觀風(fēng)格偏好;圖像到視頻生成保留外觀和語義,同時(shí)生成高度欺騙性的視頻;視頻到視頻生成復(fù)制外觀和語義,并模擬視頻的時(shí)間演變,使其在時(shí)間上更加真實(shí)。
下圖4展示了本文數(shù)據(jù)集中的示例,呈現(xiàn)了其多樣性、豐富內(nèi)容和高品質(zhì)。下圖5顯示了視頻的時(shí)間連貫性,突出了流暢的運(yùn)動(dòng)和隨時(shí)間推移的邏輯進(jìn)展。
訓(xùn)練-測試評(píng)估
下表3展示了不同模型在訓(xùn)練-測試評(píng)估任務(wù)上的性能表現(xiàn),可以得出幾個(gè)關(guān)鍵發(fā)現(xiàn):
- 視頻級(jí)AI生成視頻檢測器顯著優(yōu)于基于圖像的檢測器。這主要因?yàn)橐曨l檢測器能夠從不同時(shí)間幀捕捉時(shí)序信息,從而獲得更豐富的表征以實(shí)現(xiàn)更好的偽造檢測。
- 在視頻級(jí)檢測器中,DeMamba和VideoMAE的表現(xiàn)明顯優(yōu)于STIL和TALL。這是因?yàn)楹髢烧咧饕槍?duì)深度偽造視頻檢測設(shè)計(jì),而前者旨在捕捉更通用的視頻特征。這表明適用于深度偽造檢測的方法未必能有效檢測通用AI生成視頻。
- 不同模型生成視頻的檢測難度存在差異。如表所示,多數(shù)訓(xùn)練模型在Lavie和VideoCrafter測試集上表現(xiàn)較好,但在HotShot、ModelScope和Cosmos上表現(xiàn)較差。特別是基于世界模型的Cosmos生成的視頻檢測難度顯著高于其他模型,這表明其生成的視頻更接近真實(shí)世界影像。
- 本文的模型整體表現(xiàn)最優(yōu),在檢測Cosmos生成視頻時(shí)性能提升尤為顯著。這是因?yàn)槌丝紤]時(shí)序動(dòng)態(tài)特征外,本文的模型還整合了多視角一致性先驗(yàn),使其能夠識(shí)別看似真實(shí)但細(xì)微違反物理規(guī)律的視頻。這凸顯了使用物理先驗(yàn)作為AI生成視頻檢測方法的潛力。
下表4提供了召回率(R)、F1分?jǐn)?shù)和平均精度(AP)的詳細(xì)對(duì)比。數(shù)據(jù)顯示:
- 本文的模型在召回率(R)上顯著優(yōu)于其他模型
- 同時(shí)保持了較高的AP值
- 最終獲得最高的F1分?jǐn)?shù)
其他模型如DeMamba在檢測Cosmos生成視頻時(shí)召回率較低,這進(jìn)一步證明Cosmos生成的超現(xiàn)實(shí)模擬視頻具有極高的檢測挑戰(zhàn)性。其生成的視頻與真實(shí)視頻難以區(qū)分的特點(diǎn),為AI生成內(nèi)容檢測領(lǐng)域提出了新的研究方向。
跨提示詞評(píng)估
本文還選取了代表性模型DeMamba進(jìn)行跨提示詞評(píng)估,結(jié)果如下表5所示。從表中可觀察到,DeMamba容易過擬合訓(xùn)練數(shù)據(jù),無法有效區(qū)分由另外兩種提示詞生成的數(shù)據(jù)。這表明不同生成提示詞會(huì)產(chǎn)生差異化的偽影模式,導(dǎo)致模型僅學(xué)習(xí)到特定特征而非泛化性特征。此外,當(dāng)在三種跨提示詞數(shù)據(jù)上聯(lián)合訓(xùn)練時(shí),DeMamba仍出現(xiàn)過擬合現(xiàn)象,說明該模型不適用于學(xué)習(xí)通用的偽造檢測特征。相比之下,本文的模型在單一提示詞生成數(shù)據(jù)上訓(xùn)練后,對(duì)其它提示詞生成的數(shù)據(jù)展現(xiàn)出一定程度的判別能力,這暗示模型可能捕捉到了更具泛化性的特征(例如多視角不一致性)。
用戶研究
為直觀比較不同數(shù)據(jù)集的質(zhì)量與顯著性,本文開展了用戶研究來評(píng)估現(xiàn)有數(shù)據(jù)集與自建數(shù)據(jù)集。評(píng)估指標(biāo)包括視頻質(zhì)量(VQ)、真實(shí)世界模擬度(RS)、運(yùn)動(dòng)連貫性(MC)和物理合理性(PP)。我們從不同年齡段選取120名參與者,每個(gè)數(shù)據(jù)集隨機(jī)抽取100段視頻供其采用7級(jí)李克特量表評(píng)估。此外,每位參與者需猜測視頻屬于真實(shí)視頻還是AI生成視頻。實(shí)驗(yàn)結(jié)果如下表6所示,數(shù)據(jù)顯示本文的數(shù)據(jù)集在所有質(zhì)量指標(biāo)上均優(yōu)于另外兩個(gè)數(shù)據(jù)集。更重要的是,用戶對(duì)我們數(shù)據(jù)集的真假視頻判斷準(zhǔn)確率最低,說明生成視頻具有最強(qiáng)的欺騙性,這使得該數(shù)據(jù)集對(duì)AI生成視頻檢測研究具有特殊價(jià)值。
結(jié)論
GenWorld——一個(gè)模擬真實(shí)場景的高質(zhì)量AI生成視頻檢測數(shù)據(jù)集,其具備三大特征:
- 真實(shí)世界模擬性:專注于高度擬真現(xiàn)實(shí)活動(dòng)的視頻,可能對(duì)社會(huì)事件產(chǎn)生更大影響;
- 高質(zhì)量性:通過融合多種前沿生成方法,構(gòu)建了大規(guī)模高質(zhì)量AI生成視頻集合;
- 跨提示詞多樣性:涵蓋文本、圖像、視頻三類提示詞生成的視頻,捕獲不同層次的偽造特征。
本文對(duì)現(xiàn)有先進(jìn)AI生成視頻檢測器進(jìn)行基于GenWorld的深度評(píng)估,發(fā)現(xiàn)這些檢測器難以識(shí)別世界模型(如Cosmos)生成的高質(zhì)量視頻,該局限可能源于其未能捕捉真實(shí)世界的物理一致性。本文提出SpannDetector——一種基于對(duì)真實(shí)/生成視頻三維一致性深度分析的簡潔有效方法。該方法將立體重建模型與時(shí)序記憶模塊相結(jié)合,顯著提升了檢測性能(尤其針對(duì)世界模型生成的視頻),這凸顯了利用物理一致性進(jìn)行AI生成視頻檢測的潛力。
本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來
