首個統一的圖像與視頻AIGC可解釋性檢測框架,多榜單SOTA性能
想象一下:你正在瀏覽社交媒體,看到一張震撼的圖片或一段令人震撼的視頻。它栩栩如生,細節豐富,讓你不禁信以為真。但它究竟是真實記錄,還是由頂尖 AI 精心炮制的「杰作」?如果一個 AI 工具告訴你這是「假的」,它能進一步解釋理由嗎?它能清晰指出圖像中不合常理的光影,或是視頻里一閃而過的時序破綻嗎?
這種「真假難辨」且「知其然不知其所以然」的困境,正是當前 AIGC 時代我們面臨的嚴峻挑戰。隨著 AI 生成的內容越來越逼真 ,傳統的「黑箱式」檢測工具已難以滿足我們對透明度和可信度的需求 。我們迫切需要能夠同時處理圖像和視頻、并且能給出「診斷報告」的智能檢測系統。正因如此,這篇論文提出了「IVY-FAKE:一個統一的可解釋性圖像與視頻 AIGC 檢測框架與基準」 ,目標是讓 AI 不僅能識別「李逵」與「李鬼」,更能清楚解釋:是哪些具體的視覺偽影(空間或時間上的),暴露了內容的「AI 基因」。
該工作由π3 AI Lab, 武漢大學,南京大學,斯坦福大學機構的多位研究人員合作完成。
- 論文標題:IVY-FAKE: A Unified Explainable Framework and Benchmark for Image and Video AIGC Detection
- 項目主頁:https://pi3ai.github.io/IvyFake/
- Arxiv 地址:https://arxiv.org/abs/2506.00979
- 數據集地址:https://huggingface.co/datasets/AI-Safeguard/Ivy-Fake
告別黑箱!IVY-FAKE 如何革新 AIGC 內容檢測與可解釋性?
隨著 AI 生成內容(AIGC)技術的飛速發展,無論是圖像還是視頻,其逼真程度已經到了令人嘆為觀止的地步。從 DALL-E 、Imagen 到 Stable Diffusion ,再到驚艷全球的Sora、Veo3,這些強大的生成模型在為我們打開無限創意的同時,也帶來了對內容真實性和完整性的嚴峻考驗 。虛假信息、內容溯源、公眾信任等問題日益凸顯 。
一、背景與動機:AIGC 浪潮下的「真偽莫辨」之困
當前的 AIGC 檢測方法大多像一個「黑箱」,它們能告訴你一張圖片或一段視頻是真是假,但很少能解釋為什么。這種缺乏可解釋性的二元分類器,不僅限制了模型的透明度和可信度,也阻礙了它們在實際場景中的有效部署 。想象一下,如果一個模型告訴你某段視頻是 AI 生成的,但無法指出具體的偽造痕跡,我們又該如何完全信任它的判斷呢?
此外,現有的研究往往將圖像和視頻檢測割裂開來,缺乏一個統一的框架來同時處理這兩種模態的內容 。這無疑增加了研究和應用的復雜性。
正是基于這些痛點,研究者們提出了 IVY-FAKE,其核心目標是推動 AIGC 檢測向著更統一、更可解釋的方向發展。
圖 1:IVY-FAKE 框架:通過對時間和空間偽影的深入分析,該框架實現了對 AI 生成內容的可解釋性檢測
二、核心問題:現有方法的瓶頸與研究者的雄心
在 IVY-FAKE 出現之前,AIGC 檢測領域主要面臨以下幾個核心挑戰:
1. 可解釋性缺失:如前所述,大多數模型僅提供 “真” 或 “假” 的標簽,無法解釋判斷依據。
2. 模態不統一:圖像檢測和視頻檢測往往是獨立的研究分支,缺乏能夠同時高效處理兩者的統一模型。
3. 基準數據集的局限性:
- 模態覆蓋缺少:現有數據集要么只關注圖像(如 FakeBench, FakeClue ),要么在多模態數據量上有所欠缺(如 LOKI )。
- 標注稀疏:許多數據集只提供二元標簽,缺乏詳細的、能夠支持可解釋性研究的自然語言標注。
- 多樣性不足:部分數據集在生成器的多樣性、內容場景的覆蓋度上存在不足,難以全面評估檢測模型的泛化能力 。
面對這些挑戰,作者們旨在回答以下關鍵問題:
- 如何構建一個大規模、多模態(圖像 + 視頻)、且包含豐富自然語言解釋的 AIGC 檢測基準數據集?
- 能否設計一個統一的視覺語言模型,不僅能準確檢測圖像和視頻中的 AIGC 痕跡,還能對其進行合理解釋?
三、方法概覽:IVY-FAKE 數據集與 IVY-XDETECTOR 模型雙劍合璧
為了系統性地解決上述問題,研究者們提出了兩大核心貢獻:大規模可解釋性數據集 IVY-FAKE 和統一的檢測與解釋模型 IVY-XDETECTOR。
1. IVY-FAKE:一個里程碑式的可解釋性 AIGC 檢測基準
IVY-FAKE 數據集的構建是這項工作的基石。它具有以下幾個顯著特點:
- 大規模與多模態:包含超過 15 萬個帶標注的訓練樣本(94,781 張圖片和 54,967 個視頻)以及約 1.87 萬個評估樣本(每種模態約 8700+)。內容覆蓋動物、物體、人像、場景、文檔、衛星圖和 DeepFake 等多種類別 。
- 豐富的可解釋性標注:不同于以往僅提供二元標簽的數據集,IVY-FAKE 中的每個樣本都附帶了詳細的自然語言推理過程,解釋了為何判定其為真實或 AI 生成 。
- 多樣化的數據來源:涵蓋了 GAN、擴散模型和 Transformer 等多種主流 AIGC 架構生成的內容,并結合了真實場景數據 。數據來源包括公開基準數據集(如 GenVideo, LOKI, FakeClue, WildFake)和網絡爬取的內容,確保了時效性和廣泛性 。
- 結構化的標注生成:研究者利用多模態大語言模型 Gemini 2.5 Pro ,通過知識蒸餾過程生成結構化的、可解釋的輸出。特別地,他們采用了<think></think > 和 < conclusion></conclusion > 標簽來引導模型先闡述推理過程,再給出最終判斷 。標注時還會提供真實性標簽,讓模型解釋分類背后的原因 。
- 細致的特征維度:解釋被進一步分為空間特征(包含 8 個子維度,如不切實際的光照、局部模糊、字跡不可讀等)和時間特征(包含 4 個子維度,如亮度差異、面部表情不自然、重復組件等,僅適用于視頻)。
圖 2:所提出的統一且可解釋的 IVY-FAKE 數據集。來自不同領域的輸入圖像或視頻與特定提示詞一起由多模態大模型(MLLM)處理,模型通過時間和空間分析生成結構化、可解釋的標注信息。
與現有數據集相比(見下表,改編自原論文表 1 ),IVY-FAKE 在數據規模、模態覆蓋、特別是可解釋性標注的平均 Token 長度上均展現出明顯優勢。
表 1:在二分類與可解釋性任務中使用的不同數據集對比。標記長度通過 tiktoken 庫中的 GPT-4o 分詞器計算
2. IVY-XDETECTOR:統一的 AIGC 檢測與解釋架構
基于 IVY-FAKE 數據集,研究者們提出了 IVY-XDETECTOR 模型,這是一個專為魯棒和可解釋 AIGC 檢測設計的多模態大語言模型 。
- 模型架構:遵循 LLaVA 范式 ,并使用 Ivy-VL-LLaVA 權重進行初始化 。其核心組件包括:
視覺編碼器 (Visual Encoder):采用 SigLIP 處理輸入圖像和視頻幀。
視覺投影器 (Visual Projector)
大語言模型 (LLM) - 關鍵技術:
動態分辨率處理:對于高分辨率圖像,采用分割成多個 384x384 子圖再輸入編碼器的方式,有效輸入分辨率最高可達 2304x2304 。
保留時間信息:對于視頻輸入,不對視頻特征進行時間壓縮,而是將所有幀的特征拼接后輸入 LLM,以保留豐富的時間信息 。 - 漸進式多模態訓練框架 (Progressive Multimodal Training):這是一個分階段的優化策略,旨在逐步提升模型的 AIGC 檢測和解釋生成能力 。
階段 1:賦予視頻理解能力。使用 Ivy-VL-LLaVA(在圖文基準上 SOTA,但缺乏視頻數據經驗)進行初始化 。在約 300 萬個視頻 - 文本對上進行訓練(數據來自 VideoChatFlash, VideoLLaMA3 等),賦予模型基礎的視頻理解能力 。
階段 2:AIGC 檢測微調。利用 Demamba, FakeClue, WildFake 等數據集編譯一個專門用于指令微調的目標數據集 。核心目標是訓練 MLLM 進行二元 AIGC判別(“真” 或 “假”)。
階段 3:指令驅動的檢測與可解釋性聯合優化。將階段 2 的 AIGC 檢測數據與新增的、關注可解釋性的指令數據結合起來進行聯合訓練 。此階段的指令旨在引導模型生成詳細的、分步驟的推理過程 。
圖 3:Ivy-Detector 的三階段訓練流程,包括通用視頻理解、檢測指令微調和可解釋性指令微調
通過這種三階段漸進式訓練,IVY-XDETECTOR 能夠系統地發展出從辨別細微 AIGC 偽影、做出準確分類到闡明連貫合理解釋的全面技能 。
四、實驗結果:多維度驗證,表現 SOTA
研究者們在多個基準上對 IVY-XDETECTOR 的檢測和解釋能力進行了廣泛評估。
1. 圖像內容分類
- GenImage Benchmark :包含 Midjourney, Stable Diffusion 等 8 個主流生成器的子集。與 CNNSpot, DIRE, AIDE 等 5 個 SOTA 檢測器相比,IVY-Det(論文中提出的檢測器變體)的平均準確率從之前最佳的 86.88% 提升到了 98.36%,IVY-xDet(可解釋性版本)也達到了 97.29% 。在 BigGAN 等子集上提升尤為明顯,顯示了新基準的優越性 。
表 2:在 Genimage 數據集(Zhu 等,2023b)上的對比。不同檢測器(行)在識別來自不同生成器(列)的真實與偽造圖像時的準確率(%)。最佳結果用加粗標注,次佳結果用下劃線標注。
- Chameleon Benchmark :與 10 種檢測方法對比,IVY-Det 和 IVY-xDet 的整體準確率分別達到了 85.20% 和 83.39%,遠超之前最佳的 65.77%。
表 3:在 Chameleon 數據集(Yan 等,2025)上的對比。不同檢測器(行)在識別真實與偽造圖像時的準確率(%)。對于每個訓練數據集,第一行表示整體準確率,第二行表示“偽造/真實”類別的準確率。
2. 視頻內容分類
- GenVideo Dataset :這是目前最大的生成視頻檢測基準。IVY-Det 和 IVY-xDet 在多數生成源上均實現了超過 99% 的準確率(F1 分數)。特別是在最具挑戰性的 “HotShot” 子集上,IVY-Det 的召回率達到了 99.57%,而之前最佳方法僅為 65.43% 。
表 4:與 GenVideo 的對比。在多對多泛化任務中的 F1 分數(F1)、召回率(R)和平均精度(AP)。其中 「Demamba-XCLIP-FT」簡稱為 「Demamba」。
3. 圖像和視頻內容推理(可解釋性)
研究者在完整的 IVY-FAKE 數據集上,將 IVY-xDet 與多個頂尖的開源(Qwen2.5-7B, InternVL2.5-8B)和閉源(GPT-4V, Gemini 2.5 Pro)MLLM進行了比較 。評估指標包括 ROUGE-L 和基于 LLM-as-a-judge 的四個維度:完整性、相關性、細節水平和解釋質量 。
- 圖像推理:IVY-xDet 在準確率(0.805)、ROUGE-L(0.271)以及 GPT 輔助評估平均分(4.40/5)上全面領先。
- 視頻推理:IVY-xDet 同樣表現最佳,準確率 0.945,ROUGE-L 為 0.303,GPT 輔助評估平均分 3.86/5。
表 5:模型在圖像與視頻任務中的性能對比?!白詣又笜恕卑蚀_率(Acc)、F1 分數、ROUGE-L 和相似度(SIM)評分?!癎PT 協助評估”包括四個主觀評判標準:全面性、相關性、細節和解釋性,以及它們的平均得分。
這些結果表明,IVY-XDETECTOR 不僅在檢測精度上達到了 SOTA,其生成自然語言解釋的質量也顯著優于其他基線模型,能夠提供更透明、更易于人類理解的偽影描述 。
五、主要結論與啟示:邁向透明可信的 AIGC 分析
這項研究為 AIGC 檢測領域帶來了幾個關鍵突破:
1. IVY-FAKE 的開創性:首次提出了一個大規模、統一的、跨圖像和視頻模態的、用于可解釋性 AIGC 檢測的數據集 。這為后續研究提供了一個堅實的基礎。
2. IVY-XDETECTOR 的卓越性能:所提出的統一視覺語言檢測器在多個 AIGC 檢測和可解釋性基準上取得了 SOTA 表現 。
3. 推動可解釋性發展:通過引入自然語言解釋和結構化的推理過程,該工作有力地推動了 AIGC 檢測從 “黑箱” 向 “白箱” 的轉變,增強了模型的透明度和可信度。
4. 統一框架的價值:證明了構建統一的圖像和視頻 AIGC 檢測框架是可行的,并且能夠取得優異性能。
對行業而言,這項工作意味著未來我們有望部署更可靠、更易于理解的 AIGC 內容審查工具,這對于打擊虛假信息、保護數字內容生態具有重要意義。對于研究者而言,IVY-FAKE 數據集和 IVY-XDETECTOR 模型為探索更深層次的可解釋性和更魯棒的檢測算法開辟了新的道路。
六、案例分析
該研究還詳細給出了當前不同大模型多模態內容的錯誤檢測的案例。
圖 10:圖像示例 1,Ivy-xDetector 成功檢測出基線方法遺漏的細微空間異常
圖 11:視頻示例 1,展示了 Ivy-xDetector 有效捕捉基線模型忽略的時間不一致性
七、未來展望:挑戰與機遇并存
盡管 IVY-FAKE 和 IVY-XDETECTOR 取得了顯著進展,但仍有一些值得進一步探索的方向:
1. 模型效率與時序建模:論文中也提到了當前的局限性,例如較高的空間 Token 負載迫使模型在時間維度上進行降采樣,這可能影響對微妙時間偽影的檢測精度和時間一致性的建模 。未來工作可以探索更高效的空間建模方法,以及更強的時序一致性保持機制。
2. 更細粒度的偽影定位與解釋:雖然自然語言解釋已經很有價值,但結合更精確的偽影定位(例如,通過熱力圖或邊界框高亮顯示可疑區域)可能會提供更直觀的反饋。
3. 對抗攻擊與魯棒性:隨著 AIGC 技術的發展,生成模型可能會產生更難以檢測的偽影。持續評估和提升模型在對抗攻擊下的魯棒性至關重要。
4. 「道高一尺,魔高一丈」的循環:正如論文中「更廣泛影響」部分提到的,檢測技術的發展也可能被用于訓練更強大的、更難被檢測的生成模型 。如何在這種博弈中持續保持檢測技術的領先,是一個長期的挑戰。
5. 多模態融合的深化:目前模型主要還是基于視覺信息,未來可以探索融合文本、音頻等多模態信息進行聯合檢測與解釋,以應對更復雜的 AIGC 場景。
總而言之,IVY-FAKE 和 IVY-XDETECTOR 無疑是 AIGC 內容檢測與可解釋性研究領域的一項重要貢獻。它們不僅為我們提供了強大的工具和基準,更為我們指明了未來研究的方向。我們期待看到更多基于此項工作的后續研究,共同推動 AIGC 技術健康、可信地發展。