圖像偽造照妖鏡!北大發布多模態LLM圖像篡改檢測定位框架FakeShield
隨著生成式人工智能(AIGC)的迅猛發展,圖像編輯與合成技術變得愈加成熟與普及。這一趨勢為圖像內容創作帶來了便捷的同時,也顯著增加了篡改檢測的難度。
用戶能夠通過Photoshop、DeepFake、AIGC等工具對圖像進行高質量編輯,且往往不留任何痕跡。在此背景下,如何準確檢測并定位篡改區域,成為了學術界與工業界的關注重點。
盡管現有的圖像篡改檢測與定位(IFDL)算法在網絡結構和訓練策略上取得了一定進展,但仍存在幾個主要問題:
1. 大多數方法采用黑箱模型,僅輸出真實性概率,缺乏詳細的檢測解釋,導致用戶對結果的信任度降低。
2. 現有算法通常針對特定篡改技術,缺乏應對多樣化篡改手段的能力,降低了實用性。
為了解決這些問題,如圖1所示,北京大學與華南理工大學的研究團隊提出了一種全新的任務:可解釋的圖像偽造檢測與定位(e-IFDL),并設計了一個新穎的多模態偽造檢測定位框架:FakeShield。
圖片
論文地址:https://arxiv.org/abs/2410.02761
項目主頁:https://zhipeixu.github.io/projects/FakeShield/
GitHub地址:https://github.com/zhipeixu/FakeShield
結合多模態大語言模型的視覺和語言理解能力,實現在檢測圖像真實性,生成篡改區域掩膜的同時,提供詳細解釋,進而增強了檢測定位過程的透明性與泛化性。
圖1:(a)傳統IFDL方法,(b)可解釋的IFDL方法
為了解決現有IFDL方法的不足,FakeShield提出了以下主要貢獻:
1. 提出了首個多模態大模型框架用于圖像篡改檢測與定位,不僅實現了檢測與定位過程的解耦,還提供了合理的判斷依據,解決了現有方法的黑箱問題。
2. 利用GPT-4o豐富現有IFDL數據集,構建了多模態篡改描述數據集(MMTD-Set),通過關注不同篡改特征,生成「圖像-掩膜-描述」三元組,提高了模型的分析能力。
3. 設計了基于領域標簽引導的解釋性篡改檢測模塊(DTE-FDM),在單一模型中檢測多種篡改類型,緩解了數據域沖突問題。同時,通過多模態篡改定位模塊(MFLM),對齊視覺和語言特征,實現精準的篡改區域定位。
基于上述創新,FakeShield不僅提升了篡改檢測定位的準確性和解釋性,還顯著增強了模型的適應性和實用性,為圖像篡改檢測領域提供了一種全面而高效的解決方案。
MMTD-Set數據集
如圖2所示,我們根據篡改方法,將篡改圖片分為PhotoShop、DeepFake、AIGC-Editing三個數據域。基于現有的IFDL數據集,我們利用GPT-4o生成對于篡改圖像的分析與描述,構建「圖像-掩膜-描述」三元組,以支持模型的多模態訓練。另外,針對不同篡改類型,我們設計了特定的描述提示,引導GPT關注不同的像素偽影和語義錯誤。
圖2:MMTD-Set數據集構建過程
在MMTD-Set的構建過程中,prompt設計是關鍵環節,旨在確保GPT-4o能準確生成與篡改圖像相關的高質量描述。在輸入編輯后的圖像及其二值掩膜時,prompt的設計圍繞兩個主要方面展開:篡改區域的定位和可見細節的捕捉。
在定位描述中,GPT-4o需要對篡改區域的絕對位置和相對位置進行清晰表達。絕對位置指篡改區域在整個圖像中的位置,如「圖像的左上角」或「靠近圖像下半部分」。相對位置則要求描述篡改區域與其他物體之間的關系,如「在桌面上方」或「靠近人群」。這種雙重描述的設計可以幫助模型更準確地感知篡改區域在圖像中的位置,確保輸出的掩膜與實際篡改區域一致。
在可見細節的捕捉上,prompt重點關注多種視覺異常,這些異常反映了篡改過程中可能留下的偽影和邏輯錯誤。
對于Photoshop篡改,prompt重點關注像素級偽影和不自然的邊緣,要求模型檢查光照一致性、像素模糊和分辨率變化,同時判斷是否違反物理規律,如缺失的陰影或透視關系不合理。在DeepFake數據中,prompt強調面部細節和語義邏輯,要求模型注意皮膚紋理的連貫性、表情的自然性以及光影的匹配,留意面部對稱性和眼睛反射的異常。
對于AIGC編輯,prompt聚焦于文字生成和視覺邏輯,要求分析文字拼寫是否正確、排列是否合理,并判斷場景中光影和對象位置的合理性。這種針對不同篡改類型的prompt設計確保了FakeShield在檢測與解釋上的高效性和準確性。
FakeShield框架
如圖3所示,該框架包括域標簽引導的可解釋偽造檢測模塊(Domain Tag-guided Explainable Forgery Detection Module,DTE-FDM)和多模態偽造定位模塊(Multi-modal Forgery Localization Module,MFLM)兩個關鍵部分。
DTE-FDM負責圖像偽造檢測與檢測結果分析,利用數據域標簽(domain tag)彌合不同偽造類型數據之間的數據域沖突,引導多模態大語言模型生成檢測結果及判定依據。MFLM則使用DTE-FDM輸出的對于篡改區域的描述作為視覺分割模型的Prompt,引導其精確定位篡改區域。
圖3:FakeShield框架圖
Domain Tag-guided Explainable Forgery Detection Module(DTE-FDM)
DTE-FDM模塊負責圖像偽造檢測與檢測結果的分析,通過生成數據域標簽(domain tag)來緩解不同偽造類型數據(如Photoshop編輯、DeepFake、AIGC編輯)之間的數據域沖突。這些標簽引導多模態大語言模型(LLM)聚焦于各類型篡改的特征,實現針對性檢測與解釋。
在檢測過程中,輸入圖像I_ori通過數據域標簽生成器G_dt分配特定標簽T_tag,表明該圖像的偽造類型。接著,圖像經過編碼器F_enc和線性投影層F_proj轉化為特征向量T_img。
這些圖像特征與指令文本T_ins一并輸入LLM,生成檢測結果O_det,包括是否篡改、具體的篡改區域描述以及解釋性分析。
具體過程如下:
DTE-FDM不僅判斷圖像的真實性,還根據不同偽造類型生成詳細的判定依據,包括光照一致性、邊緣偽影、分辨率差異等。這種設計確保模型能夠應對多樣化的偽造場景,增強了檢測的準確性和解釋性,使FakeShield在應對復雜篡改任務時具有更強的泛化能力與實用性。
Multi-modal Forgery Localization Module(MFLM)
MFLM模塊負責精準定位圖像中的篡改區域,通過多模態特征對齊的方式將文本和視覺信息融合,從而生成準確的篡改掩膜。MFLM的設計旨在解決僅依賴單一模態信息所帶來的定位不準確問題,增強對復雜篡改區域的識別能力。
在MFLM中,輸入的圖像I_ori經過Tamper Comprehension Module (TCM) 編碼,將圖像特征與解釋性文本O_det進行對齊。對齊后的嵌入表示通過多層感知機(MLP)投影為特殊的令牌嵌入用于指導分割模型生成篡改區域掩膜,用于指導分割模型生成篡改區域掩膜M_loc。
整個過程如下:
圖片
其中,S_enc和S_dec分別為圖像的編碼器與解碼器,Extract(?)為提取嵌入的操作,通過上述步驟,MFLM利用文本描述和圖像特征的對齊生成準確的二值掩膜。
此外,MFLM使用了LoRA微調技術,對模型進行輕量化優化,提高了處理效率并降低了計算成本。與單一模態分割方法相比,這種多模態交互的設計使得MFLM能夠應對更加復雜的篡改場景,如光照不一致、透視錯誤和對象拼接,從而顯著提升篡改區域的定位準確性。
實驗結果
我們對FakeShield與多種IFDL方法和多模態大語言模型(MLLM)在檢測、解釋和定位方面的性能進行了全面對比。為了確保結果的公平性,所有IFDL方法均在與FakeShield相同的數據集上進行了訓練和測試。
這一比較覆蓋了Photoshop、DeepFake以及AIGC編輯等多種篡改場景,全面評估了各模型在多模態信息融合和復雜篡改檢測中的表現。
檢測性能對比
我們與MVSS-Net,CAT-Net等其他先進的IFDL方法進行了檢測性能的對比,結果如表1所示。實驗結果表明,FakeShield在Photoshop、DeepFake和AIGC編輯等數據集上的檢測準確率(ACC)和F1分數均顯著優于其他方法。通過引入域標簽引導策略(domain-tag guidance),FakeShield能夠有效處理多種篡改類型,增強跨領域的泛化能力。
表1:FakeShield與主流IFDL方法的定位性能比較
解釋性能對比
我們通過與預訓練的多模態大語言模型(M-LLMs)在Photoshop、DeepFake和AIGC編輯數據集上的表現進行對比,評估了FakeShield的解釋能力,結果如表2所示。
我們采用余弦語義相似度(CSS)作為衡量指標,FakeShield在各項測試中均取得了最高分數,展現了其生成準確且詳細篡改區域描述的能力。這表明,FakeShield能夠在復雜的篡改場景中生成與真實情況高度一致的解釋性描述,大幅提升了模型在檢測過程中的可解釋性與透明度。
表2:FakeShield與主流通用MLLM方法的解釋性能比較
定位性能對比
我們通過與其他先進的IFDL方法在Photoshop和AIGC編輯等數據集上的表現進行對比,評估了FakeShield在篡改區域定位方面的能力,結果如表3所示。實驗結果表明,FakeShield在大多數測試集中均取得了最高的IoU和F1分數。
表3:FakeShield與主流IFDL方法的定位性能比較
另外,圖4的主觀結果對比也表明,FakeShield能夠生成更加清晰且精確的篡改區域分割,準確捕捉邊界,而其他方法如PSCC-Net則容易產生模糊且過于寬泛的預測。
圖4:FakeShield與主流IFDL方法的定位性能的定性比較
參考資料:https://arxiv.org/abs/2410.02761