KDD2025|小紅書聯(lián)合中科大提出1.44M輕量高效AI圖像檢測模型,超SOTA 4.5個點
當下,AI 生成圖像的技術(shù)足以以假亂真,在社交媒體肆意傳播。如何對不同生成模型實現(xiàn)通用檢測?小紅書聯(lián)合中國科學技術(shù)大學給出了解決方案,僅用 1.44M 參數(shù)量實現(xiàn)了通用 AI 圖片檢測,在 33 個測試子集上達到 96.7% 的準確率,超 SOTA 模型 4.5 個百分點。這項研究目前已經(jīng)被 KDD 2025 接收。
論文鏈接:
https://arxiv.org/abs/2408.06741
代碼鏈接:
https://github.com/Ouxiang-Li/SAFE
01 AI圖像共性:源于成像機制
要實現(xiàn)通用的 AI 圖像檢測,核心問題是如何泛化到未知的生成模型上去,現(xiàn)在主流的生成模型包括生成對抗網(wǎng)絡 GANs 和擴散模型 DMs。
研究團隊從生成模型架構(gòu)的共性出發(fā),期望從 AI 圖像和真實圖像的成像機制的差異中找到突破口。
在 GANs 中,先通過全連接層把低分辨率的潛在特征變成高分辨率,然后用上采樣和卷積操作合成圖像。DMs 呢,先把有噪圖像通過池化和卷積操作降維,再通過同樣的操作升維預測噪聲。
這兩種模型在合成圖像時,都大量使用上采樣和卷積,而這兩個操作在數(shù)值計算上相當于對像素值加權(quán)平均,會讓合成圖像相鄰像素的局部相關性變強,留下獨特的 “偽影特征”,這就是 AI 圖像檢測的關鍵線索。
02 檢測方法”跑偏“:錯在訓練策略
想象一下,你要在一堆真假難辨的畫作里找出贗品,如果用來鑒定的方法本身就有缺陷,那肯定很難完成任務。
現(xiàn)有的 AI 圖像檢測方法,就面臨著這樣的困境。
當前的 AI 圖像檢測方法大多將重點放在挖掘真實圖像與 AI 圖像之間的通用差異,,也就是“通用偽影特征”,卻忽略了訓練過程中的關鍵問題。
研究團隊發(fā)現(xiàn),當前的訓練模式存在兩大問題。
第一個問題是“弱化的偽影特征”。
AI 圖像在生成過程中,由于使用了上采樣和卷積等操作,圖像像素之間的聯(lián)系變得更加緊密,從而留下了可供檢測的痕跡。然而,許多檢測方法在對圖像進行預處理時,常常采用下采樣操作來統(tǒng)一圖像尺寸,這一操作會“抹除”那些細微的痕跡,大大增加了檢測的難度。
第二個問題是“過擬合的偽影特征”。
現(xiàn)有的檢測方法在訓練時,數(shù)據(jù)增強方式較為單一,比如僅僅進行水平翻轉(zhuǎn)操作。這就使得模型過度適應了訓練數(shù)據(jù)中的特定特征,出現(xiàn)過擬合現(xiàn)象。一旦遇到未曾見過的 AI 圖像,模型就無法準確識別,泛化性能較差。
03 簡單圖像變換:有效去偏
為了解決這些問題,研究團隊提出了 SAFE,它憑借三種簡單的圖像變換直擊難題。
第一是痕跡保留(Artifact Preservation)。
SAFE 在圖像預處理階段,舍棄了傳統(tǒng)的下采樣(Resize)操作,改為采用裁剪(Crop)操作。在訓練過程中進行隨機裁剪(RandomCrop),測試時則使用中心裁剪(CenterCrop)。這樣一來,AI 圖像中的細節(jié)以及像素之間的微妙聯(lián)系得以保留,方便檢測器發(fā)現(xiàn)那些細微的“破綻”,顯著提升了捕捉 AI 偽影的能力。
第二是不變性增強(Invariant Augmentation)。
SAFE 引入了 ColorJitter 和 RandomRotation 兩種數(shù)據(jù)增強方式。ColorJitter 通過在色彩空間中對圖像進行調(diào)整,能夠有效減少因顏色模式差異而帶來的偏差。RandomRotation 則讓模型在不同旋轉(zhuǎn)角度下依然能夠聚焦于像素之間的聯(lián)系,避免受到與旋轉(zhuǎn)相關的無關特征的干擾,增強了模型對圖像旋轉(zhuǎn)的適應能力。
第三是局部感知(Local Awareness)。
SAFE 提出了基于 Patch 的隨機掩碼策略(RandomMask)。在訓練時,按照一定概率對圖像實施隨機掩碼,引導模型將注意力集中在局部區(qū)域,進而提升模型的局部感知能力。令人驚喜的是,即使圖像的大部分區(qū)域被掩蔽,模型依然能夠依據(jù)剩余的未掩蔽部分準確判斷圖像的真?zhèn)巍?/p>
此外,SAFE 利用簡單的離散小波變換(DWT)來提取高頻特征,并將其作為檢測的偽影特征。由于 AI 圖像與自然圖像在高頻分量上存在明顯差異,DWT 能夠很好地保留圖像的空間結(jié)構(gòu),有效提取這些差異特征。
04 實驗對比:輕量且高效
研究團隊開展了大量實驗,以驗證 SAFE 的實際效果。
在實驗設置上,訓練數(shù)據(jù)選用 ProGAN 生成的 AI 圖像以及對應的真實圖像,測試數(shù)據(jù)則廣泛涵蓋了多種來源的自然圖像,以及由 26 種不同生成模型所生成的 AI 圖像,包括常見的 GANs 和 DMs 等。并且選取了 10 種極具代表性的方法作為基線進行對比,通過精確的分類準確率(ACC)和平均精度(AP)來衡量檢測效果。
4.1 泛化性能對比
SAFE 在 33 個測試子集上達到了平均 96.7% 的準確率,超過 SOTA 方法 4.5 個點。
值得注意的是,SAFE只有 1.44M 的參數(shù)量,在實際推理時的 FLOPs 僅為 2.30B,相比于 SOTA 方法有 50 多倍的效率提升,便于工業(yè)部署。
針對最新的基于 DiTs 的生成器,研究團隊構(gòu)建了 DiTFake 測試集,包含最新的生成模型Flux、SD3 以及 PixArt。SAFE 在 DiTFake 上表現(xiàn)堪稱卓越,平均準確率達到 99.4%,對新型生成器的泛化能力極強。
4.2 即插即用的特性
值得一提的是,由于 SAFE 具有模型無關的特性,研究人員將其提出的圖像變換作為一個即插即用的模塊,應用到現(xiàn)有的檢測方法之中。從 GenImage 測試集的對比結(jié)果來看,這一應用帶來了令人驚喜的效果,檢測性能得到了一致提升。
4.3 消融實驗
研究團隊還進行了充分的消融實驗,深入探究模型各個組成部分的具體作用。
在圖像預處理環(huán)節(jié),重點聚焦于裁剪(Crop)操作的效能探究。實驗數(shù)據(jù)有力地證實,在訓練進程中,裁剪操作相較于傳統(tǒng)的下采樣(Resize),具有不可替代的關鍵作用。
即使測試圖片在傳輸過程中不可避免地經(jīng)歷了下采樣操作,基于裁剪方法比基于下采樣方法訓練出的模型仍表現(xiàn)出更好的檢測效果。
對于數(shù)據(jù)增強技術(shù),分別對 ColorJitter、RandomRotation 和 RandomMask 進行了單獨和組合的效果評估。這三種數(shù)據(jù)增強技術(shù)不僅各自都能發(fā)揮有效的作用,而且當它們共同作用時,效果更加顯著,能夠進一步提升檢測性能。
在特征提取方面,研究團隊對不同的圖像處理算子進行了消融,包括用原圖(Naive)、頻域變換算子(FFT、DCT、DWT)、邊緣提取算子(Sobel、Laplace)以及不同的頻帶(LL、LH、HL、HH)。
因為 AI 圖像在高頻部分的擬合能力相對較弱,通過高頻信息的差異進行判別展現(xiàn)出了卓越的性能。在高頻信息提取上,F(xiàn)FT 和 DCT 仍表現(xiàn)出和 DWT 相當?shù)男阅埽f明簡單的頻域變換已經(jīng)能夠很好地進行 AI 圖像檢測。
SAFE 為 AI 圖像檢測領域開辟了新的方向。它促使我們重新思考復雜的人工設計特征的必要性,也啟發(fā)后續(xù)研究可以從優(yōu)化訓練模式入手,減少訓練偏差。
05 結(jié)論與展望
本論文通過對現(xiàn)有 AI 生成圖像檢測方法的重新審視,提出了一個新的問題設定,構(gòu)建了更具挑戰(zhàn)性的 Chameleon 數(shù)據(jù)集,并設計了一個融合多專家特征的檢測器 AIDE。實驗結(jié)果表明,AIDE 在現(xiàn)有的兩個流行基準(AIGCDetectBenchmark 和GenImage)上取得了顯著的性能提升,分別比現(xiàn)有的最先進方法提高了 3.5% 和 4.6% 的準確率。然而,在我們提出的 Chameleon 基準上,盡管 AIDE 取得了最好的性能,但與現(xiàn)有基準相比,仍存在較大的差距。
這表明,檢測 AI 生成圖像的任務仍然具有很大的挑戰(zhàn)性,需要未來進一步的研究和改進。我們希望我們的工作能夠為這一領域的研究提供新的思路和方向,推動 AI 生成圖像檢測技術(shù)的發(fā)展。
盡管AIDE模型在AI生成圖像檢測領域取得了顯著進展,但研究者們?nèi)杂媱澰谖磥淼墓ぷ髦羞M一步優(yōu)化模型架構(gòu),此外,研究者們還計劃擴大Chameleon數(shù)據(jù)集的規(guī)模,涵蓋更多類別、更多場景、更多生成模型的圖像,以推動AI生成圖像檢測技術(shù)的進一步發(fā)展,敬請期待!
同時團隊還有一篇 AI 圖像鑒別的相關工作,提出了行業(yè)稀缺的全手工標注“幻像熔爐” Chameleon基準和行業(yè)領先的“超級偵探” AIDE檢測方法,歡迎閱讀。