KDD2025｜小紅書聯(lián)合中科大提出1.44M輕量高效AI圖像檢測模型，超SOTA 4.5個點

作者：又在技術(shù)上突破的 2025-03-03 08:00:00

小紅書聯(lián)合中國科學技術(shù)大學給出了解決方案，僅用 1.44M 參數(shù)量實現(xiàn)了通用 AI 圖片檢測，在 33 個測試子集上達到 96.7% 的準確率，超 SOTA 模型 4.5 個百分點。這項研究目前已經(jīng)被 KDD 2025 接收。

當下，AI 生成圖像的技術(shù)足以以假亂真，在社交媒體肆意傳播。如何對不同生成模型實現(xiàn)通用檢測？小紅書聯(lián)合中國科學技術(shù)大學給出了解決方案，僅用 1.44M 參數(shù)量實現(xiàn)了通用 AI 圖片檢測，在 33 個測試子集上達到 96.7% 的準確率，超 SOTA 模型 4.5 個百分點。這項研究目前已經(jīng)被 KDD 2025 接收。

論文鏈接：

https://arxiv.org/abs/2408.06741

代碼鏈接：

https://github.com/Ouxiang-Li/SAFE

01 AI圖像共性：源于成像機制

要實現(xiàn)通用的 AI 圖像檢測，核心問題是如何泛化到未知的生成模型上去，現(xiàn)在主流的生成模型包括生成對抗網(wǎng)絡 GANs 和擴散模型 DMs。

研究團隊從生成模型架構(gòu)的共性出發(fā)，期望從 AI 圖像和真實圖像的成像機制的差異中找到突破口。

在 GANs 中，先通過全連接層把低分辨率的潛在特征變成高分辨率，然后用上采樣和卷積操作合成圖像。DMs 呢，先把有噪圖像通過池化和卷積操作降維，再通過同樣的操作升維預測噪聲。

這兩種模型在合成圖像時，都大量使用上采樣和卷積，而這兩個操作在數(shù)值計算上相當于對像素值加權(quán)平均，會讓合成圖像相鄰像素的局部相關性變強，留下獨特的 “偽影特征”，這就是 AI 圖像檢測的關鍵線索。

02 檢測方法”跑偏“：錯在訓練策略

想象一下，你要在一堆真假難辨的畫作里找出贗品，如果用來鑒定的方法本身就有缺陷，那肯定很難完成任務。

現(xiàn)有的 AI 圖像檢測方法，就面臨著這樣的困境。

當前的 AI 圖像檢測方法大多將重點放在挖掘真實圖像與 AI 圖像之間的通用差異，，也就是“通用偽影特征”，卻忽略了訓練過程中的關鍵問題。

研究團隊發(fā)現(xiàn)，當前的訓練模式存在兩大問題。

第一個問題是“弱化的偽影特征”。

AI 圖像在生成過程中，由于使用了上采樣和卷積等操作，圖像像素之間的聯(lián)系變得更加緊密，從而留下了可供檢測的痕跡。然而，許多檢測方法在對圖像進行預處理時，常常采用下采樣操作來統(tǒng)一圖像尺寸，這一操作會“抹除”那些細微的痕跡，大大增加了檢測的難度。

第二個問題是“過擬合的偽影特征”。

現(xiàn)有的檢測方法在訓練時，數(shù)據(jù)增強方式較為單一，比如僅僅進行水平翻轉(zhuǎn)操作。這就使得模型過度適應了訓練數(shù)據(jù)中的特定特征，出現(xiàn)過擬合現(xiàn)象。一旦遇到未曾見過的 AI 圖像，模型就無法準確識別，泛化性能較差。

03 簡單圖像變換：有效去偏

為了解決這些問題，研究團隊提出了 SAFE，它憑借三種簡單的圖像變換直擊難題。

第一是痕跡保留（Artifact Preservation）。

SAFE 在圖像預處理階段，舍棄了傳統(tǒng)的下采樣（Resize）操作，改為采用裁剪（Crop）操作。在訓練過程中進行隨機裁剪（RandomCrop），測試時則使用中心裁剪（CenterCrop）。這樣一來，AI 圖像中的細節(jié)以及像素之間的微妙聯(lián)系得以保留，方便檢測器發(fā)現(xiàn)那些細微的“破綻”，顯著提升了捕捉 AI 偽影的能力。

第二是不變性增強（Invariant Augmentation）。

SAFE 引入了 ColorJitter 和 RandomRotation 兩種數(shù)據(jù)增強方式。ColorJitter 通過在色彩空間中對圖像進行調(diào)整，能夠有效減少因顏色模式差異而帶來的偏差。RandomRotation 則讓模型在不同旋轉(zhuǎn)角度下依然能夠聚焦于像素之間的聯(lián)系，避免受到與旋轉(zhuǎn)相關的無關特征的干擾，增強了模型對圖像旋轉(zhuǎn)的適應能力。

第三是局部感知（Local Awareness）。

SAFE 提出了基于 Patch 的隨機掩碼策略（RandomMask）。在訓練時，按照一定概率對圖像實施隨機掩碼，引導模型將注意力集中在局部區(qū)域，進而提升模型的局部感知能力。令人驚喜的是，即使圖像的大部分區(qū)域被掩蔽，模型依然能夠依據(jù)剩余的未掩蔽部分準確判斷圖像的真?zhèn)巍?/p>

此外，SAFE 利用簡單的離散小波變換（DWT）來提取高頻特征，并將其作為檢測的偽影特征。由于 AI 圖像與自然圖像在高頻分量上存在明顯差異，DWT 能夠很好地保留圖像的空間結(jié)構(gòu)，有效提取這些差異特征。

04 實驗對比：輕量且高效

研究團隊開展了大量實驗，以驗證 SAFE 的實際效果。

在實驗設置上，訓練數(shù)據(jù)選用 ProGAN 生成的 AI 圖像以及對應的真實圖像，測試數(shù)據(jù)則廣泛涵蓋了多種來源的自然圖像，以及由 26 種不同生成模型所生成的 AI 圖像，包括常見的 GANs 和 DMs 等。并且選取了 10 種極具代表性的方法作為基線進行對比，通過精確的分類準確率（ACC）和平均精度（AP）來衡量檢測效果。

4.1 泛化性能對比

SAFE 在 33 個測試子集上達到了平均 96.7% 的準確率，超過 SOTA 方法 4.5 個點。

值得注意的是，SAFE只有 1.44M 的參數(shù)量，在實際推理時的 FLOPs 僅為 2.30B，相比于 SOTA 方法有 50 多倍的效率提升，便于工業(yè)部署。

針對最新的基于 DiTs 的生成器，研究團隊構(gòu)建了 DiTFake 測試集，包含最新的生成模型Flux、SD3 以及 PixArt。SAFE 在 DiTFake 上表現(xiàn)堪稱卓越，平均準確率達到 99.4%，對新型生成器的泛化能力極強。

4.2 即插即用的特性

值得一提的是，由于 SAFE 具有模型無關的特性，研究人員將其提出的圖像變換作為一個即插即用的模塊，應用到現(xiàn)有的檢測方法之中。從 GenImage 測試集的對比結(jié)果來看，這一應用帶來了令人驚喜的效果，檢測性能得到了一致提升。

4.3 消融實驗

研究團隊還進行了充分的消融實驗，深入探究模型各個組成部分的具體作用。

在圖像預處理環(huán)節(jié)，重點聚焦于裁剪（Crop）操作的效能探究。實驗數(shù)據(jù)有力地證實，在訓練進程中，裁剪操作相較于傳統(tǒng)的下采樣（Resize），具有不可替代的關鍵作用。

即使測試圖片在傳輸過程中不可避免地經(jīng)歷了下采樣操作，基于裁剪方法比基于下采樣方法訓練出的模型仍表現(xiàn)出更好的檢測效果。

對于數(shù)據(jù)增強技術(shù)，分別對 ColorJitter、RandomRotation 和 RandomMask 進行了單獨和組合的效果評估。這三種數(shù)據(jù)增強技術(shù)不僅各自都能發(fā)揮有效的作用，而且當它們共同作用時，效果更加顯著，能夠進一步提升檢測性能。

在特征提取方面，研究團隊對不同的圖像處理算子進行了消融，包括用原圖（Naive）、頻域變換算子（FFT、DCT、DWT）、邊緣提取算子（Sobel、Laplace）以及不同的頻帶（LL、LH、HL、HH）。

因為 AI 圖像在高頻部分的擬合能力相對較弱，通過高頻信息的差異進行判別展現(xiàn)出了卓越的性能。在高頻信息提取上，F(xiàn)FT 和 DCT 仍表現(xiàn)出和 DWT 相當?shù)男阅埽f明簡單的頻域變換已經(jīng)能夠很好地進行 AI 圖像檢測。

SAFE 為 AI 圖像檢測領域開辟了新的方向。它促使我們重新思考復雜的人工設計特征的必要性，也啟發(fā)后續(xù)研究可以從優(yōu)化訓練模式入手，減少訓練偏差。

05 結(jié)論與展望

本論文通過對現(xiàn)有 AI 生成圖像檢測方法的重新審視，提出了一個新的問題設定，構(gòu)建了更具挑戰(zhàn)性的 Chameleon 數(shù)據(jù)集，并設計了一個融合多專家特征的檢測器 AIDE。實驗結(jié)果表明，AIDE 在現(xiàn)有的兩個流行基準（AIGCDetectBenchmark 和GenImage）上取得了顯著的性能提升，分別比現(xiàn)有的最先進方法提高了 3.5% 和 4.6% 的準確率。然而，在我們提出的 Chameleon 基準上，盡管 AIDE 取得了最好的性能，但與現(xiàn)有基準相比，仍存在較大的差距。

這表明，檢測 AI 生成圖像的任務仍然具有很大的挑戰(zhàn)性，需要未來進一步的研究和改進。我們希望我們的工作能夠為這一領域的研究提供新的思路和方向，推動 AI 生成圖像檢測技術(shù)的發(fā)展。

盡管AIDE模型在AI生成圖像檢測領域取得了顯著進展，但研究者們?nèi)杂媱澰谖磥淼墓ぷ髦羞M一步優(yōu)化模型架構(gòu)，此外，研究者們還計劃擴大Chameleon數(shù)據(jù)集的規(guī)模，涵蓋更多類別、更多場景、更多生成模型的圖像，以推動AI生成圖像檢測技術(shù)的進一步發(fā)展，敬請期待！

同時團隊還有一篇 AI 圖像鑒別的相關工作，提出了行業(yè)稀缺的全手工標注“幻像熔爐” Chameleon基準和行業(yè)領先的“超級偵探” AIDE檢測方法，歡迎閱讀。

責任編輯：龐桂玉來源：小紅書技術(shù)REDtech

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看