使用紋理對比度檢測檢測AI生成的圖像
在本篇文章中我們將介紹如何開發一個深度學習模型來檢測人工智能生成的圖像。
大多數用于檢測人工智能生成圖像的深度學習方法取決于生成圖像的方法,或者取決于圖像的性質/語義,其中模型只能檢測人工智能生成的人、臉、汽車等特定對象。
但是這篇論文“Rich and Poor Texture Contrast: A Simple yet Effective Approach for AI-generated Image Detection”所提出的方法克服了上述問題,適用范圍更廣。我們將解釋這篇論文,以及它是如何解決許多其他檢測人工智能生成圖像的方法所面臨的問題的。
泛化性問題
當我們訓練一個模型(如ResNet-50)來檢測人工智能生成的圖像時,模型會從圖像的語義中學習。如果訓練一個通過使用真實圖像和人工智能生成的不同汽車圖像來檢測人工智能生成的汽車圖像的模型,那么目前的模型只能從該數據中獲得有關汽車的信息,而對于其他的物體就無法進行判別
雖然可以在各種對象的數據上進行訓練,但當我們嘗試這樣做時,這種方法慢得多,并且只能夠在未見過的數據上給出大約72%的準確率。雖然可以通過更多的訓練和更多的數據來提高準確率,但我們不可能找到無窮無盡的數據進行訓練。
也就是說目前檢測模型的泛化性有很大的問題,為了解決這個問題,論文提出了以下的方法
Smash&Reconstruction
這篇論文提出了一種獨特的方法來防止模型從圖像的形狀(在訓練期間)學習人工智能生成的特征。它通過一個名為Smash&Reconstruction的方法來實現這一點。
在該方法將圖像分成預定大小的小塊,并對它們進行打亂洗牌生成形成新圖像。這只是一個簡單的解釋,因為在形生成模型最終的輸入圖像之前還有一個額外的步驟。
將圖像分割成小塊后,我們將小塊分成兩組,一組是紋理豐富的小塊,另一組是紋理較差的小塊。
圖像中細節豐富的區域,如物體或兩個對比色區域之間的邊界,就成為一個豐富的紋理塊。與主要是背景的紋理區域(如天空或靜止的水)相比,豐富的紋理區域在像素上有很大的變化。
計算紋理豐富的指標
首先將圖像分成預先確定大小的小塊,如上圖所示。然后找到這些圖像塊的像素梯度(即找出水平方向、對角線方向和反對角線方向上的像素值之差并將它們相加),并將它們分離成豐富紋理塊和紋理較差塊。
與紋理較差的塊相比,紋理豐富的塊具有更高的像素梯度值,計算圖像梯度值得公式如下:
在像素對比度的基礎上對圖像進行分離,得到兩幅合成圖像。這一過程是本文稱之為“Smash&Reconstruction”的完整過程。
這樣就讓模型學習到得是紋理的細節,而不是物體的內容表征
fingerprint
大多數基于指紋的方法受到圖像生成技術的限制,這些模型/算法只能檢測由特定方法/類似方法(如擴散、GAN或其他基于CNN的圖像生成方法)生成的圖像。
為了精確地解決這個問題,論文已經將這些圖像塊劃分為豐富或貧乏的紋理。然后作者又提出了一種識別人工智能生成圖像指紋的新方法,這也就是論文的標題。他們提出在應用30個高通濾波器后,找到圖像中豐富和貧乏紋理斑塊之間的對比度。
豐富和貧乏的紋理塊之間的對比度有什么幫助呢?
為了更好理解,我們將圖像并排比較,真實圖像和人工智能生成的圖像。
這兩張圖像使用肉眼觀看也是很難查看他們的去別的對吧
論文首先使用Smash&Reconstruction 過程:
在每個圖像上應用30個高通濾波器后,它們之間的對比度:
從這些結果中我們可以看到,人工智能生成的圖像與真實圖像的對比度相比,紋理斑塊豐富和貧乏的對比度要高得多。
這樣我們用肉眼就可以看到區別了,所以可以將對比度的結果放入可訓練模型,并將結果數據輸入分類器,這樣就是我們這篇論文的模型架構:
分類器的結構如下:
論文中提到了30個高通濾波器,這些濾波器最初是為隱寫分析而引入的。
注:圖片隱寫的方式有很多種。廣義上,只要通過某種方式將信息隱藏到圖片中而難以通過普通方式發現,就可以稱為圖片隱寫,對于隱寫分析有很多相關的研究,有興趣的可以查閱相關資料。
這里的過濾器是使用卷積方法應用于圖像的矩陣值,所使用的濾波器是高通濾波器,它只允許圖像的高頻特征通過它。高頻特征通常包括邊緣、精細細節和強度或顏色的快速變化。
除(f)和(g)外,所有濾波器在重新應用于圖像之前都以一定角度旋轉,因此總共形成30個濾波器。這些矩陣的旋轉是用仿射變換完成的,而仿射變換是用SciPy完成的。
總結
論文的結果已經達到了92%的驗證精度,并且據說如果訓練的更多還會有更好的結果,這是一個非常有意思的研究,我還找到了訓練的代碼,有興趣的可以深入研究:
論文:https://arxiv.org/abs/2311.12397
代碼:https://github.com/hridayK/Detection-of-AI-generated-images