成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

什么樣才算好圖——從生圖模型質量度量方法看模型能力的發展

發布于 2024-3-28 14:10
瀏覽
0收藏

本文總結了近10年來的生圖模型論文中用到的評價指標,并嘗試解答兩個問題

  1. 不同時期的評價標準都有哪些特點?
  2. 圖片質量的評價如何輔助模型的迭代??

一、前言

隨著各種文生圖模型逐漸從toy project進入到生產鏈路,在線上實際落地并產生業務價值,同時自研/來源模型也進入了快速迭代的階段。

一套直指問題、綜合拓展性和復用性的評價指標變得尤為寶貴,從效果上來講,如果說數據質量決定了模型效果的上限,那么指標的好壞直接決定了模型下限的位置。

2016年以前圖像質量檢測主要是在構建各種手動特征,最初圖片質量是作為一個二類問題,后來根據不同的對象/場景衍生出多了分類的問題,2016年到2019年期間,GAN方法生成的圖片越來越逼真,此時各家的指標更多的關注GAN生成圖像和樣本圖像之間的差異以及生成圖片的多樣性(mode collapse)。

自2020年往后,transformor火遍機器學習圈,同時多模態大模型能力也越來越強,在圖片美觀度、真實度這種抽象的指標的評價在LLM上又有比較好的表現,同時因為zero-shot和few-shot的特性,在一些自定義的指標上LLM可以快速響應,對于使用方來說,這種方式也是更友好的。

二、2016年以前

在深度特征出現以前,傳統方法設計了設計大量的手動特征特征來研究計算機美學這個問題。常見做法是通過各種圖像變換產出不同的特征并通過一個有監督的模型評價評價整體的圖片質量。

手動特征方法

主物體明確,背景不雜亂

一般來說我們希望圖片主題明確,輪廓清晰,如下圖左圖內容就是一個較為雜亂的室內場景,右圖明顯優于左圖,由于左圖背景雜亂,圖片邊界有較多的邊緣,而右圖的邊緣集中在圖片中心。


什么樣才算好圖——從生圖模型質量度量方法看模型能力的發展-AI.x社區


具體實現方法,通過一個3*3的拉普拉斯濾波器對每一層通道進行邊緣提取并取得均值,然后對整體resize到100*100的范圍,將圖片像素總和歸一化,并分別投影到X軸和Y軸,取邊緣98%作為邊框的大小(Wx,Wy),按照前文的假設,越雜亂的圖片邊緣像素點越多,最終圖片的邊框面積為 1-Wx*Wy,圖a和圖b的邊框面積分別為0.94和0.56。

色彩分布

統計圖片的色彩分布,最直觀的就是顏色直方圖。好的照片,一般會有一個統一的風格。或偏暖色,或偏冷色,這些都可以通過彩色直方圖表征出來。同時,局部直方圖的復雜程度,也可以反映出圖像風格的一致性。

色調分析

這是從色調的特性上來分享一張好圖。一張好的靜物攝影,色調一般會比較單一,不會五顏六色的各種顏色都雜糅在一起。

模糊

一般來說一個模糊圖片的質量要比清晰圖片的質量更差的,假設一張模糊的圖片是經過用高斯平滑濾波器處理后的,那么要在僅知道模糊圖片的情況下計算出平滑參數即可評估出圖片質量,這里是通過一個二階傅立葉變化并計算大于某個閾值a(這里使用5)的頻率數量來表示清晰圖片的最大頻率,自此我們評估出圖片質量的一個評分。如下,a圖的質量分數為0.91,b圖為0.58

什么樣才算好圖——從生圖模型質量度量方法看模型能力的發展-AI.x社區

深度特征

RAPID: Rating Pictorial Aesthetics using Deep Learning (ACM MM2014)

第一個使用深度學習做美學評分的論文了。作者考慮了在美學評估中要同時考慮整體布局和細節內容。因此作者除了將圖片整體輸入模型,還會從圖片中摳出很多(patch)輸入網絡,兩者結合起來進行分類。其在圖片中摳取patch的方式在后續論文中都有借鑒。


什么樣才算好圖——從生圖模型質量度量方法看模型能力的發展-AI.x社區


Composition-preserving Deep Photo Aesthetics Assessment (CVPR 2016)

由于CNN中必須將圖片resize到固定尺寸輸入到網絡,這種方式往往會破壞圖片的布局,這種方法沒有使用patch的分割方法,提出了一種Adaptive Spatial Pooling 的操作:動態地將不同 size 的 feature map 處理成指定的 size 大小,這個操作可以參考SPPNet。結合多個 Adaptive Spatial Pooling 得到多個 size 的 feature map。同時這時期一些論文也證明了場景語意信息對美學評分會有提升,后續論文也陸續嘗試了將場景特征加入到網絡中。


什么樣才算好圖——從生圖模型質量度量方法看模型能力的發展-AI.x社區



三、2016~2019

生成式對抗網絡(Generative Adversarial Networks, GAN)自在2014年被Ian Goodfellow提出后,就在深度學習領域掀起了一場革命,GAN 主要分為兩部分:生成模型和判別模型。生成模型的作用是模擬真實數據的分布,判別模型的作用是判斷一個樣本是真實的樣本還是生成的樣本,GAN 的目標是訓練一個生成模型完美的擬合真實數據分布使得判別模型無法區分。從這里我們可以看出來,GAN的最終結果的好壞一定是要比較樣本集和生成集的差距,同時為了不讓最終的圖片過于單一,多樣性的指標也是要被考慮在內,又因為GAN本身是無監督的,一個好的評價方法(損失函數)直接會對結果造成影響。

Inception Score(IS)

方法

Inception Score(IS)FID中使用了Inception-v3,這個網絡最初由google在2014年提出,用于ImageNet上的圖片分類,輸入一個圖片,輸出一個1000維的tensor代表輸出類別,在GAN生成數據中常用來評價數據的多樣性和數據的質量。

假定x為生成的圖像,y為生成的圖片的判別器的分類結果在IS中即為一個1000類別的分類,那么圖片的質量越高則判別器的分類結果越穩定(屬于某一個類別的概率越高),即P(y|x)的熵越小。

在此基礎上,從一個圖片集合的角度考慮,如果圖片是多種多樣的,那么他們涵蓋的類目數也應該是盡可能多的,即P(y)的熵應該越大越好。

由于我們要最小化P(y|x)的熵:

什么樣才算好圖——從生圖模型質量度量方法看模型能力的發展-AI.x社區

最大化P(y)的熵:

什么樣才算好圖——從生圖模型質量度量方法看模型能力的發展-AI.x社區

說到衡量兩個概率分布的距離的方式,那就是KL散度了,KL散度的一般形式如下:

什么樣才算好圖——從生圖模型質量度量方法看模型能力的發展-AI.x社區

由于實際中,選取大量生成樣本,用經驗分布模擬 p(y):

什么樣才算好圖——從生圖模型質量度量方法看模型能力的發展-AI.x社區

最終得到的IS計算公式為:

什么樣才算好圖——從生圖模型質量度量方法看模型能力的發展-AI.x社區

其實還是求P(y|x)和P(y)的KL散度套了一個exp,并不影響最終的單調性。

局限性

  1. 當一個圖片的類目本身并不確定,或者在原數據集中并沒有出現過,那么此時的p(y|x)的概率密度就不再是一個尖銳的分布,而是趨于平緩,
  2. 不能判別出網絡是否過擬合,當GAN生成數據和訓練集完全相同時,會得到極高的IS分數,但是這種模型毫無作用。
  3. 如果某一個物體的類別本身就比較模糊,在幾種類別會得到相近的分數,或者這個物體類別在ImageNet中不存在,那么p(y|x)的概率密度就不再是一個尖銳的分布;如果生成模型在每類上都生成了 50 個圖片,那么生成的圖片的類別邊緣分布是嚴格均勻分布的,按照 Inception Score 的假設,這種模型不存在 mode collapse,但是,如果各類中的50個圖片,都是一模一樣的,仍然是 mode collapse(相同模式大量出現)。Inception Score 無法檢測這種同類目下的重復出圖的情況。

總結

綜上,Inception Score可以表現出數據的多樣性和質量,適用于分類模型和生成模型數據集相近的情況,但是存在數值受內部權重影響較大和不能區分過擬合情況的問題,雖然在論文中非常常見,但是實際上生產使用的模型數據集會持續迭代,因此這個指標用于模型自身的迭代還是不夠穩定。另外從文生圖模型的角度來看,這個指標也無法表現模型對文本的響應程度。

Fidelity (FID)

方法

FID(Frechet Inception Distance)是GAN等定量評價指標之一,最早提出于2017年,由于IS在ImageNet上的局限性,當生成的數據樣本超出ImageNet的范圍時,該圖片的效果是不好的,因此FID中使用的是生成數據分布和真實世界數據分布之間的距離,和Inception Score一樣,FID也使用了Inception-v3模型,而FID并沒有直接使用Inception-v3的分類結果,而是獲取了最后一個池化層用于提取圖片特征,通過計算兩組圖像(生成圖像和真實圖像)的均值和協方差,將激活函數的輸出歸納為一個多變量高斯分布。然后將這些統計量用于計算真實圖像和生成圖像集合中的Frechet距離。同時因為Frechet距離關注的是多維空間中移動一個分布到另一個分布所需的“工作”量,所以對于不在ImageNet中,圖片差距較大的情況下也可以有比較好的泛化能力。原文見??https://arxiv.org/abs/1706.08500??


什么樣才算好圖——從生圖模型質量度量方法看模型能力的發展-AI.x社區

Frechet距離的幾何含義


局限性

  1. FID和IS一樣,依賴于現有特征的出現或不出現,即無法判斷到生成的圖片中產生的一些異常結構(頭上出現一張嘴),這種情況FID也會認為是一張好圖。
  2. 同IS,FID無法區分過擬合等。
  3. FID中假設了激活函數的輸出(2048維度的Inception特征)是符合高斯分布的,但實際上這在ReLU之后的結果恒為正數,所以在FID的計算方式下不存在無偏的評估指標。

結論

相較于IS,FID更專注于對于圖片真實性的評價,在樣本集之外的數據中也有比較好的效果,在mode collapsing問題上也適用,適合用作IS之外的補充,作者也證明FID優于IS,因為它對圖像中的細微變化更敏感,即高斯模糊、高斯模糊、椒鹽噪聲。FID使用Inception網絡將生成圖像集合和真實圖像集合轉換為保留圖像高維信息的特征向量。假設這兩個特征向量的分布為高斯分布,并計算其均值和協方差矩陣。通過測量概率分布之間的“距離”(相似程度)來評估生成圖像與真實圖像的相似程度。值越小,質量越高。

Kernel Inception Distance(KID

論文:https://openreview.net/pdf?id=r1lUOzWCW

方法

按照作者的描述,KID沒有像FID那樣的正態分布的假設,是一種無偏的估計。不同的是將圖像的2048維Inception特征通過maximum mean discrepancy(MMD)的方法分別求兩個分布不同樣本在映射空間中的值,用于度量兩個分布之間的距離。通過比較生成樣本和真實樣本之間的距離來評價圖片生成的效果。

MMD是遷移學習中最常見的損失函數之一,MMD在設計之初重新考慮了對一個隨機變量的表現形式,對于簡單的方式我們可以給出一個概率分布函數,像正態分布函數,只要給出均值+方差就可以確定其分布,像高斯分布等,如果兩個分布的均值和方差如果相同的話,這兩個分布應該比較接近,但對于一些高階的、復雜的隨機變量,我們就沒有辦法給出其分布函數,也需要更高階的參數(矩)描述一個分布。

論文《A Hilbert Space Embedding for Distributions》提出了一個高斯核函數,它對應的映射函數恰好可以映射到無窮維上,映射到無窮維上再求期望,正好可以得到隨機變量的高階矩。簡單理解就是將一個分布映射到再生希爾伯特空間(RKHS)(每個核函數都對應一個RKHS)上的一個點,兩個分布之間的距離就可以用兩個點的內積進行表示。至此我們獲得了一個隨機變量的任意階矩的表示。


什么樣才算好圖——從生圖模型質量度量方法看模型能力的發展-AI.x社區

當兩個紅點和藍點在二維空間時,我們很難把他們分開,當映射到多維空間后事情就很容易了

這種方法相比于FLD可以小數據集上更快達到穩定的效果。同時因為KID有一個三次核的無偏估計值,它更一致地匹配人類的感知。


什么樣才算好圖——從生圖模型質量度量方法看模型能力的發展-AI.x社區

結論

對比FID,KID是無偏的,FID是有偏的,在時間效率上,FID為O(n),KID為O(n^2)


Learned Perceptual Image Patch Similarity(LPIPS)

LPIPS在2018年提出,是一種基于深度方法提取圖片比較兩幅圖片相似度的方法,相比于傳統使用的L2、SSIM等方法,LPIPS方法嘗試解決在判斷相似度時更符合人類的感知。如下圖:

什么樣才算好圖——從生圖模型質量度量方法看模型能力的發展-AI.x社區


實際上,兩張圖片是否相似,這是一個比較主觀的結果,從人類判斷的角度上來看,甚至可能受到視覺上下文的影響,該方法嘗試不使用人工的判斷來訓練一個貼近人類感官的相似度的概念。從前文來看,通過深層網絡的內部激活(即便是在圖片分類任務上訓練的)在更廣泛的數據集也是可以適用的,也更符合人類的判斷。

相比于FID,LPIPS 也是利用深度卷積網絡的內部激活,不同的是,LPIPS衡量的是感知相似性,而不是質量評估。


什么樣才算好圖——從生圖模型質量度量方法看模型能力的發展-AI.x社區

總結

2016到2019期間,各家學者對生成圖片度量的方法持續優化,基本上還是聚焦在“什么樣的圖片更貼近真實”,直到2018年,圖片的真實性達到的一定水平,LPIPS提出對于圖片的評價不僅局限于”有多真實“,同時關注到怎么樣讓圖片效果更貼近人類的感官。


四、2020往后

Transformer由谷歌團隊在2017年論文《Attention is All You Need》提出,DDPM的UNet可以根據當前采樣的t預測noise,但沒有引入其他額外條件。但是LDM實現了“以文生圖”,“以圖生圖”等任務,就是因為LDM在預測noise的過程中加入了條件機制,即通過一個編碼器(encoder)將條件和Unet連接起來。一方面,圖片生成的效果在這段時間大幅度提高,另一方面,可以通過自然語言控制生圖模型的輸出,模型的評價指標除了符合人類感官外,圖像美學和圖文對的匹配程度也是后期評價生圖結果的重要指標。

Transformer for image quality(TRIQ)

這是第一個使用Transformer架構用于圖片質量評價的模型,推出自2020年,主要思想是先使用卷積神經網絡(CNN)提取特征,并在其上方使用了一個淺層Transformer編碼器。為了處理不同分辨率的圖像,該架構采用了自適應的位置嵌入。考慮到壓縮圖片的分辨率可能對圖片質量校驗造成負向的影響,TRIQ框架中保留了圖片的原始大小,首先通過ResNet-50作為特征提取器,C5的輸出在經過1*1的卷積之后可以得到H/32*W/32*32維的特征,考慮到大分辨率的圖片會占用非常多的內存,這里在進入Transformer之前增加了一個池化層,會通過圖片分辨率動態確定一個P值。

Transformer Encoder后的MLP網絡頭部由兩個全連接(FC)層和一個中間的dropout層組成,用于預測感知圖像質量,最終輸出一個五維向量用于表述圖片的質量分布。

什么樣才算好圖——從生圖模型質量度量方法看模型能力的發展-AI.x社區

code:https://github.com/junyongyou/triq

Image Quality Transformer(IQT)

IQT方法提出于2021年,參考了TRIQ的方法,也是是一種基于transformer的圖像質量評估(IQT),模型的輸出結果更接近人類的感知結果,用于全參考圖像質量評估,類似于LPIPS。作者宣稱在CVPR 2021的NTIRE 2021挑戰賽中獲得Top1。如下圖作者利用Inception-Resnet-V2 分別對生成圖片和參考圖片的提取感知特征表征,感知特征表征結果來自于6個中間層的輸出并通過級聯的結果,將參考圖的特征向量(f ref),和參考圖與生成圖的特征向量取差值(f diff)并輸入到Transformer;最后,transformer的輸出通過一個MLP Head,用于預測一個最終的圖像質量分數。


什么樣才算好圖——從生圖模型質量度量方法看模型能力的發展-AI.x社區


CLIPScore

提出于2021年,這是一種用于評價文本和圖片關聯程度的方法,原理比較簡單,通過一個跨模態檢索模型分別對圖像和文本進行embeding,并比較兩者的余弦相似度。公式如下:

什么樣才算好圖——從生圖模型質量度量方法看模型能力的發展-AI.x社區

其中,c和v是CLIP編碼器對Caption和圖像處理輸出的embedding,w作者設置為2.5。這個公式不需要額外的模型推理運算,運算速度很快,作者稱在消費級GPU上,1分鐘可以處理4k張圖像-文本對。

Aesthetic Predictor

目前自2022年之后,出現了基于CLIP+MLP的美學評價方案,創作者都表示“結果令人興奮”,從大模型的能力可以YY到其在小樣本的泛化性上必然非同凡響,同時可以衍生到不同的評價目標上,但是具體對比之前的方案怎么樣就不得而知了。

LAION-AESTHETICS

laion在2022年提出的一個用于評估圖片的美學評價模型,使用了clip-ViT-L-14模型和MLP組合,僅模型開源。

官網:https://laion.ai/blog/laion-aesthetics/?

結果見:http://captions.christoph-schuhmann.de/aesthetic_viz_laion_sac+logos+ava1-l14-linearMSE-en-2.37B.html

CLIP+MLP Aesthetic Score Predictor

代碼:https://github.com/christophschuhmann/improved-aesthetic-predictor?


Human Preference Score

2023往后,出現了用于預測圖片是否符合人類偏好模型,這類模型多使用人工標注的圖文偏好數據微調CLIP實現。

ImageReward

為了做 文生圖Diffusion的獎勵反饋學習對Diffusion進行調優,作者設計了ImageReward,一個由BLIP(ViT-L作為圖像編碼器的,12層Transformer作為文本編碼器)+ MLP(打分器)組成的人類偏好預測模型。

Human Preference Score (HPS)

商湯在CLIP模型上基于798,090條人類偏好標注數據微調了這個模型,標注的圖片來源于各類文生圖模型的輸出,據稱其數據集是同類型數據集中最大的一個。其將clip模型視為一個評分器,用于計算提示詞和圖片的相關程度(同clipscore)。

code: https://github.com/tgxs002/HPSv2?

X-IQE

基于視覺大語言模型(MiniGPT-4)進行文本到圖像生成的可解釋圖像質量評估,它從 Fidelity(真實度),Alignment(圖文對應程度),Aesthetics(美觀度)三個指標分別進行評分。從COCO和DrawBench數據集的測試結果上看,和ImgRwd和HPS接近。

什么樣才算好圖——從生圖模型質量度量方法看模型能力的發展-AI.x社區

主要的prompt見:??https://github.com/Schuture/Benchmarking-Awesome-Diffusion-Models/blob/main/X-IQE/README.md??


五、總結

從計算方法上看,似乎沒有前一個時期那么精彩,通過微調CLIP再套用一個MLP幾乎成為了這個時期的評價范式,但是評價指標要遠比前一個時期更抽象和復雜。但這并不意味著FID這類指標已經沒用了,相反,這個指標幾乎在每個新模型的發布后都會拿出來比較。

本來只是想梳理一下圖像質量度量的方法,但是層層挖掘卻越可以看出圖片生成模型的發展歷程,從最初的 圖像基礎變換到人臉、動物,到現在可控制的圖像生成,圖片生成技術越來越趨于專業性,我們審視一張圖片的方式從“能看懂”到 “像真的”到“符合美學標準“,可以想到未來一套美學標準是無法通吃的,對于不同行業和場景,生圖模型會越來越細分,而美學標準也會隨之分化。

六、參考資料

  1. Heusel, Martin et al. “GANs Trained by a Two Time-Scale Update Rule Converge to a Nash Equilibrium.” ArXiv abs/1706.08500 (2017): n. pag.
  2. ???https://www.jiqizhixin.com/articles/2019-01-10-18???
  3. Dziugaite, Gintare Karolina et al. “Training generative neural networks via Maximum Mean Discrepancy optimization.” Conference on Uncertainty in Artificial Intelligence (2015).
  4. Binkowski, Mikolaj et al. “Demystifying MMD GANs.” ArXiv abs/1801.01401 (2018): n. pag.
  5. ???https://www.jiqizhixin.com/articles/2019-01-10-18???
  6. ???https://laion.ai/blog/laion-aesthetics/???
  7. ???https://www.jianshu.com/p/fc5526b1fe3b#comments???
  8. ???https://deep-generative-models.github.io/files/ppt/2021/Lecture%2019%20Evaluation%20-%20Sampling%20Quality.pdf???
  9. Zhang, Richard et al. “The Unreasonable Effectiveness of Deep Features as a Perceptual Metric.” 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition (2018): 586-595.
  10. You, Junyong and Jari Korhonen. “Transformer For Image Quality Assessment.” 2021 IEEE International Conference on Image Processing (ICIP) (2020): 1389-1393.
  11. Cheon, Manri et al. “Perceptual Image Quality Assessment with Transformers.” 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW) (2021): 433-442.
  12. Hessel, Jack et al. “CLIPScore: A Reference-free Evaluation Metric for Image Captioning.” ArXiv abs/2104.08718 (2021): n. pag.
  13. Wu, Xiaoshi et al. “Human Preference Score v2: A Solid Benchmark for Evaluating Human Preferences of Text-to-Image Synthesis.” ArXiv abs/2306.09341 (2023): n. pag.
  14. ???https://www.e-learn.cn/topic/1480759??


七、團隊介紹


我們是淘天集團-場景智能技術團隊,一支專注于通過AI和3D技術驅動商業創新的技術團隊, 依托淘寶天貓豐富的業務形態和海量的用戶、數據, 致力于為消費者提供創新的場景化導購體驗, 為商家提供高效的場景化內容創作工具, 為淘寶天貓打造圍繞家的場景的第一消費入口。我們不斷探索并實踐新的技術, 通過持續的技術創新和突破,創新用戶導購體驗, 提升商家內容生產力, 讓用戶享受更好的消費體驗, 讓商家更高效、低成本地經營。


本文轉載自大淘寶技術,作者:奮翼

原文鏈接:??https://mp.weixin.qq.com/s/uyiIWdlejCREwGHsPxkLLw??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 精品一二三 | 福利网址 | 精品亚洲一区二区三区 | 精品一二三区视频 | 国产免费观看视频 | 在线视频 亚洲 | 欧美在线a | 国产日韩一区二区三免费高清 | 久在线 | 国精产品一区一区三区免费完 | 欧美在线视频一区 | 亚洲国产网站 | 噜噜噜噜狠狠狠7777视频 | 91高清在线视频 | 在线观看中文字幕 | 99久久精品国产一区二区三区 | 亚洲国产中文字幕 | 国产精品高清一区二区 | 久久男人天堂 | 亚洲网在线 | 国产精品久久久久久一区二区三区 | 一二区视频 | 亚洲精品观看 | 国产精品国产精品国产专区不卡 | 羞羞视频免费在线观看 | 午夜影院在线观看视频 | 国产精品久久久久久久一区探花 | 久久精品亚洲精品国产欧美 | 日本黄色影片在线观看 | 亚洲欧美一区二区三区视频 | 麻豆亚洲 | 亚洲一区不卡在线 | 亚洲电影免费 | 伊人免费在线观看 | 久久一区二区视频 | 欧美夜夜| 99久久精品免费看国产四区 | 国产激情视频在线观看 | 亚洲精品一区av在线播放 | 亚洲三级视频 | 亚洲精品久久久 |