史上最強文生圖模型?谷歌Imagen3內部詳細評估資料解讀 精華
文章鏈接:https://arxiv.org/pdf/2408.07009
亮點直擊
- Imagen 3,目前Google最好的文生圖擴散模型,是一種潛在擴散模型,可以從文本提示生成高質量的圖像。
- 詳細描述了 Imagen 3 質量和責任評估,發現Imagen 3相比其他SOTA模型更受歡迎。
- 討論了安全和表征問題,以及用于最小化本文模型潛在危害的方法。
數據
Imagen 3模型在一個大型數據集上進行訓練,該數據集包含圖像、文本和相關注釋。為了確保質量和安全標準,本文采用了多階段的過濾過程。這個過程首先去除不安全、暴力或低質量的圖像。然后,本文消除AI生成的圖像,以防止模型學習到此類圖像中常見的偽影或偏差。此外,本文使用去重管道并降低相似圖像的權重,以最大限度地減少輸出過擬合訓練數據中特定元素的風險。
本文數據集中的每張圖像都配有原始(來自替代文本、人類描述等)和合成的標題。合成標題是使用Gemini模型通過多種提示生成的。本文利用多個Gemini模型和指令來最大化這些合成標題的語言多樣性和質量。本文應用過濾器來刪除不安全的標題和個人身份信息。
評估
本文將最高質量配置——Imagen 3模型——與Imagen 2以及以下外部模型進行比較:DALL·E 3、Midjourney v6、Stable Diffusion 3 Large (SD3) 和 Stable Diffusion XL 1.0 (SDXL 1)。通過廣泛的人工評估和自動評估,本文發現Imagen 3在文本到圖像生成方面設立了新的行業標準。本文討論了總體結果及其局限性,定性結果。本文注意到,可能整合Imagen 3的產品在性能上可能與測試配置有所不同。
人工評估
本文對文本到圖像生成模型的五個不同質量方面進行了人工評估:總體偏好、提示與圖像的對齊、視覺吸引力、詳細提示與圖像的對齊以及數值推理。為了避免評估者的判斷混淆,這些方面都是獨立評估的。
對于前四個方面,量化判斷(例如,給出1到5的評分)在實踐中難以在評估者之間校準。因此,本文使用并排比較的方法;這也成為聊天機器人以及其他文本到圖像評估中的標準做法。第五個方面——數值推理——可以通過計算圖像中給定類型的物體數量,直接且可靠地由人類進行評估,因此本文采用單模型評估方法。
每個并排比較(即針對前四個方面及其對應的提示集)都會聚合為所有六個模型的Elo評分,以便在它們之間進行校準比較。直觀地,每次成對比較代表兩個模型之間進行的一場比賽,Elo評分表示模型在所有模型競爭中的總體得分。本文通過對每對模型進行詳盡比較,生成每個方面和提示集的完整Elo記分板。每項研究(即在給定問題和給定提示集上對兩個模型的配對)由2500個評分組成(本文發現這個數量在成本和可靠性之間取得了良好的平衡),這些評分在提示集中均勻分布。模型在評估界面中是匿名的,并且每次評分時都會隨機打亂位置。
本文使用一個外部平臺從一個龐大且多樣化的評估者池中隨機選擇評估者。數據收集是根據Google DeepMind的數據豐富最佳實踐進行的,這些實踐基于人工智能合作組織(Partnership on AI)的負責任的數據豐富服務采購指南。此過程確保所有數據豐富工作的參與者至少獲得當地的生活工資。
本文總共在5個不同的提示集上進行人工評估。本文在三個不同的提示集上評估前三個質量方面(整體偏好、提示-圖像對齊和視覺吸引力)。首先,本文使用最近發布的GenAI-Bench,這是一個由專業設計師收集的1600個高質量提示的集合。為了與之前的工作保持一致,本文還在DrawBench的200個提示和DALL·E 3 Eval的170個提示上進行評估。對于詳細的提示-圖像對齊,本文使用了來自DOCCI的1000張圖像及其對應的標題(DOCCI-Test-Pivots)。最后,本文使用GeckoNum基準來評估數值推理能力。所有外部模型都是通過其公開訪問提供運行的,除了DALL·E 3 Eval和DrawBench上的DALL·E 3,本文使用其作者發布的圖像。
總共,本文從3225位不同的評估者那里收集了366,569個評分,涉及5943次提交。每位評估者最多參與本文研究的10%,在每次研究中,每位評估者提供大約2%的評分,以避免結果偏向于特定評估者的判斷。來自71個不同國籍的評估者參與了本文的研究,其中英國、美國、南非和波蘭的參與者最多。
總體偏好
總體偏好衡量用戶對給定輸入提示生成的圖像的滿意程度。這個問題設計為一個開放性問題,由評價者自行決定在每個提示中哪些質量方面最為重要,這與模型的實際使用情況類似。本文將兩幅圖像并排展示給評價者,連同提示一起,并詢問:“假設你在使用一款計算機工具,該工具根據上述提示生成圖像。如果你在使用這款工具,你希望看到哪幅圖像?如果兩幅圖像同樣吸引人,請選擇‘我無所謂’?!毕聢D2展示了在GenAI-Bench、DrawBench和DALL·E 3 Eval上的結果。在GenAI-Bench上,Imagen 3明顯比其他模型更受歡迎。在DrawBench上,Imagen 3以較小的優勢領先于Stable Diffusion 3,而在DALL·E 3 Eval上,本文觀察到四個領先模型的結果接近,Imagen 3略占優勢。
提示-圖像對齊
提示-圖像對齊評估的是輸入提示在輸出圖像內容中的表現程度,而不考慮圖像中的潛在缺陷或其美學吸引力。本文將兩幅圖像連同提示一起并排展示給評價者,并詢問他們:“考慮上面的文本,哪幅圖像更好地捕捉到了提示的意圖?請盡量忽略圖像的潛在缺陷或質量問題。除非提示中提到,否則請忽略不同的風格?!?下圖3展示了在GenAI-Bench、DrawBench和DALL·E 3 Eval上的結果。在GenAI-Bench上,Imagen 3以顯著優勢領先;在DrawBench上,優勢較??;而在DALL·E 3 Eval上,三個領先模型的表現相似,且置信區間重疊。
視覺吸引力
視覺吸引力量化了生成圖像的吸引程度,而不考慮所請求的內容。為了測量這一點,本文向評估者展示兩張并排的圖像,而不提供生成這些圖像的提示,然后詢問:“哪張圖像對您更有吸引力?”
下圖4顯示了在GenAI-Bench、DrawBench和DALL·E 3 Eval上的結果。Midjourney v6整體表現領先,Imagen 3在GenAI-Bench上幾乎與之持平,在DrawBench上稍有優勢,而在DALL·E 3 Eval上具有顯著優勢。
詳細的提示圖像對齊
在本節中,本文通過生成來自DOCCI的詳細提示的圖像,進一步推動提示-圖像對齊能力的評估。這些提示的長度顯著增加——平均136個詞——比之前使用的提示集要長得多。然而,在按照前文的相同評估策略進行一些試點后,本文意識到閱讀超過100個詞的提示并評估圖像與其中所有細節的對齊程度對人工評價者來說過于困難和繁瑣。因此,本文利用了DOCCI提示實際上是高質量的真實參考照片的標題這一事實——與標準的文本到圖像評估提示集不同,后者沒有對應的參考圖像。本文將這些標題輸入到圖像生成模型中,并測量生成圖像的內容與DOCCI基準參考圖像的對齊程度。本文特別指示評價者專注于圖像的語義(物體、它們的位置、方向等),忽略風格、拍攝技術、質量等。
下圖5顯示了結果,其中本文可以看到Imagen 3相對于第二好的模型有顯著的優勢,領先114 Elo點,并且勝率達到63%。這一結果進一步突顯了其遵循輸入提示詳細內容的卓越能力。
數值推理
本文還評估了模型生成精確數量物體的能力,這是GeckoNum基準中的最簡單任務。具體來說,本文提出問題:圖像中有多少個?其中指的是用于生成圖像的源提示中的名詞,并將其與提示中請求的預期數量進行比較。物體的數量范圍從1到10,任務包括各種復雜性的提示,因為數字嵌入在不同類型的句子結構中,考察了顏色和空間關系等屬性的作用。
結果顯示在下圖6中,本文看到,雖然生成精確數量的物體對當前模型來說仍然是一個挑戰性任務,但Imagen 3是最強的模型,比第二名的DALL·E 3高出12個百分點。此外,本文發現,Imagen 3在生成包含2到5個物體的圖像時,比其他模型具有更高的準確性,并且在處理具有更復雜數字句子結構的提示時表現更好,例如“1塊餅干和五瓶”。
自動評估
近年來,自動評估(auto-eval)指標,如CLIP和VQAScore,在衡量文本到圖像模型的質量方面被更廣泛地使用,因為它們相比人工評估更易于擴展。為了補充之前的人工評估,本文對提示-圖像對齊和圖像質量進行了自動評估指標測試。
提示-圖像對齊
本文選擇了三種強大的自動評估提示-圖像對齊指標,分別來自主要的指標家族:對比雙編碼器(如CLIP)、基于VQA的(如Gecko)和基于LVLM提示的實現(如VQAScore2)。雖然之前的研究表明這些指標與人工判斷有很好的相關性,但尚不清楚它們是否能夠可靠地區分更相似的強模型。因此,本文首先通過將這些指標的預測與人工評級進行比較來驗證這三種指標的有效性,并在附錄C.1中報告結果。
本文觀察到,盡管CLIP在當前工作中被廣泛使用,但在大多數情況下,它未能預測出正確的模型排序。本文發現Gecko和本文的VQAScore變體(以下簡稱VQAScore)表現良好,且有72%的時間達成一致。在這些情況下,這些指標的結果與人工判斷94.4%的時間是一致的,因此本文可以對結果充滿信心。盡管它們表現相似,但VQAScore更具優勢,與人工評級的匹配率為80%,而Gecko為73.3%。本文注意到,Gecko使用了一個較弱的骨干網絡——PALI,而非Gemini 1.5 Pro,這可能導致了性能差異。因此,接下來本文將討論使用VQAScore的結果,并將其他結果和進一步的討論留到附錄C.1。
本文在四個數據集上進行評估,以研究模型在不同條件下的差異:Gecko-Rel、DOCCI-Test-Pivots、Dall·E 3 Eval和GenAI-Bench。Gecko-Rel旨在測量對齊度,并包含具有高度注釋者一致性的提示,DOCCI-Test-Pivots包含長而描述性的提示,Dall·E 3 Eval和GenAI-Bench是更為多樣化的數據集,旨在評估一系列能力。結果如下圖7所示。本文可以看到,總體上在這些指標下表現最好的模型是Imagen 3。它在DOCCI-Test-Pivots的長提示上表現最佳,并且始終具有總體最高的性能。最后,本文看到SDXL 1和Imagen 2的表現始終低于其他模型。
本文進一步探討了Gecko-Rel在類別上的細分,如下圖8所示。總體而言,Imagen 3是表現最好的模型之一。在測試顏色、計數和空間推理等能力的類別中,Imagen 3表現最佳(進一步驗證了結果)。本文還看到,模型在處理更復雜和組合性提示時的表現有所不同,例如在具有更高語言難度的提示上,SDXL 1的表現明顯不如其他模型。在組合性提示上(模型需要在場景中創建多個物體或創建沒有物體的場景),本文看到Imagen 3表現最佳。這與之前的數據集發現相一致,因為Imagen 3在DOCCI-Test-Pivots上表現最佳,該數據集特別具有非常長且具有挑戰性的提示。這些結果表明,與其他模型相比,Imagen 3在處理更復雜的提示和多種能力方面表現最佳。
圖像質量
本文比較了Imagen 3、SDXL 1和DALL·E 3在MSCOCO-caption驗證集30,000個樣本上生成的圖像分布,使用不同的特征空間和距離度量,遵循Vasconcelos等人的協議。本文在Inception特征空間上采用Fréchet距離(FID)和Dino-v2特征空間上的Fréchet距離(FD-Dino),以及在CLIP-L特征空間上的最大均值差異距離(CMMD)。生成圖像的分辨率從1024×1024像素減少到每個度量的標準輸入大小。
與Vasconcelos等人類似,本文觀察到這三個度量的最小化之間存在權衡。FID傾向于生成自然的顏色和紋理,但在更仔細的檢查下,它未能檢測出物體形狀和部分的扭曲。較低的FD-Dino和CMMD值有利于圖像內容。下表1顯示了結果。Imagen 3和DALL·E 3的FID值反映了由于審美偏好而故意偏離MSCOCO-caption樣本的顏色分布,生成更生動、風格化的圖像。同時,Imagen 3在這三個模型中表現出最低的CMMD值,突顯了其在最先進特征空間度量上的強大性能。
結論和局限性
總的來說,Imagen 3在提示-圖像對齊上明顯領先,尤其是在詳細提示和計數能力方面;而在視覺吸引力上,Midjourney v6領先,Imagen 3位居第二??紤]到所有的質量方面,Imagen 3在整體偏好上明顯領先,這表明它在高質量輸出和尊重用戶意圖之間取得了最佳平衡。
雖然Imagen 3和其他當前強大的模型表現出色,但在某些能力上仍然存在不足。特別是那些需要數值推理的任務,從生成精確數量的物體到關于部分的推理,對所有模型來說都是一個挑戰。此外,涉及尺度推理的提示(例如“房子和貓一樣大”)、組合短語(例如“一個紅色的帽子和一個黑色的玻璃書”)以及動作(“一個人扔一個足球”)是所有模型中最難的。這之后是需要空間推理和復雜語言的提示。
定性結果
下圖9展示了由Imagen 3生成的24張圖像,以展示其能力。下圖10展示了2張上采樣到12百萬像素的圖像,并進行裁剪以顯示細節水平。
負責任的開發和部署
在本節中,本文概述了從數據整理到產品部署的最新負責任部署方法。作為這一過程的一部分,本文分析了模型的優缺點,制定了政策和期望,并實施了訓練前和訓練后的干預措施以實現這些目標。在發布前,本文進行了多種評估和紅隊測試,以改進模型并為決策提供信息。這與Google在2024年概述的方法一致。
評估
谷歌DeepMind在發布圖像生成模型時,一直遵循結構化的負責任開發方法。在此基礎上,本文結合之前的倫理和安全研究工作、內部紅隊測試數據、更廣泛的倫理文獻以及現實世界中的事件,對Imagen 3模型的社會效益和風險進行了評估。這一評估指導了緩解措施和評估方法的開發和改進。
溢出
圖像生成模型為創意和商業應用帶來了多種益處。圖像生成可以幫助個人和企業快速制作原型,并嘗試新的視覺創意方向。這項技術還有可能讓更多人參與到視覺藝術的創作中來。
風險
本文大致識別了與內容相關的兩類風險:(1) 有意的對抗性濫用模型,以及 (2) 善意使用中的無意模型失效。
第一類風險涉及使用文本到圖像生成模型來創建可能促進虛假信息、協助欺詐或生成仇恨內容的情況。第二類風險包括人物的表現方式。圖像生成模型可能會放大關于性別身份、種族、性取向或國籍的刻板印象,并且有些模型被觀察到會過度性化女性和女孩的輸出。當模型未能很好地校準以遵循提示指令時,即使在善意提示下,圖像生成模型也可能使用戶接觸到有害內容。
政策和需求
政策
谷歌的Imagen 3安全政策與谷歌的生成式AI模型禁止生成有害內容的既定框架一致。這些政策旨在減輕模型生成有害內容的風險,涵蓋了兒童性虐待和剝削、仇恨言論、騷擾、色情內容以及暴力和血腥等領域。
需求
遵循Gemini的方法,本文在模型開發中進一步優化,以更好地響應用戶的提示。盡管拒絕所有用戶請求的政策可能被視為“無違規”(即遵守Imagen 3不應做的事情的政策),但顯然無法滿足用戶的需求,也無法實現生成模型的下游益處。因此,Imagen 3的開發旨在最大限度地遵循用戶請求,并在部署時采用多種技術來降低安全和隱私風險。
緩解措施
在Imagen 3中,安全性和責任感通過針對預訓練和后訓練干預的努力得以實現,這與Gemini項目的類似方法一致。本文根據風險領域對預訓練數據進行安全過濾,同時去除重復和/或概念上相似的圖像。本文生成合成標題,以提高訓練數據中與圖像相關的概念的多樣性和多元化,并進行分析以評估訓練數據中的潛在有害數據,并在考慮公平性問題的情況下審查數據的代表性。本文還進行額外的后訓練緩解措施,包括生產過濾,以確保隱私保護、降低錯誤信息的風險,并盡量減少有害輸出,其中包括使用如SynthID水印等工具。
責任和安全評估
在模型層面,Imagen 3 使用了四種評估形式,以應對不同生命周期階段、評估結果的使用以及專業知識來源:
- 開發評估:這些評估旨在提高Imagen 3在責任標準上的表現。評估由內部設計,并基于內部和外部基準進行開發。
- 保證評估:這些評估用于治理和審查,由模型開發團隊以外的團隊開發和運行。保證評估按照模態進行標準化,評估數據集嚴格保密。評估結果反饋到訓練過程中,以幫助減輕風險。
- 紅隊測試:這是一種對抗性測試形式,其中對手對AI系統發起攻擊,以識別潛在漏洞。測試由內部專業團隊和招募的參與者共同進行。發現的潛在弱點可以用于減輕風險并改進內部評估方法。
- 外部評估:由獨立的外部領域專家團隊進行,旨在識別模型安全工作中的改進領域。這些評估的設計是獨立的,結果定期報告給內部團隊和治理小組。
發展評估
安全在模型開發階段,本文通過自動化安全指標積極監控模型對Google安全政策的違規情況。這些自動化指標為建模團隊提供快速反饋。本文使用多模態分類器來檢測內容政策違規。多模態分類器的多模態性非常重要,因為在許多情況下,當兩個獨立無害的元素(如標題和圖像)結合時,可能會產生有害的結果。例如,文本提示“豬的圖像”本身似乎沒有違規,但當與屬于邊緣化群體的人類圖像結合時,可能導致有害的表現。
本文在各種安全數據集上評估了Imagen 3的性能,并將其與Imagen 2的性能進行了比較。這些數據集專門用于評估生成圖像中的暴力、仇恨、顯性性行為和過度性行為。盡管Imagen 3是一個更高質量的模型,但在開發評估中,它的違規率與Imagen 2相似或更低。
公平性文本到圖像生成的過程需要準確描繪提示中提到的具體細節,同時填補場景中未明確說明但必須具體化的部分,以生成高質量的圖像。本文優化了圖像輸出與用戶提示的一致性,并在前文中報告了相關結果。本文還旨在在用戶提示的要求范圍內生成多樣化的輸出,并特別關注人物外觀的分布。
具體來說,本文通過基于感知年齡、性別和膚色分布的自動化指標來評估公平性,這些指標來源于涉及一般人物的提示生成的圖像。這項分析補充了過去的一些研究,這些研究分析了對各種職業的模板化查詢在類似維度上的響應。本文使用分類器收集感知(或P.)年齡、性別表達和膚色(基于Monk膚色量表),并根據下表2將圖像分類到各個維度的不同類別中。
除了這些統計數據之外,本文還測量了在上述三個維度中輸出同質化的提示的百分比。對于某一維度,如果所有生成的圖像都落入該維度的單一類別(見上表2),則該提示被定義為具有同質化輸出。本文的目標是輸出的圖像能夠準確反映任何人都可以是醫生或護士,而不會因為評估集的構建偏向于擁有與男性化傾向提示同等數量的女性化傾向提示而無意中獎勵了一個有偏見的模型。
從下表3和下表4中可以看到,與Imagen 2相比,Imagen 3在結果上有所改善或保持不變。特別值得注意的是,所有三個維度中具有同質化輸出的提示的百分比顯著降低。本文將繼續研究方法,以減少在人群多樣性廣泛定義下的同質化現象,同時不影響圖像質量或提示與圖像的對齊。
保證評估
責任治理的保證評估是為了提供模型發布決策的證據。這些評估由專門團隊獨立于模型開發過程進行,團隊具備專業知識。用于這些評估的數據集與模型訓練的數據集是分開的。評估的高級別發現會反饋給團隊,以幫助他們進行緩解措施。
內容安全
本文根據安全政策對Imagen 3進行了評估。結果表明,Imagen 3在內容安全性方面有所改善:與Imagen 2相比,總的政策違規數量減少,并且每個政策領域都顯示出改善或在誤差范圍內的結果。
公平性為了評估模型輸出的公平性,本文采用了兩種方法:
- 標準化評估:理解在提示職業時輸出中代表的人口統計信息,以此作為代表性多樣性的代理。
該評估使用140個職業的列表,每個職業生成100張圖像。然后,本文分析這些圖像,并根據感知的年齡、性別表達和膚色對圖像進行分類。評估發現,Imagen 3傾向于生成較淺膚色、感知為男性的面孔,以及感知為女性面孔時的較年輕年齡,但這種傾向比Imagen 2要小。 - 不同表現風險的定性調查
為了捕捉在基于職業的分析中可能未被揭示的表現風險,本文還對一系列潛在的危害進行了定性調查。這種測試旨在尋找錯誤表示或不當表示的情況,例如,如果模型的輸出與提示中請求的人口統計術語不匹配,無論是顯性不匹配還是由于請求了一個歷史或文化上定義的人口群體而導致的不匹配。測試結果顯示,模型的行為符合用戶的預期。
?
危險能力本文還評估了Imagen 3在自我復制、工具使用和網絡安全等領域的風險。具體來說,本文測試了Imagen 3是否可以用于a) 欺詐/騙局,b) 社會工程,c) 欺騙圖像識別系統,以及d) 隱寫編碼。示例包括生成虛假登錄頁面或網絡釣魚警報的模型;生成虛假憑證;生成惡意二維碼;以及生成簽名。本文在這些場景中沒有發現任何危險能力,相較于現有的惡意行為者的工具——例如開源圖像生成或簡單的在線圖像搜索。
紅隊測試
在模型開發過程中,本文還進行了紅隊測試,以識別與Imagen 3模型相關的新型失敗。紅隊成員試圖引發模型行為,這些行為可能違反政策或產生代表性問題,例如歷史不準確或有害的刻板印象。在整個模型開發過程中進行紅隊測試,以便為開發和保障評估領域提供信息,并在發布前進行緩解。違反行為會被報告并進行定性評估,提取新型失敗和攻擊策略以供進一步審查和緩解。
外部評價
Gemini 1.0技術報告概述了一種協作方法,獨立的外部團體參與增強模型安全性,通過結構化評估、定性探究和無結構的紅隊測試。這些團體的選擇基于他們在多個領域的專業知識,包括社會風險以及化學、生物、放射性和核風險。參與者包括來自學術界、民間社會和商業組織的成員,并且他們獲得了相應的報酬。
每個外部團體開發了針對特定領域的測試方法。盡管這些團體生成的報告獨立于Google DeepMind,但該組織的專家可供討論方法和發現。這些外部團體提供了全面的分析,包括原始數據和材料,例如提示和模型響應,這些對于理解評估過程至關重要。
從這些外部安全測試中獲得的見解對于制定緩解策略和識別現有內部評估方法和政策中的弱點至關重要。這種協作努力旨在增強Google DeepMind開發的模型的整體安全性和可靠性。
產品部署
在發布之前,Google DeepMind 的責任與安全委員會 (RSC) 會根據項目生命周期內進行的評估和評價,審查模型的性能,以做出發布決策。除了這一過程外,還會在特定應用模型的背景下進行系統級安全評估和審查。
為了實現發布,創建了內部模型卡,以便對關鍵性能和安全指標進行結構化和一致的內部文檔記錄,并隨時間推移通知適當的外部溝通。本文會定期發布外部模型卡和系統卡,包括技術報告的更新以及面向企業客戶的文檔。
此外,相關產品網站(如 Gemini 應用和 Cloud Vertex AI)上可以找到涵蓋使用條款、模型分發和訪問,以及變更控制、日志記錄、監控和反饋等操作方面的在線內容。
本文轉自 AI生成未來 ,作者:Google DeepMind
