史上最強文生圖模型?谷歌Imagen3內(nèi)部詳細評估資料解讀 精華
文章鏈接:https://arxiv.org/pdf/2408.07009
亮點直擊
- Imagen 3,目前Google最好的文生圖擴散模型,是一種潛在擴散模型,可以從文本提示生成高質(zhì)量的圖像。
- 詳細描述了 Imagen 3 質(zhì)量和責(zé)任評估,發(fā)現(xiàn)Imagen 3相比其他SOTA模型更受歡迎。
- 討論了安全和表征問題,以及用于最小化本文模型潛在危害的方法。
數(shù)據(jù)
Imagen 3模型在一個大型數(shù)據(jù)集上進行訓(xùn)練,該數(shù)據(jù)集包含圖像、文本和相關(guān)注釋。為了確保質(zhì)量和安全標準,本文采用了多階段的過濾過程。這個過程首先去除不安全、暴力或低質(zhì)量的圖像。然后,本文消除AI生成的圖像,以防止模型學(xué)習(xí)到此類圖像中常見的偽影或偏差。此外,本文使用去重管道并降低相似圖像的權(quán)重,以最大限度地減少輸出過擬合訓(xùn)練數(shù)據(jù)中特定元素的風(fēng)險。
本文數(shù)據(jù)集中的每張圖像都配有原始(來自替代文本、人類描述等)和合成的標題。合成標題是使用Gemini模型通過多種提示生成的。本文利用多個Gemini模型和指令來最大化這些合成標題的語言多樣性和質(zhì)量。本文應(yīng)用過濾器來刪除不安全的標題和個人身份信息。
評估
本文將最高質(zhì)量配置——Imagen 3模型——與Imagen 2以及以下外部模型進行比較:DALL·E 3、Midjourney v6、Stable Diffusion 3 Large (SD3) 和 Stable Diffusion XL 1.0 (SDXL 1)。通過廣泛的人工評估和自動評估,本文發(fā)現(xiàn)Imagen 3在文本到圖像生成方面設(shè)立了新的行業(yè)標準。本文討論了總體結(jié)果及其局限性,定性結(jié)果。本文注意到,可能整合Imagen 3的產(chǎn)品在性能上可能與測試配置有所不同。
人工評估
本文對文本到圖像生成模型的五個不同質(zhì)量方面進行了人工評估:總體偏好、提示與圖像的對齊、視覺吸引力、詳細提示與圖像的對齊以及數(shù)值推理。為了避免評估者的判斷混淆,這些方面都是獨立評估的。
對于前四個方面,量化判斷(例如,給出1到5的評分)在實踐中難以在評估者之間校準。因此,本文使用并排比較的方法;這也成為聊天機器人以及其他文本到圖像評估中的標準做法。第五個方面——數(shù)值推理——可以通過計算圖像中給定類型的物體數(shù)量,直接且可靠地由人類進行評估,因此本文采用單模型評估方法。
每個并排比較(即針對前四個方面及其對應(yīng)的提示集)都會聚合為所有六個模型的Elo評分,以便在它們之間進行校準比較。直觀地,每次成對比較代表兩個模型之間進行的一場比賽,Elo評分表示模型在所有模型競爭中的總體得分。本文通過對每對模型進行詳盡比較,生成每個方面和提示集的完整Elo記分板。每項研究(即在給定問題和給定提示集上對兩個模型的配對)由2500個評分組成(本文發(fā)現(xiàn)這個數(shù)量在成本和可靠性之間取得了良好的平衡),這些評分在提示集中均勻分布。模型在評估界面中是匿名的,并且每次評分時都會隨機打亂位置。
本文使用一個外部平臺從一個龐大且多樣化的評估者池中隨機選擇評估者。數(shù)據(jù)收集是根據(jù)Google DeepMind的數(shù)據(jù)豐富最佳實踐進行的,這些實踐基于人工智能合作組織(Partnership on AI)的負責(zé)任的數(shù)據(jù)豐富服務(wù)采購指南。此過程確保所有數(shù)據(jù)豐富工作的參與者至少獲得當(dāng)?shù)氐纳罟べY。
本文總共在5個不同的提示集上進行人工評估。本文在三個不同的提示集上評估前三個質(zhì)量方面(整體偏好、提示-圖像對齊和視覺吸引力)。首先,本文使用最近發(fā)布的GenAI-Bench,這是一個由專業(yè)設(shè)計師收集的1600個高質(zhì)量提示的集合。為了與之前的工作保持一致,本文還在DrawBench的200個提示和DALL·E 3 Eval的170個提示上進行評估。對于詳細的提示-圖像對齊,本文使用了來自DOCCI的1000張圖像及其對應(yīng)的標題(DOCCI-Test-Pivots)。最后,本文使用GeckoNum基準來評估數(shù)值推理能力。所有外部模型都是通過其公開訪問提供運行的,除了DALL·E 3 Eval和DrawBench上的DALL·E 3,本文使用其作者發(fā)布的圖像。
總共,本文從3225位不同的評估者那里收集了366,569個評分,涉及5943次提交。每位評估者最多參與本文研究的10%,在每次研究中,每位評估者提供大約2%的評分,以避免結(jié)果偏向于特定評估者的判斷。來自71個不同國籍的評估者參與了本文的研究,其中英國、美國、南非和波蘭的參與者最多。
總體偏好
總體偏好衡量用戶對給定輸入提示生成的圖像的滿意程度。這個問題設(shè)計為一個開放性問題,由評價者自行決定在每個提示中哪些質(zhì)量方面最為重要,這與模型的實際使用情況類似。本文將兩幅圖像并排展示給評價者,連同提示一起,并詢問:“假設(shè)你在使用一款計算機工具,該工具根據(jù)上述提示生成圖像。如果你在使用這款工具,你希望看到哪幅圖像?如果兩幅圖像同樣吸引人,請選擇‘我無所謂’。”下圖2展示了在GenAI-Bench、DrawBench和DALL·E 3 Eval上的結(jié)果。在GenAI-Bench上,Imagen 3明顯比其他模型更受歡迎。在DrawBench上,Imagen 3以較小的優(yōu)勢領(lǐng)先于Stable Diffusion 3,而在DALL·E 3 Eval上,本文觀察到四個領(lǐng)先模型的結(jié)果接近,Imagen 3略占優(yōu)勢。
提示-圖像對齊
提示-圖像對齊評估的是輸入提示在輸出圖像內(nèi)容中的表現(xiàn)程度,而不考慮圖像中的潛在缺陷或其美學(xué)吸引力。本文將兩幅圖像連同提示一起并排展示給評價者,并詢問他們:“考慮上面的文本,哪幅圖像更好地捕捉到了提示的意圖?請盡量忽略圖像的潛在缺陷或質(zhì)量問題。除非提示中提到,否則請忽略不同的風(fēng)格。” 下圖3展示了在GenAI-Bench、DrawBench和DALL·E 3 Eval上的結(jié)果。在GenAI-Bench上,Imagen 3以顯著優(yōu)勢領(lǐng)先;在DrawBench上,優(yōu)勢較小;而在DALL·E 3 Eval上,三個領(lǐng)先模型的表現(xiàn)相似,且置信區(qū)間重疊。
視覺吸引力
視覺吸引力量化了生成圖像的吸引程度,而不考慮所請求的內(nèi)容。為了測量這一點,本文向評估者展示兩張并排的圖像,而不提供生成這些圖像的提示,然后詢問:“哪張圖像對您更有吸引力?”
下圖4顯示了在GenAI-Bench、DrawBench和DALL·E 3 Eval上的結(jié)果。Midjourney v6整體表現(xiàn)領(lǐng)先,Imagen 3在GenAI-Bench上幾乎與之持平,在DrawBench上稍有優(yōu)勢,而在DALL·E 3 Eval上具有顯著優(yōu)勢。
詳細的提示圖像對齊
在本節(jié)中,本文通過生成來自DOCCI的詳細提示的圖像,進一步推動提示-圖像對齊能力的評估。這些提示的長度顯著增加——平均136個詞——比之前使用的提示集要長得多。然而,在按照前文的相同評估策略進行一些試點后,本文意識到閱讀超過100個詞的提示并評估圖像與其中所有細節(jié)的對齊程度對人工評價者來說過于困難和繁瑣。因此,本文利用了DOCCI提示實際上是高質(zhì)量的真實參考照片的標題這一事實——與標準的文本到圖像評估提示集不同,后者沒有對應(yīng)的參考圖像。本文將這些標題輸入到圖像生成模型中,并測量生成圖像的內(nèi)容與DOCCI基準參考圖像的對齊程度。本文特別指示評價者專注于圖像的語義(物體、它們的位置、方向等),忽略風(fēng)格、拍攝技術(shù)、質(zhì)量等。
下圖5顯示了結(jié)果,其中本文可以看到Imagen 3相對于第二好的模型有顯著的優(yōu)勢,領(lǐng)先114 Elo點,并且勝率達到63%。這一結(jié)果進一步突顯了其遵循輸入提示詳細內(nèi)容的卓越能力。
數(shù)值推理
本文還評估了模型生成精確數(shù)量物體的能力,這是GeckoNum基準中的最簡單任務(wù)。具體來說,本文提出問題:圖像中有多少個?其中指的是用于生成圖像的源提示中的名詞,并將其與提示中請求的預(yù)期數(shù)量進行比較。物體的數(shù)量范圍從1到10,任務(wù)包括各種復(fù)雜性的提示,因為數(shù)字嵌入在不同類型的句子結(jié)構(gòu)中,考察了顏色和空間關(guān)系等屬性的作用。
結(jié)果顯示在下圖6中,本文看到,雖然生成精確數(shù)量的物體對當(dāng)前模型來說仍然是一個挑戰(zhàn)性任務(wù),但Imagen 3是最強的模型,比第二名的DALL·E 3高出12個百分點。此外,本文發(fā)現(xiàn),Imagen 3在生成包含2到5個物體的圖像時,比其他模型具有更高的準確性,并且在處理具有更復(fù)雜數(shù)字句子結(jié)構(gòu)的提示時表現(xiàn)更好,例如“1塊餅干和五瓶”。
自動評估
近年來,自動評估(auto-eval)指標,如CLIP和VQAScore,在衡量文本到圖像模型的質(zhì)量方面被更廣泛地使用,因為它們相比人工評估更易于擴展。為了補充之前的人工評估,本文對提示-圖像對齊和圖像質(zhì)量進行了自動評估指標測試。
提示-圖像對齊
本文選擇了三種強大的自動評估提示-圖像對齊指標,分別來自主要的指標家族:對比雙編碼器(如CLIP)、基于VQA的(如Gecko)和基于LVLM提示的實現(xiàn)(如VQAScore2)。雖然之前的研究表明這些指標與人工判斷有很好的相關(guān)性,但尚不清楚它們是否能夠可靠地區(qū)分更相似的強模型。因此,本文首先通過將這些指標的預(yù)測與人工評級進行比較來驗證這三種指標的有效性,并在附錄C.1中報告結(jié)果。
本文觀察到,盡管CLIP在當(dāng)前工作中被廣泛使用,但在大多數(shù)情況下,它未能預(yù)測出正確的模型排序。本文發(fā)現(xiàn)Gecko和本文的VQAScore變體(以下簡稱VQAScore)表現(xiàn)良好,且有72%的時間達成一致。在這些情況下,這些指標的結(jié)果與人工判斷94.4%的時間是一致的,因此本文可以對結(jié)果充滿信心。盡管它們表現(xiàn)相似,但VQAScore更具優(yōu)勢,與人工評級的匹配率為80%,而Gecko為73.3%。本文注意到,Gecko使用了一個較弱的骨干網(wǎng)絡(luò)——PALI,而非Gemini 1.5 Pro,這可能導(dǎo)致了性能差異。因此,接下來本文將討論使用VQAScore的結(jié)果,并將其他結(jié)果和進一步的討論留到附錄C.1。
本文在四個數(shù)據(jù)集上進行評估,以研究模型在不同條件下的差異:Gecko-Rel、DOCCI-Test-Pivots、Dall·E 3 Eval和GenAI-Bench。Gecko-Rel旨在測量對齊度,并包含具有高度注釋者一致性的提示,DOCCI-Test-Pivots包含長而描述性的提示,Dall·E 3 Eval和GenAI-Bench是更為多樣化的數(shù)據(jù)集,旨在評估一系列能力。結(jié)果如下圖7所示。本文可以看到,總體上在這些指標下表現(xiàn)最好的模型是Imagen 3。它在DOCCI-Test-Pivots的長提示上表現(xiàn)最佳,并且始終具有總體最高的性能。最后,本文看到SDXL 1和Imagen 2的表現(xiàn)始終低于其他模型。
本文進一步探討了Gecko-Rel在類別上的細分,如下圖8所示。總體而言,Imagen 3是表現(xiàn)最好的模型之一。在測試顏色、計數(shù)和空間推理等能力的類別中,Imagen 3表現(xiàn)最佳(進一步驗證了結(jié)果)。本文還看到,模型在處理更復(fù)雜和組合性提示時的表現(xiàn)有所不同,例如在具有更高語言難度的提示上,SDXL 1的表現(xiàn)明顯不如其他模型。在組合性提示上(模型需要在場景中創(chuàng)建多個物體或創(chuàng)建沒有物體的場景),本文看到Imagen 3表現(xiàn)最佳。這與之前的數(shù)據(jù)集發(fā)現(xiàn)相一致,因為Imagen 3在DOCCI-Test-Pivots上表現(xiàn)最佳,該數(shù)據(jù)集特別具有非常長且具有挑戰(zhàn)性的提示。這些結(jié)果表明,與其他模型相比,Imagen 3在處理更復(fù)雜的提示和多種能力方面表現(xiàn)最佳。
圖像質(zhì)量
本文比較了Imagen 3、SDXL 1和DALL·E 3在MSCOCO-caption驗證集30,000個樣本上生成的圖像分布,使用不同的特征空間和距離度量,遵循Vasconcelos等人的協(xié)議。本文在Inception特征空間上采用Fréchet距離(FID)和Dino-v2特征空間上的Fréchet距離(FD-Dino),以及在CLIP-L特征空間上的最大均值差異距離(CMMD)。生成圖像的分辨率從1024×1024像素減少到每個度量的標準輸入大小。
與Vasconcelos等人類似,本文觀察到這三個度量的最小化之間存在權(quán)衡。FID傾向于生成自然的顏色和紋理,但在更仔細的檢查下,它未能檢測出物體形狀和部分的扭曲。較低的FD-Dino和CMMD值有利于圖像內(nèi)容。下表1顯示了結(jié)果。Imagen 3和DALL·E 3的FID值反映了由于審美偏好而故意偏離MSCOCO-caption樣本的顏色分布,生成更生動、風(fēng)格化的圖像。同時,Imagen 3在這三個模型中表現(xiàn)出最低的CMMD值,突顯了其在最先進特征空間度量上的強大性能。
結(jié)論和局限性
總的來說,Imagen 3在提示-圖像對齊上明顯領(lǐng)先,尤其是在詳細提示和計數(shù)能力方面;而在視覺吸引力上,Midjourney v6領(lǐng)先,Imagen 3位居第二。考慮到所有的質(zhì)量方面,Imagen 3在整體偏好上明顯領(lǐng)先,這表明它在高質(zhì)量輸出和尊重用戶意圖之間取得了最佳平衡。
雖然Imagen 3和其他當(dāng)前強大的模型表現(xiàn)出色,但在某些能力上仍然存在不足。特別是那些需要數(shù)值推理的任務(wù),從生成精確數(shù)量的物體到關(guān)于部分的推理,對所有模型來說都是一個挑戰(zhàn)。此外,涉及尺度推理的提示(例如“房子和貓一樣大”)、組合短語(例如“一個紅色的帽子和一個黑色的玻璃書”)以及動作(“一個人扔一個足球”)是所有模型中最難的。這之后是需要空間推理和復(fù)雜語言的提示。
定性結(jié)果
下圖9展示了由Imagen 3生成的24張圖像,以展示其能力。下圖10展示了2張上采樣到12百萬像素的圖像,并進行裁剪以顯示細節(jié)水平。
負責(zé)任的開發(fā)和部署
在本節(jié)中,本文概述了從數(shù)據(jù)整理到產(chǎn)品部署的最新負責(zé)任部署方法。作為這一過程的一部分,本文分析了模型的優(yōu)缺點,制定了政策和期望,并實施了訓(xùn)練前和訓(xùn)練后的干預(yù)措施以實現(xiàn)這些目標。在發(fā)布前,本文進行了多種評估和紅隊測試,以改進模型并為決策提供信息。這與Google在2024年概述的方法一致。
評估
谷歌DeepMind在發(fā)布圖像生成模型時,一直遵循結(jié)構(gòu)化的負責(zé)任開發(fā)方法。在此基礎(chǔ)上,本文結(jié)合之前的倫理和安全研究工作、內(nèi)部紅隊測試數(shù)據(jù)、更廣泛的倫理文獻以及現(xiàn)實世界中的事件,對Imagen 3模型的社會效益和風(fēng)險進行了評估。這一評估指導(dǎo)了緩解措施和評估方法的開發(fā)和改進。
溢出
圖像生成模型為創(chuàng)意和商業(yè)應(yīng)用帶來了多種益處。圖像生成可以幫助個人和企業(yè)快速制作原型,并嘗試新的視覺創(chuàng)意方向。這項技術(shù)還有可能讓更多人參與到視覺藝術(shù)的創(chuàng)作中來。
風(fēng)險
本文大致識別了與內(nèi)容相關(guān)的兩類風(fēng)險:(1) 有意的對抗性濫用模型,以及 (2) 善意使用中的無意模型失效。
第一類風(fēng)險涉及使用文本到圖像生成模型來創(chuàng)建可能促進虛假信息、協(xié)助欺詐或生成仇恨內(nèi)容的情況。第二類風(fēng)險包括人物的表現(xiàn)方式。圖像生成模型可能會放大關(guān)于性別身份、種族、性取向或國籍的刻板印象,并且有些模型被觀察到會過度性化女性和女孩的輸出。當(dāng)模型未能很好地校準以遵循提示指令時,即使在善意提示下,圖像生成模型也可能使用戶接觸到有害內(nèi)容。
政策和需求
政策
谷歌的Imagen 3安全政策與谷歌的生成式AI模型禁止生成有害內(nèi)容的既定框架一致。這些政策旨在減輕模型生成有害內(nèi)容的風(fēng)險,涵蓋了兒童性虐待和剝削、仇恨言論、騷擾、色情內(nèi)容以及暴力和血腥等領(lǐng)域。
需求
遵循Gemini的方法,本文在模型開發(fā)中進一步優(yōu)化,以更好地響應(yīng)用戶的提示。盡管拒絕所有用戶請求的政策可能被視為“無違規(guī)”(即遵守Imagen 3不應(yīng)做的事情的政策),但顯然無法滿足用戶的需求,也無法實現(xiàn)生成模型的下游益處。因此,Imagen 3的開發(fā)旨在最大限度地遵循用戶請求,并在部署時采用多種技術(shù)來降低安全和隱私風(fēng)險。
緩解措施
在Imagen 3中,安全性和責(zé)任感通過針對預(yù)訓(xùn)練和后訓(xùn)練干預(yù)的努力得以實現(xiàn),這與Gemini項目的類似方法一致。本文根據(jù)風(fēng)險領(lǐng)域?qū)︻A(yù)訓(xùn)練數(shù)據(jù)進行安全過濾,同時去除重復(fù)和/或概念上相似的圖像。本文生成合成標題,以提高訓(xùn)練數(shù)據(jù)中與圖像相關(guān)的概念的多樣性和多元化,并進行分析以評估訓(xùn)練數(shù)據(jù)中的潛在有害數(shù)據(jù),并在考慮公平性問題的情況下審查數(shù)據(jù)的代表性。本文還進行額外的后訓(xùn)練緩解措施,包括生產(chǎn)過濾,以確保隱私保護、降低錯誤信息的風(fēng)險,并盡量減少有害輸出,其中包括使用如SynthID水印等工具。
責(zé)任和安全評估
在模型層面,Imagen 3 使用了四種評估形式,以應(yīng)對不同生命周期階段、評估結(jié)果的使用以及專業(yè)知識來源:
- 開發(fā)評估:這些評估旨在提高Imagen 3在責(zé)任標準上的表現(xiàn)。評估由內(nèi)部設(shè)計,并基于內(nèi)部和外部基準進行開發(fā)。
- 保證評估:這些評估用于治理和審查,由模型開發(fā)團隊以外的團隊開發(fā)和運行。保證評估按照模態(tài)進行標準化,評估數(shù)據(jù)集嚴格保密。評估結(jié)果反饋到訓(xùn)練過程中,以幫助減輕風(fēng)險。
- 紅隊測試:這是一種對抗性測試形式,其中對手對AI系統(tǒng)發(fā)起攻擊,以識別潛在漏洞。測試由內(nèi)部專業(yè)團隊和招募的參與者共同進行。發(fā)現(xiàn)的潛在弱點可以用于減輕風(fēng)險并改進內(nèi)部評估方法。
- 外部評估:由獨立的外部領(lǐng)域?qū)<覉F隊進行,旨在識別模型安全工作中的改進領(lǐng)域。這些評估的設(shè)計是獨立的,結(jié)果定期報告給內(nèi)部團隊和治理小組。
發(fā)展評估
安全在模型開發(fā)階段,本文通過自動化安全指標積極監(jiān)控模型對Google安全政策的違規(guī)情況。這些自動化指標為建模團隊提供快速反饋。本文使用多模態(tài)分類器來檢測內(nèi)容政策違規(guī)。多模態(tài)分類器的多模態(tài)性非常重要,因為在許多情況下,當(dāng)兩個獨立無害的元素(如標題和圖像)結(jié)合時,可能會產(chǎn)生有害的結(jié)果。例如,文本提示“豬的圖像”本身似乎沒有違規(guī),但當(dāng)與屬于邊緣化群體的人類圖像結(jié)合時,可能導(dǎo)致有害的表現(xiàn)。
本文在各種安全數(shù)據(jù)集上評估了Imagen 3的性能,并將其與Imagen 2的性能進行了比較。這些數(shù)據(jù)集專門用于評估生成圖像中的暴力、仇恨、顯性性行為和過度性行為。盡管Imagen 3是一個更高質(zhì)量的模型,但在開發(fā)評估中,它的違規(guī)率與Imagen 2相似或更低。
公平性文本到圖像生成的過程需要準確描繪提示中提到的具體細節(jié),同時填補場景中未明確說明但必須具體化的部分,以生成高質(zhì)量的圖像。本文優(yōu)化了圖像輸出與用戶提示的一致性,并在前文中報告了相關(guān)結(jié)果。本文還旨在在用戶提示的要求范圍內(nèi)生成多樣化的輸出,并特別關(guān)注人物外觀的分布。
具體來說,本文通過基于感知年齡、性別和膚色分布的自動化指標來評估公平性,這些指標來源于涉及一般人物的提示生成的圖像。這項分析補充了過去的一些研究,這些研究分析了對各種職業(yè)的模板化查詢在類似維度上的響應(yīng)。本文使用分類器收集感知(或P.)年齡、性別表達和膚色(基于Monk膚色量表),并根據(jù)下表2將圖像分類到各個維度的不同類別中。
除了這些統(tǒng)計數(shù)據(jù)之外,本文還測量了在上述三個維度中輸出同質(zhì)化的提示的百分比。對于某一維度,如果所有生成的圖像都落入該維度的單一類別(見上表2),則該提示被定義為具有同質(zhì)化輸出。本文的目標是輸出的圖像能夠準確反映任何人都可以是醫(yī)生或護士,而不會因為評估集的構(gòu)建偏向于擁有與男性化傾向提示同等數(shù)量的女性化傾向提示而無意中獎勵了一個有偏見的模型。
從下表3和下表4中可以看到,與Imagen 2相比,Imagen 3在結(jié)果上有所改善或保持不變。特別值得注意的是,所有三個維度中具有同質(zhì)化輸出的提示的百分比顯著降低。本文將繼續(xù)研究方法,以減少在人群多樣性廣泛定義下的同質(zhì)化現(xiàn)象,同時不影響圖像質(zhì)量或提示與圖像的對齊。
保證評估
責(zé)任治理的保證評估是為了提供模型發(fā)布決策的證據(jù)。這些評估由專門團隊獨立于模型開發(fā)過程進行,團隊具備專業(yè)知識。用于這些評估的數(shù)據(jù)集與模型訓(xùn)練的數(shù)據(jù)集是分開的。評估的高級別發(fā)現(xiàn)會反饋給團隊,以幫助他們進行緩解措施。
內(nèi)容安全
本文根據(jù)安全政策對Imagen 3進行了評估。結(jié)果表明,Imagen 3在內(nèi)容安全性方面有所改善:與Imagen 2相比,總的政策違規(guī)數(shù)量減少,并且每個政策領(lǐng)域都顯示出改善或在誤差范圍內(nèi)的結(jié)果。
公平性為了評估模型輸出的公平性,本文采用了兩種方法:
- 標準化評估:理解在提示職業(yè)時輸出中代表的人口統(tǒng)計信息,以此作為代表性多樣性的代理。
該評估使用140個職業(yè)的列表,每個職業(yè)生成100張圖像。然后,本文分析這些圖像,并根據(jù)感知的年齡、性別表達和膚色對圖像進行分類。評估發(fā)現(xiàn),Imagen 3傾向于生成較淺膚色、感知為男性的面孔,以及感知為女性面孔時的較年輕年齡,但這種傾向比Imagen 2要小。 - 不同表現(xiàn)風(fēng)險的定性調(diào)查
為了捕捉在基于職業(yè)的分析中可能未被揭示的表現(xiàn)風(fēng)險,本文還對一系列潛在的危害進行了定性調(diào)查。這種測試旨在尋找錯誤表示或不當(dāng)表示的情況,例如,如果模型的輸出與提示中請求的人口統(tǒng)計術(shù)語不匹配,無論是顯性不匹配還是由于請求了一個歷史或文化上定義的人口群體而導(dǎo)致的不匹配。測試結(jié)果顯示,模型的行為符合用戶的預(yù)期。
危險能力本文還評估了Imagen 3在自我復(fù)制、工具使用和網(wǎng)絡(luò)安全等領(lǐng)域的風(fēng)險。具體來說,本文測試了Imagen 3是否可以用于a) 欺詐/騙局,b) 社會工程,c) 欺騙圖像識別系統(tǒng),以及d) 隱寫編碼。示例包括生成虛假登錄頁面或網(wǎng)絡(luò)釣魚警報的模型;生成虛假憑證;生成惡意二維碼;以及生成簽名。本文在這些場景中沒有發(fā)現(xiàn)任何危險能力,相較于現(xiàn)有的惡意行為者的工具——例如開源圖像生成或簡單的在線圖像搜索。
紅隊測試
在模型開發(fā)過程中,本文還進行了紅隊測試,以識別與Imagen 3模型相關(guān)的新型失敗。紅隊成員試圖引發(fā)模型行為,這些行為可能違反政策或產(chǎn)生代表性問題,例如歷史不準確或有害的刻板印象。在整個模型開發(fā)過程中進行紅隊測試,以便為開發(fā)和保障評估領(lǐng)域提供信息,并在發(fā)布前進行緩解。違反行為會被報告并進行定性評估,提取新型失敗和攻擊策略以供進一步審查和緩解。
外部評價
Gemini 1.0技術(shù)報告概述了一種協(xié)作方法,獨立的外部團體參與增強模型安全性,通過結(jié)構(gòu)化評估、定性探究和無結(jié)構(gòu)的紅隊測試。這些團體的選擇基于他們在多個領(lǐng)域的專業(yè)知識,包括社會風(fēng)險以及化學(xué)、生物、放射性和核風(fēng)險。參與者包括來自學(xué)術(shù)界、民間社會和商業(yè)組織的成員,并且他們獲得了相應(yīng)的報酬。
每個外部團體開發(fā)了針對特定領(lǐng)域的測試方法。盡管這些團體生成的報告獨立于Google DeepMind,但該組織的專家可供討論方法和發(fā)現(xiàn)。這些外部團體提供了全面的分析,包括原始數(shù)據(jù)和材料,例如提示和模型響應(yīng),這些對于理解評估過程至關(guān)重要。
從這些外部安全測試中獲得的見解對于制定緩解策略和識別現(xiàn)有內(nèi)部評估方法和政策中的弱點至關(guān)重要。這種協(xié)作努力旨在增強Google DeepMind開發(fā)的模型的整體安全性和可靠性。
產(chǎn)品部署
在發(fā)布之前,Google DeepMind 的責(zé)任與安全委員會 (RSC) 會根據(jù)項目生命周期內(nèi)進行的評估和評價,審查模型的性能,以做出發(fā)布決策。除了這一過程外,還會在特定應(yīng)用模型的背景下進行系統(tǒng)級安全評估和審查。
為了實現(xiàn)發(fā)布,創(chuàng)建了內(nèi)部模型卡,以便對關(guān)鍵性能和安全指標進行結(jié)構(gòu)化和一致的內(nèi)部文檔記錄,并隨時間推移通知適當(dāng)?shù)耐獠繙贤ā1疚臅ㄆ诎l(fā)布外部模型卡和系統(tǒng)卡,包括技術(shù)報告的更新以及面向企業(yè)客戶的文檔。
此外,相關(guān)產(chǎn)品網(wǎng)站(如 Gemini 應(yīng)用和 Cloud Vertex AI)上可以找到涵蓋使用條款、模型分發(fā)和訪問,以及變更控制、日志記錄、監(jiān)控和反饋等操作方面的在線內(nèi)容。
