首次引入GPT-4o！圖像自動評估新基準來啦

作者：量子位 2024-06-27 12:45:30

來自清華、西交大、伊利諾伊厄巴納-香檳分校、中科院、曠視的研究人員共同推出了一項新基準DreamBench++。

面對層出不窮的圖像生成技術，一個新問題擺在眼前：

缺乏統一標準來衡量這些生成的圖片是否符合人們的喜好

對此，來自清華、西交大、伊利諾伊厄巴納-香檳分校、中科院、曠視的研究人員共同推出了一項新基準DreamBench++。

通過收集不同的圖像和提示，團隊利用GPT-4o實現了符合人類偏好的自動評估。

簡單來說，通過精心設計prompt以及引入思維鏈提示和情境學習，團隊讓GPT-4o在圖像評估過程中學會了像人類一樣思考，并展現其思考過程。

為了測試效果，團隊以7名專業人類標注員的打分為基準，對7種不同的圖像生成方法進行了評估。

結果顯示DreamBench++與人類評價高度一致。

更多細節接下來一起瞅瞅~

什么是DreamBench++？

DreamBench++是一個全新的評估工具，它在個性化圖像評估領域實現了兩項關鍵技術突破。

盡管GPT-4o支持多模態輸入，但在保留評估中的細微差異時面臨挑戰。

在評價不同方法的個性化效果時，研究人員選擇直接打分而非對比，因為對比可能會受到不同方法生成的圖像順序的影響，而且兩兩對比需要更長的標注時間。

為了確保評估的準確性和一致性，研究人員設計了包含以下要素的prompt：

評分規則涵蓋了形狀、顏色、紋理以及面部細節（特別針對人和動物），以全面評估圖像的個性化效果。

最后，為了收集無偏的人類偏好數據，研究團隊招募了7名經過專業培訓、充分理解個性化任務的人類標注員。他們的標注結果被用作人類打分的基準，以確保評估結果的客觀性和可靠性。

為了確保評估過程的公正性和無歧視性，DreamBench++的研究人員構建了一個新的個性化數據集。

這一數據集的構建過程涵蓋了以下幾個關鍵步驟：

獲取主題關鍵詞：團隊挑選以及生成了一系列可用于個性化生成的主體名稱，如貓、鐘表、男人等，共200個關鍵詞，分為物體（objects）、活物（living objects)，以及風格化圖片（style）三種類型。
圖片收集：收集來源包含Unsplash, Rawpixel和Google Image Search。接著，從這些圖片中挑選了背景干凈、主體占比大的圖片，以確保圖像的清晰度和識別度。
prompt生成：引導GPT-4o生成不同復雜程度的prompt。這些prompt的復雜性與生成任務的難度相對應，即越復雜的prompt對應越具有挑戰性的生成任務。