AI畫家的「滑鐵盧」：為什么冰可樂不愿意住進茶杯里？精華

發布于 2024-8-7 09:43

瀏覽

0收藏

文章的第一作者是上海交通大學博士研究生趙峻圖（主頁：https://juntuzhao.run），他的研究方向包括計算機視覺和人工智能賦能的生命科學。此外，他還擔任上海交通大學校田徑隊隊長。文章的通訊作者為上海交通大學長聘教軌助理教授、博士生導師王德泉（主頁：https://dequan.wang）。

AI畫家的「滑鐵盧」：為什么冰可樂不愿意住進茶杯里？-AI.x社區

設想一下，如果讓你畫一幅 “茶杯中的冰可樂” 的圖片，盡管茶杯與冰可樂的組合可能并不恰當，你仍然會很自然地先畫出一個茶杯，然后畫上冰塊與可樂。那么，當我們給 AI 畫家提出 “畫出茶杯中的冰可樂” 的要求時，會發生什么呢？在 2023 年 10 月大規模 AI 圖像生成模型剛剛興起時，我們便進行了這種嘗試，得到了以下結果：

AI畫家的「滑鐵盧」：為什么冰可樂不愿意住進茶杯里？-AI.x社區

考慮到 AI 模型更新換代帶來的性能提升，我們在 2024 年 7 月又使用了最先進的模型進行了同樣的嘗試：

AI畫家的「滑鐵盧」：為什么冰可樂不愿意住進茶杯里？-AI.x社區

可以看出，即使是最先進的 AI 畫家（例如 Dall?E 3），也無法憑空構建 “茶杯中的冰可樂” 的場景，它們往往會摸不著頭腦，糾結良久后畫出一個裝滿冰可樂的透明玻璃杯。即使是擁有昂貴數據標注基礎以及 ChatGPT-4 加持下的最新 Dall?E 3 也無法穩定地 “將冰可樂裝進茶杯里”，這一問題在學術界被歸類為文生圖模型的文本圖像不對齊問題（text-image misalignment）。最近，上海交通大學王德泉老師課題組在論文《Lost in Translation: Latent Concept Misalignment in Text-to-Image Diffusion Models》中深入探索了這一問題的新分支，該論文即將發表在 2024 年 10 月份的第 18 屆歐洲計算機視覺大會（ECCV）上。

AI畫家的「滑鐵盧」：為什么冰可樂不愿意住進茶杯里？-AI.x社區

論文鏈接：https://arxiv.org/abs/2408.00230
項目鏈接：https://lcmis.github.io

文本圖像不對齊問題是圖像生成領域中的一個重要方向，與傳統不對齊問題不同的是，在傳統不對齊問題中，人們主要關注的是一組概念對中兩個概念的相互影響，例如給定 “一個蘋果和一個梨” 的需求，得到的圖像要么是兩個蘋果，要么是兩個梨，不會出現第三種概念。而在 “茶杯中的冰可樂” 這一例子中，有一個關鍵的隱藏變量 “透明玻璃杯”，其從未在文本提示中出現，卻替代 “茶杯” 出現在了圖像中。這種現象在本文中被稱為包含隱藏變量的不對齊問題（Latent Concept Misalignment，簡稱 LC-Mis）。

為了更深入地探索為什么茶杯會消失在圖像中，我們首先希望收集一些與 “茶杯中的冰可樂” 存在相似問題的數據。然而，“茶杯中的冰可樂” 問題源于人類的奇思妙想與 AI 的死記硬背之間的沖突，如果僅依靠人類專家冥思苦想來創造新的概念對，效率將會非常低下。因此，我們設計了一個基于大語言模型（LLMs）的系統，利用 LLMs 體內蘊含的人類思維來幫助我們快速收集與 “茶杯中的冰可樂” 存在類似問題的概念對。在這個系統中，我們首先向 LLMs 解釋 “茶杯中的冰可樂” 問題背后的邏輯，然后簡單地將這一問題劃分為幾個類別，讓 LLMs 按照不同類別的邏輯生成更多的類別和概念對，最后我們使用文生圖模型來繪制圖像進行檢查。然而，我們在后續實驗中發現，現有的自動化評價指標在 “茶杯中的冰可樂” 這一新問題上存在一定缺陷。因此，我們只能采用人工評估的方式，我們對每組概念對生成 20 張圖像，并根據這 20 張圖中正確畫出的數量為這組概念對給予 1 至 5 的評級，其中第 5 級表示所有 20 張圖像均未能正確生成。

為了找回圖像中的茶杯，我們提出了一種名為 Mixture of Concept Experts (MoCE) 的方法。我們認為，如果不從人類處理問題的角度來進行思考，那么人工智能的一切都是毫無道理的。在當今最火熱的文生圖模型 diffusion models 中，注意力機制會同時處理文本提示中的可樂與茶杯，但這并不符合人類按照概念順序作畫的規律。因此，我們將順序作畫的規律融入到 diffusion models 的多步采樣過程中，成功地將消失的茶杯找了回來：

AI畫家的「滑鐵盧」：為什么冰可樂不愿意住進茶杯里？-AI.x社區

具體來說，LLMs 會首先告訴我們應該先畫一個茶杯。接下來，我們將茶杯這一概念單獨輸入給 diffusion models，完成 T-N 步的采樣。而在余下的 N 步采樣中，再提供完整的文本提示，“茶杯中的冰可樂”，最終生成一張干凈的圖像。在此過程中，N 起到了至關重要的作用，因為它決定了為 “茶杯” 分配的采樣步數。于是，我們使用一個多模態模型來衡量圖像與茶杯以及冰可樂的契合度評分。當圖像和兩個概念的評分之間相差很大時，說明有一個概念很可能被模型忽略了，于是就需要相應地調整 N 的取值。由于 N 的取值與概念在圖中出現概率之間的關系是正相關的，因此這一調整過程是由二分查找來完成的。

最后，我們使用 MoCE 以及各種 baseline 模型在收集到的數據集上進行了廣泛的實驗，并展示了以 “茶杯中的冰可樂” 為首的可視化修復結果，以及在整個數據集上人類專家評估的結果對比。和幾種 baseline 模型相比，我們提出的 MoCE 方法顯著地降低了第 5 級 LC-Mis 概念對的占比。另外值得注意的是，MoCE 的性能在一定程度上甚至超越了需要大量數據標注成本的 Dall?E 3（2023 年 10 月版本）：

AI畫家的「滑鐵盧」：為什么冰可樂不愿意住進茶杯里？-AI.x社區

此外，正如在上文中提到的，現有的自動化評價指標在 “茶杯中的冰可樂” 這一新問題上存在一定缺陷。我們首先仔細挑選了一些帶把的透明玻璃杯圖像，它們雖然具有茶杯的形狀，但是由于其透明玻璃的材質而不能稱之為茶杯。我們將這些圖像與 MoCE 生成的 “茶杯中的冰可樂” 圖像進行了對比，如下圖所示：

AI畫家的「滑鐵盧」：為什么冰可樂不愿意住進茶杯里？-AI.x社區

我們使用了兩種當前流行的評價指標，Clipscore 和 Image-Reward，來計算圖像與 “冰可樂” 之間的契合程度。圖像與冰可樂的契合程度越高，得分就越高。然而，這兩種評價指標均對茶杯中的冰可樂給予了明顯更低的評分，而對透明玻璃杯中的冰可樂賦予了明顯更高的評分。因此，這表明現有的自動化評價指標可能無法識別出茶杯中的冰可樂，因為其模型內部仍存在 “冰可樂 = 冰塊 + 可樂 + 玻璃杯” 的偏見，從而導致其無法有效參與 LC-Mis 問題的評價。

總的來說，我們受到 “茶杯中的冰可樂” 例子的啟發，介紹了一種文本圖像不對齊問題的新分支，即包含隱藏概念的不對齊問題 (LC-Mis)。我們在大語言模型和文生圖模型的幫助下，開發了一個系統來收集 LC-Mis 概念對。接下來，我們受到人類繪畫規律的啟發，將繪畫順序引入 diffusion models 的采樣過程，提出了 MoCE 的方法，緩解了 LC-Mis 問題。最后，我們還通過代表例子 “茶杯中的冰可樂” 展示了當下文本圖像對齊問題的評價指標存在的缺陷。在未來的工作中，我們將持續深入研究生成式 AI 技術，推動 AI 更好地滿足人類的實際需求，通過不斷的努力和創新，我們期待見證 AI 在理解和再現人類創造力方面的突破。

本文轉自機器之心，作者：機器之心

原文鏈接:??https://mp.weixin.qq.com/s/OyLEBVJoaJDkunq15Uwj1Q??

標簽

圖片生成

贊

回復

舉報

回復

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

AI畫家的「滑鐵盧」：為什么冰可樂不愿意住進茶杯里？精華

目錄

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

AI畫家的「滑鐵盧」：為什么冰可樂不愿意住進茶杯里？ 精華

目錄

AI畫家的「滑鐵盧」：為什么冰可樂不愿意住進茶杯里？精華