圖像也能做情感遷移?羅切斯特大學團隊提出計算機視覺新任務
圖像風格遷移?語音情感遷移?不,是圖像情感遷移。
計算機視覺領域中有很多任務,如目標檢測、圖像轉換、風格遷移等,但你聽說過「圖像情感遷移」嗎?
羅切斯特大學羅杰波教授團隊提出了這項研究任務 [1]。與其他計算機視覺任務相比,圖像情感遷移更有挑戰性,需要對圖像中的每個物體進行不同的情感遷移。該研究提出一種靈活有效的物體級圖像情感遷移框架和新模型 SentiGAN,實驗證明該框架可以有效執行物體級圖像情感遷移。
什么是圖像情感遷移?
圖像情感遷移是一個待探索的新型研究任務。與圖像轉換、圖像風格遷移和面部表情遷移任務相比,圖像情感遷移關注更高級更抽象的對圖像整體外觀和感覺的修改,而不改變其場景內容。如圖 1a 所示,將渾濁的海水變得清澈并給海鳥著色后,原本傳遞中性或消極情感的圖像變得積極溫暖,而圖像中的內容并未被更改。
與圖像轉換和圖像風格遷移相比,該研究認為圖像情感遷移更具挑戰性。其中一個難點在于對不同類別的物體進行情感遷移時需要使用不同的規則。這有別于風格遷移,后者可以將一種繪畫風格統一添加給圖像中的所有物體。如圖 1 所示,要讓輸入圖像具備積極情感,應把海水遷移成清澈的藍色,海鳥遷移成彩色的。這兩種操作不是基于同一張參考圖像,否則就會像圖 1b 和 1c 那樣不真實。

解決方案
為了解決這一挑戰,該研究提出了一種有效框架,可以在物體級別執行圖像情感遷移。整個過程可分為兩步:
1. 給定一張輸入圖像,該框架利用圖像描述生成模型和語義分割模型檢測所有物體,找出其像素級掩碼。結合使用兩個模型的目的是,維護高質量的物體掩碼,同時大幅擴大物體集的范圍。
2. 對于輸入圖像中每一個檢測出的物體,使用包含同樣物體的參考圖像進行情感遷移。該設計成功地解決了前述問題,并使框架保持強大的靈活性,例如用戶可以給輸入圖像中的每一個物體賦予不同的情感。此外,它還可以使用戶無需提供參考圖像,直接輸入想要賦予每一個檢測出物體的情感詞匯即可執行情感遷移(如對鳥輸入「colorful」、對天空輸入「sunny」、對山輸入「magnificent」)。有了物體和情感詞匯,系統就可以自動檢索對應的參考圖像,并執行情感遷移。
該框架的整體性能由第二步決定,即目標級情感遷移。這里可以直接應用風格遷移模型,但是情感遷移任務需要遷移后的圖像看起來自然,不需要局部模式(如紋理)的顯式遷移,而這正是風格遷移模型的固有元素。因此,研究人員轉而利用多模態圖像轉換模型,如 MUNIT 和 DRIT。它們可以分離內容和風格信息,為輸入圖像保存更多基于內容的元素。只需要對這些雙領域映射模型做簡單的修改,就可以使其適用于情感遷移任務,而這并不會明顯限制輸入和遷移圖像的域。
但是,使用以上模型仍然存在缺陷。首先,MUNIT 和 DRIT 最初是為圖像級變換任務設計的,它們在細粒度物體級遷移任務上表現不好。第二個問題與情感遷移的本質有關。相比于輪廓、紋理和繪畫風格,圖像情感更敏感,往往與基于顏色的元素有關,如對比度、飽和度、亮度和主色。
理想情況下,我們希望模型能夠將輸入圖像的這些元素完全遷移為參考圖像。現有的多模態模型通常將視覺表示分解為內容碼和風格碼。遷移即通過自適應實例歸一化 (AdaIN),將參考圖像 / 物體的風格碼注入輸入圖像 / 物體的內容碼。但是,如下圖 2 所示,具備不同內容碼的物體即使使用相同的風格碼,得到的整體色彩分布仍然大不相同。這表明,現有模型無法充分將色彩信息和內容碼分離開,因而導致不完全的顏色遷移。

為解決以上缺陷,該研究提出了一種新方法 Sentiment-aware GAN (SentiGAN)。對于第一種缺陷,該研究創建了對應的物體級損失函數,與圖像級損失一起訓練模型。對于第二種缺陷,其解決方案基于以下觀察:額外遷移內容碼全局信息可以更好地遷移輸入物體的顏色信息。同時,研究人員還通過維護空間信息來阻止其他內容信息(如紋理)的改變。為此,他們使用有效的約束,使遷移物體的內容碼與參考物體的內容碼全局接近,但與輸入物體的內容碼局部接近。這些約束通過訓練過程中的內容分離損失和推斷過程中的內容對齊步驟來實現。該研究表明這兩種方法具備互補性,能夠顯著提高情感遷移的性能。
該研究提出的圖像風格遷移框架如下圖 3 所示:

框架原理如下:
給定輸入圖像,首先執行物體掩碼提取來提取物體和對應的掩碼;然后使用圖像描述生成和圖像語義分割來獲取所有物體和高質量掩碼;最后,使用 SentiGAN 逐個物體地執行情感遷移。
核心組件 SentiGAN 的架構如下圖所示:

實驗
研究人員創建了三個任務來評估圖像情感遷移模型的性能。這三個任務均基于 50 張選自測試集的輸入圖像,這些圖像具備精確的物體掩碼和相對中性或模糊的情感信息(方便向積極或消極情感方向遷移)。
任務 1:粗粒度情感遷移
第一個任務旨在衡量模型在執行圖像粗粒度情感遷移時的性能。研究人員訓練一個圖像情感二分類模型來用于預測提取測試集中的典型積極圖像和典型消極圖像。對于每一張輸入圖像,不同的情感遷移模型可從十組采樣的積極參考圖像和十組采樣的消極參考圖像中,對輸入圖像進行情感遷移。圖像情感分類模型對于各個情感遷移模型得到的遷移圖形評估結果參見下表 1:

從表 1 中可以看出,SentiGAN 獲得了最高的平均真正率和真負率。這表明,SentiGAN 可以有效執行圖像粗粒度情感遷移。
此外,研究人員還請五位志愿者從 SentiGAN 輸出的 500 張遷移圖像對(積極圖像和消極圖像)中選擇積極圖像。如表 2 所示,選擇正確的概率為 72.4%,這表明情感遷移效果可以被用戶觀察到。圖 5 展示了 SentiGAN 輸出的情感遷移示例。

任務 2:驗證物體級情感遷移的效果
第二個任務是驗證物體級情感遷移的效果。
研究人員令 SentiGAN 執行三種遷移策略——物體 級遷移、全局遷移、非對應物體的物體級遷移,并生成 50 組遷移圖像。令五位志愿者在每組中選擇最真實的圖像,每人負責 50 組。如表 3 所示,對于大多數組,志愿者認為目標級情感遷移生成的圖像最真實,這與圖 7 示例表現一致。


任務 3:遷移圖像與參考圖像間的情感一致性
第三個任務是評估遷移圖像和參考圖像之間的情感一致性(sentiment consistency)。研究者對每個輸入圖像收集了不同模型預測的遷移圖像,并請五位志愿者從中選擇出一或多個與參考圖像最具情感一致性的遷移圖像。
如下表 4 所示,SentiGAN 獲得了最高的選中率,而且大幅領先,這表明它在遷移參考圖像的情感中實現了最優性能。示例參見圖 6。


羅杰波教授團隊還提出了一種基于全局的圖像情感遷移方法 [2],感興趣的讀者可查看原論文。