成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

特拉維夫大學把StyleGAN進行了大匯總,全面了解SOTA方法、架構新進展

人工智能 新聞
一文了解 StyleGAN 架構、方法和應用的最新進展。

GAN 生成高分辨率圖像的能力正在徹底改變圖像合成和處理領域。2019 年 Karras 等人提出 StyleGAN ,該技術走到了圖像合成的最前沿,被公認為是最先進的高質量圖像生成器。我們先來看下 StyleGAN 的合成效果:

StyleGAN 不受監督,但它的潛在空間卻表現的令人驚訝。事實證明,StyleGAN 性能非常好,甚至支持線性潛在算法。例如,它支持在一組潛在代碼中添加一個表示年齡的向量,使圖像中人物年齡看起來更年長。研究證明,StyleGAN 不但可以線性的排列潛在空間,也可以以一種解耦(disentangled)的方式,其遍歷方向僅改變特定的圖像屬性,而不影響其他屬性。這些屬性包括全局、與領域無關的方面(例如視角),但也包括特定領域的屬性,例如人臉的表情或性別、汽車顏色、狗品種等(參見圖 1 和圖 2)。

在本文中,來自特拉維夫大學的多位研究者撰文描述了 StyleGAN 目前取得的成功,并分析了其存在的嚴重缺陷。該研究首先討論網絡架構本身,并分析了 StyleGAN 自出現以來在先進生成模型中所起的作用。之后,該研究討論了訓練 StyleGAN 所需的資源,并列出減少、復用和回收這些資源的一些研究。

論文地址:https://arxiv.org/pdf/2202.14020.pdf

StyleGAN 架構、方法和應用中的最新技術

本文共分為 8 個小節:在 2 節中,該研究將描述了 StyleGAN 的架構是如何構建的,并試圖理解為什么這種架構會引發如此尖端的新興技術,以及如何改進架構以滿足特定需求。

第 3 節討論了 StyleGAN 的潛在空間,展示了研究者如何找到線性編輯方向并將其用于強大的語義編輯。傳統上一般的 GAN,特別是 StyleGAN,可用于簡單地生成不同風格的圖像。這些可以作為下游訓練的一種數據增強形式(參見第 6 節)。然而,研究已經表明 GAN 傾向于平滑地排列其潛在空間,即潛在空間中的接近區域描繪出相似的圖像。

第 4 節主要討論了 StyleGAN 逆映射(inversion)。為了在 StyleGAN 域中表達給定的真實圖像,研究者提出了許多不同的方法,所有這些方法都深入分析和利用了生成器架構。一些研究者提出了潛在代碼優化,應用數據驅動推理等不同方法,或者尋求適當的輸入種子向量,還有一些研究在推理路徑的其他點與 StyleGAN 交互,從而大大提高了網絡表達能力。StyleGAN 潛在空間的良好行為性質在遠離其良好采樣分布的區域中會減少。這在實踐中意味著給定真實圖像,其重建質量(或失真)是以可編輯性為代價的。在這種重建 - 可編輯性權衡中找到不同的期望點是本節主要討論點。

將圖像編碼到 StyleGAN 潛在空間比圖像逆映射本身具有更多優點。在許多應用程序中,被編碼的圖像不是所需的潛在代碼應該表示的圖像。這種編碼允許各種圖像到圖像的轉換方法。在第 4 節中,該研究介紹并討論了這種有監督和無監督的方法。

在第 6 節中,該研究展示了 StyleGAN 生成能力,并討論了 StyleGAN 可以利用的判別能力,這包括可解釋性、回歸、分割等方面的應用。

在大多數工作和應用中,預訓練 StyleGAN 生成器保持固定。然而,在第 7 節中,該研究展示了微調 StyleGAN 生成器并修改其權重以彌合訓練域(域內)或目標域之間的差距的最新工作。每個部分都針對新手以及經驗豐富的研究者,并總結了最成熟和最有前途的方法,以及如何使用它們。

下面我們將介紹論文中部分章節內容。

StyleGAN 架構的發展

StyleGAN1。基于風格的生成器架構,或簡稱 StyleGAN,最初由 Karras 等人在 2019 年提出。StyleGAN 架構的核心是風格調制層(style modulation layers),StyleGAN 的名字就是從這里得來的, 其能夠生成高質量的圖像數據并且做到了高層特征可控。

StyleGAN2。隨著 StyleGAN 廣泛使用,模型固有的缺點暴露出來,例如偽影問題。此外,研究者還觀察到一種紋理粘附效應,即生成圖像的某些屬性,如牙齒或眼睛,會顯示出強烈的空間偏差,即使通過潛在空間插值也難以解決。在后續工作中,Karras 等人的研究可以識別偽影來源,并重新設計算法以改進網絡,StyleGAN2 著重處理 StyleGAN 偽影問題,能夠生成質量更好的圖像數據。

StyleGAN3。起初,StyleGAN2 似乎解決了紋理粘連問題。然而,研究者通過細致的分析發現,StyleGAN2 雖然已經解決了嘴巴或眼睛等大尺寸物體,但在檢查頭發或胡須等更精細的細節時仍然存在問題。為了解決這個問題,Karras 等人尋找空間信息可能泄漏到卷積操作中的各種來源,目的是完全恢復網絡的平移不變性。StyleGAN3 的新穎架構 [Karras et al. 2021] 帶來了顯著的改進,使得插值更加平滑。

StyleGAN3 對生成細節的把控令人驚嘆,它從根本上解決了 StyleGAN2 圖像坐標與特征粘連的問題,實現了真正的圖像平移、旋轉等不變性,大幅提高了圖像合成質量。

當然,訓練模型離不開數據,當代機器學習一個公開秘密是,許多模型在標準基準上表現出色,但無法推廣到實驗室外,StyleGAN 也不例外。在 StyleGAN 中,學習域似乎需要嚴格的結構,而數據域應該是凸的,即在每兩個點之間應該有有效的樣本進行插值 。在最近的研究中,Sauer 等人證明,通過擴展模型可以克服數據面臨的挑戰,但 StyleGAN 獨特的潛在空間屬性是否能通過這種修改持續存在仍是一個懸而未決的問題。將來,我們可能會看到更多解決顯式數據問題的工作,即嘗試將 StyleGAN 應用于其他類型數據的工作,或者通過在訓練期間刪除或添加示例以使數據的 landscape 更加平滑,或者用更直接地方式處理數據中的多模態,或者通過將更精細的注意力機制整合到架構中。

與普通的 GAN 不同,StyleGAN 有不止一個固有的潛在空間。此外,為了增加 StyleGAN 的表現力,通常會使用這些空間的擴展,如圖 6。

潛在空間編輯

也許 GAN 學習最令人興奮的方面是潛在空間排列方式。傳統上,一般的 GAN,特別是 StyleGAN,可以用來簡單地生成各種各樣的同類圖像。這些可以作為下游訓練數據增強的一種形式 (見第 6 節)。然而,已有研究表明,GAN 傾向于平滑地排列其潛在空間,即潛在空間中的封閉區域描繪相似的圖像。

事實證明,在潛在空間中遍歷也可以得到所需的語義變化。這些變化包括視點、照明條件和特定于領域的屬性(如人臉的表情、汽車的顏色或建筑物的寬度)的變化。當然,最理想的編輯是解耦編輯,即那些改變一個屬性而不影響其他屬性的編輯。這樣強大的編輯工具的應用是無止境的,從自動添加微笑到面部圖像,通過室內設計探索,快速的汽車設計。

StyleGAN 在結構良好的數據上運行得最好,當對這些數據進行訓練時,StyleGAN 以一種無監督的方式構建了一個高度解耦的潛在空間,僅僅憑借歸納偏差。在本研究中,編輯藝術是多樣化的,呈現出從不同領域借來的創造性方法。

應用程序

雖然 GAN 具有很強的生成能力,尤其是 StyleGAN,但人們可能會問,使用 GAN 可以解決哪些非生成任務。在其最基本的形式中,GAN 生成大量圖像的能力,基本上都是從相同的目標分布重新采樣的,可用于下游訓練任務的數據豐富和增強。事實上,早期研究提出使用 GAN 作為增強工具來生成更多的訓練數。

利用 GAN 的編輯能力,Chai 等人通過在測試時增強輸入圖像,提出了一種用于圖像分類的集成方法。輸入被投影到預訓練生成器的潛在空間中,并對其應用風格混合等編輯操作,生成不同的視圖。之后生成的圖像輸入分類網絡,模型的最終預測基于對所有圖像的網絡預測的集合。與深度學習中的傳統集成不同,其中多個模型的預測被組合以產生最終結果,該方法建議使用同一圖像的不同視圖(同時保留其身份)并在測試時集成分類器對圖像的預測。

為了以新的方式利用 StyleGAN 的語義理解,Peebles 等人提出了一種新的框架來處理密集視覺對齊的任務。如圖 11c 所示。一旦兩種操作收斂到一個視點,就可以使用 STN 來對齊真實圖像。

另一個關鍵方面是避免扭曲圖像的未編輯部分,通常稱為保留原始身份。例如,對人臉微笑的編輯不應改變發型等屬性。一些研究專注于面部圖像,其中可以使用面部識別網絡評估身份。

另一個問題是圖像質量。StyleGAN 的主要優勢之一是高質量的視覺效果,編輯方法應該致力于保持這種效果。然而,編輯可能會導致編輯后的數據與真實數據之間存在較大的偏差,從而導致評估不準確。如果可能,可以使用分類器或回歸模型來平衡圖像集合與某些屬性之間的關系。Zhu 等人提出了評估插值質量方法,他們建議,即使對于插值圖像,良好的可編輯性也應該保留 StyleGAN 的高質量,他們使用 FID 度量。最后,一些研究利用用戶研究來評估編輯質量,盡管這種方法對編輯過程有深刻的理解,但它會消耗大量資源并且容易受到不必要的操作。直到今天,對于潛在的操作質量,還沒有被廣泛接受的評估指標。

 更多細節,請查看原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-07-17 10:21:25

TC39JavaScript

2023-04-13 15:25:14

模型

2009-09-25 09:27:33

Ubuntu 2010最新進展Lucid Lynx

2022-11-21 14:43:34

人臉復原SOTA

2012-11-19 10:37:57

思杰OpenStack

2012-11-19 10:50:39

思杰CloudStack開源

2015-11-12 09:27:13

C++最新進展

2024-11-19 13:40:00

AI系統

2024-06-27 11:02:44

2021-09-14 10:03:35

RustLinux開發工作

2020-07-02 16:00:53

?Flutter桌面應用代碼

2021-06-15 14:54:23

ReactReact 18SSR

2021-11-12 20:59:21

數字人民幣數字貨幣區塊鏈

2022-03-02 09:53:51

微軟FlutterEngine PR

2017-02-17 13:38:40

2022-12-28 14:55:15

數據泄露網絡安全

2022-03-07 20:39:54

物聯網邊緣計算深度學習

2017-02-22 18:15:31

AI谷歌

2019-11-15 10:11:03

人工智能埃博拉技術
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产精品久久久久一区二区三区 | 在线观看免费高清av | 三级免费 | 国产精品美女久久久久aⅴ国产馆 | 亚洲在线| 色婷婷婷婷色 | 91视频国产一区 | 北条麻妃国产九九九精品小说 | 91精品久久久久久久99 | 狠狠操狠狠色 | 久草在线在线精品观看 | 成人精品视频99在线观看免费 | 国产视频观看 | 亚洲欧洲成人av每日更新 | 精品国产一区二区三区久久 | 免费看a | 男女深夜网站 | 国产中文字幕在线观看 | 91新视频| 先锋资源网站 | 黄久久久 | 97国产精品视频人人做人人爱 | 免费的黄色片子 | 国产片一区二区三区 | 国产成人午夜精品影院游乐网 | 亚洲一区二区久久 | 超碰成人av | 欧美激情欧美激情在线五月 | 亚洲精品视频一区 | 国产精品无码久久久久 | 国产精品a一区二区三区网址 | 精品久久中文 | 久久亚洲国产精品日日av夜夜 | 一区二区三区在线观看视频 | 日韩精品免费 | 成人亚洲| 欧美一级在线免费 | 激情综合五月 | 羞视频在线观看 | 成人免费区一区二区三区 | 成人av一区二区亚洲精 |