首個ICLR時間檢驗獎出爐！3萬被引論文奠定圖像生成范式，DALL-E 3/SD背后都靠它

Crystalcxt

發布于 2024-5-8 14:01

瀏覽

0收藏

首屆ICLR時間檢驗獎，頒向變分自編碼器VAE。

這篇跨越十一年的論文，給后續包括擴散模型在內的生成模型帶來重要思想啟發，才有了今天的DALL-E3、Stable Diffusion。此外，在音頻、文本等領域都有廣泛應用，是深度學習中的重要技術之一。

首個ICLR時間檢驗獎出爐！3萬被引論文奠定圖像生成范式，DALL-E 3/SD背后都靠它-AI.x社區

論文一作、VAE主要架構師Diederik Kingma可是妥妥大佬一枚。現在他在DeepMind擔任研究科學家，曾是OpenAI創始成員、算法負責人，還是Adam優化器發明者。

網友紛紛表示祝福：Well Deserved，并稱VAE改變了游戲規則。

首個ICLR時間檢驗獎出爐！3萬被引論文奠定圖像生成范式，DALL-E 3/SD背后都靠它-AI.x社區

值得一提的是，榮獲亞軍的論文也同樣具有代表性，其參與者包括OpenAI首席科學家的Ilya、GAN的發明者Ian Goodfellow。

與此同時，杰出論文獎也悉數頒出。

首屆ICLR時間檢驗獎

首先來看榮獲時間檢驗獎的論文講了什么。

首個ICLR時間檢驗獎出爐！3萬被引論文奠定圖像生成范式，DALL-E 3/SD背后都靠它-AI.x社區

概率建模是我們推理世界的最基本方法之一。這篇論文率先將深度學習與可擴展的概率推理（通過所謂的重參數化技巧進行攤平均值場變分推理）整合在一起，從而產生了變分自編碼器（VAE）。

委員會評價這項工作其持久價值在于它的優雅。用于開發 VAE 的原理加深了我們對深度學習和概率建模之間相互作用的理解，并引發了許多后續有趣的概率模型和編碼方法的開發。

傳統自編碼器有個問題，它學到的隱向量是確定的、離散的，也沒有很好的可解釋性，而且不能隨機采樣隱向量來生成新樣本。VAE就是為了解決這些問題而提出的。

VAE的核心思想是把隱向量看作是一個概率分布。具體而言，編碼器（encoder）不直接輸出一個隱向量，而是輸出一個均值向量和一個方差向量，它們刻畫了隱變量的高斯分布。這樣一來,我們就可以從這個分布中隨機采樣隱向量，再用解碼器（decoder）生成新圖片了。

但是問題在于,這個隱變量的后驗分布很復雜，難以直接求解。

所以VAE的第二個關鍵思想是用一個簡單分布(例如高斯分布)去近似真實的后驗分布，并通過優化一個下界（ELBO）來訓練模型。

首個ICLR時間檢驗獎出爐！3萬被引論文奠定圖像生成范式，DALL-E 3/SD背后都靠它-AI.x社區

這個下界可以分解為兩部分：一部分讓生成的圖片更接近原始圖片，另一部分讓近似后驗分布更接近先驗分布(例如標準高斯分布)。直觀地說，這相當于在重構輸入圖片的同時,對隱變量分布進行了一個“規范化”。

為了讓這個下界能通過梯度下降來優化，VAE論文提出了一個重參數技巧，它把從分布中采樣的過程改寫成從標準高斯分布采樣并進行線性變換。這樣梯度就可以直接反向傳播了。

這樣一來，VAE可以學習到數據的隱空間表示,并用它來生成新樣本。和傳統自編碼器相比,VAE學到的隱變量具有更好的可解釋性和泛化能力。

在實驗部分,論文在MNIST數據集上展示了VAE生成數字圖像的效果。

首個ICLR時間檢驗獎出爐！3萬被引論文奠定圖像生成范式，DALL-E 3/SD背后都靠它-AI.x社區

而這篇研究背后的作者同樣來頭不小。

Diederik P. Kingma博士畢業于阿姆斯特丹大學。曾是OpenAI創始成員之一、算法團隊負責人，專注于基礎研究，比如用于生成模型的算法。

離開OpenAI之后，他來到谷歌，參與到谷歌大腦、DeepMind團隊研究中去，他主導了一系列生成模型的研究，包括文本、圖像和視頻。除了VAE之外，他也是Adam優化器、Glow等發明者。谷歌學術被引超20萬次。

除此之外，他還有著天使投資人這一身份。

首個ICLR時間檢驗獎出爐！3萬被引論文奠定圖像生成范式，DALL-E 3/SD背后都靠它-AI.x社區

不過目前從Twitter介紹上看，他貌似已經離開DeepMind。

首個ICLR時間檢驗獎出爐！3萬被引論文奠定圖像生成范式，DALL-E 3/SD背后都靠它-AI.x社區

AI大牛Max Welling目前是阿姆斯特丹大學機器學習研究主席，也是MSR杰出科學家。

首個ICLR時間檢驗獎出爐！3萬被引論文奠定圖像生成范式，DALL-E 3/SD背后都靠它-AI.x社區

另外，同樣來自2013年的研究，來自谷歌、紐約大學、蒙特利爾大學的論文Intriguing properties of neural networks獲得了亞軍。

首個ICLR時間檢驗獎出爐！3萬被引論文奠定圖像生成范式，DALL-E 3/SD背后都靠它-AI.x社區

里面還有不少熟悉面孔，比如那個消失的OpenAI聯創兼首席科學家Ilya Sutskever 、GAN發明者Ian Goodfellow。

ICLR委員對這篇論文評價如下：

隨著深度神經網絡在實際應用中的日益普及，了解神經網絡何時以及如何出現不良行為顯得尤為重要。這篇論文強調了這樣一個問題，即神經網絡很容易受到輸入中幾乎難以察覺的微小變化的影響。這一想法有助于催生對抗性攻擊（試圖愚弄神經網絡）和對抗性防御（訓練神經網絡使其不被愚弄）領域。

杰出論文獎

與此同時，本屆ICLR杰出論文獎也悉數頒出，共有5篇優秀論文獲獎、11篇論文獲得榮譽提名。

那么主要來看看這5篇論文講了什么。

Generalization in diffusion models arises from geometry-adaptive harmonic representations

首個ICLR時間檢驗獎出爐！3萬被引論文奠定圖像生成范式，DALL-E 3/SD背后都靠它-AI.x社區

這篇來自紐約大學、法蘭西學院的研究，從實驗和理論研究了擴散模型中的記憶和泛化特性。作者根據經驗研究了圖像生成模型何時從記憶輸入轉換到泛化機制，并通過 “幾何自適應諧波表征 ”與諧波分析的思想建立聯系，進一步從建筑歸納偏差的角度解釋了這一現象。

這篇論文涵蓋了我們對視覺生成模型理解中的一個關鍵缺失部分，很可能會對該領域未來的重要理論研究有所啟發。

Learning Interactive Real-World Simulators

首個ICLR時間檢驗獎出爐！3萬被引論文奠定圖像生成范式，DALL-E 3/SD背后都靠它-AI.x社區

研究機構來自UC伯克利、Google DeepMind、MIT、阿爾伯塔大學。匯集多個來源的數據來訓練機器人基礎模型是一個長期的宏偉目標。由于不同的機器人具有不同的感知-運動界面，這阻礙了大規模數據集的訓練，因此帶來了巨大的挑戰。這項名為 “UniSim ”的工作是朝著這個方向邁出的重要一步，也是一項工程壯舉，它使用基于視覺感知和控制文字描述的統一界面來聚合數據，并利用視覺和語言領域的最新發展，從數據中訓練機器人模擬器。

Never Train from Scratch: Fair Comparison of Long-Sequence Models Requires Data-Driven Priors

首個ICLR時間檢驗獎出爐！3萬被引論文奠定圖像生成范式，DALL-E 3/SD背后都靠它-AI.x社區

來自特拉維夫大學、IBM的研究深入探討了最近提出的狀態空間模型和Transformer架構對長期順序依賴關系的建模能力。令人驚訝的是，作者發現從頭開始訓練Transformer模型會導致對其性能的低估，并證明通過預訓練和微調設置可以獲得巨大的收益。

這篇論文執行得非常出色，在注重簡潔性和系統性見解方面堪稱典范。

Protein Discovery with Discrete Walk-Jump Sampling

首個ICLR時間檢驗獎出爐！3萬被引論文奠定圖像生成范式，DALL-E 3/SD背后都靠它-AI.x社區

基因泰克、紐約大學的研究解決了基于序列的抗體設計問題，這是蛋白質序列生成模型的一個重要應用。作者引入了一種創新而有效的新建模方法，專門用于處理離散蛋白質序列數據的問題。除了在硅學中驗證該方法外，作者還進行了大量濕實驗室實驗，在體外測量抗體結合親和力，證明了其生成方法的有效性。

Vision Transformers Need Registers

首個ICLR時間檢驗獎出爐！3萬被引論文奠定圖像生成范式，DALL-E 3/SD背后都靠它-AI.x社區

來自Meta等機構的研究，識別了vision transformer網絡特征圖中的偽影，其特點是低信息量背景區域中的高規范Tokens。作者對出現這種情況的原因提出了關鍵假設，并提供了一個簡單而優雅的解決方案，利用額外的register tokens來解決這些偽影問題，從而提高模型在各種任務中的性能。從這項工作中獲得的啟示也會對其他應用領域產生影響。