北大字節(jié)VAR獲最佳論文、廈大清華獲亞軍，NeurIPS 2024最佳論文出爐

作者：機(jī)器之心 2024-12-04 12:10:40

由廈門大學(xué)、清華大學(xué)、微軟研究者共同完成的《Not All Tokens Are What You Need for Pretraining》（并非所有 token 都是預(yù)訓(xùn)練所需的）， Zhenghao Lin 和 Zhibin Gou（茍志斌）為共同一作。

剛剛，人工智能頂會(huì) NeurIPS 公布了今年的最佳論文（包括 Best Paper 和 Best Paper Runner-up，大會(huì)注冊者可以看到）。

一共有兩篇論文獲得最佳論文獎(jiǎng)：

一是由北京大學(xué)、字節(jié)跳動(dòng)研究者共同完成的《Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction》（視覺自回歸建模：通過 Next-Scale 預(yù)測生成可擴(kuò)展圖像），論文一作為田柯宇（此前因涉攻擊內(nèi)部大模型，被字節(jié)起訴）。

機(jī)器之心獲悉，從 2023 年開始，字節(jié)商業(yè)化技術(shù)團(tuán)隊(duì)就在研究圖像生成的自回歸模型，一直將 VAR 作為高優(yōu)項(xiàng)目推進(jìn)，不僅安排多名研究人員重點(diǎn)攻關(guān)此技術(shù)方向，還投入大量算力資源支持模型訓(xùn)練和實(shí)驗(yàn)。該團(tuán)隊(duì)近期將發(fā)布新的 VAR T2I 模型研究成果，并將對模型開源。

二是由新加坡國立大學(xué)、 Sea AI Lab 研究者共同完成的《Stochastic Taylor Derivative Estimator: Efficient amortization for arbitrary differential operators》（隨機(jī)泰勒導(dǎo)數(shù)估計(jì)器：任意微分算子的有效攤銷），論文一作為 Zekun Shi。

此外，還有兩篇論文獲得了最佳論文亞軍（Best Paper Runner-up）：

由英偉達(dá)和阿爾托大學(xué)共同完成的《Guiding a Diffusion Model with a Bad Version of Itself》（使用擴(kuò)散模型的一個(gè)糟糕版本引導(dǎo)其自身），論文一作為 Tero Karras。

NeurIPS 2024 將于 12 月 10 日星期二至 12 月 15 日星期日在溫哥華舉辦。本屆共收到 15671 篇有效論文投稿，比去年又增長了 27%，但最終接收率低于 2023 年，僅有 25.8%。最佳論文的公布提前引爆了有關(guān)此次大會(huì)的討論。

以下是獲獎(jiǎng)?wù)撐牡脑敿?xì)信息：

最佳論文

論文 1：Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction

作者：Keyu Tian, Yi Jiang, Zehuan Yuan, Bingyue Peng, Liwei Wang
機(jī)構(gòu)：北京大學(xué)、字節(jié)跳動(dòng)
論文地址：https://arxiv.org/pdf/2404.02905
項(xiàng)目地址：https://github.com/FoundationVision/VAR

論文簡介：在自然語言處理中，以 GPT、LLaMa 系列等大語言模型為例的 Autoregressive（自回歸模型已經(jīng)取得了較大的成功，尤其擴(kuò)展定律（Scaling Law）和零樣本任務(wù)泛化能力（Zero-shot Task Generalizability）十分亮眼，初步展示出通往「通用人工智能 AGI」的潛力。

然而在圖像生成領(lǐng)域中，自回歸模型卻廣泛落后于擴(kuò)散（Diffusion）模型：DALL-E、Stable Diffusion、Sora 等模型均屬于 Diffusion 家族。

為了「解鎖」自回歸模型的能力和 Scaling Laws，研究團(tuán)隊(duì)從圖像模態(tài)內(nèi)在本質(zhì)出發(fā)，模仿人類處理圖像的邏輯順序，提出一套全新的「視覺自回歸」生成范式：VAR, Visual AutoRegressive Modeling，首次使得 GPT 風(fēng)格的自回歸視覺生成，在效果、速度、Scaling 能力多方面超越 Diffusion，迎來了視覺生成領(lǐng)域的 Scaling Laws。

VAR 為如何定義圖像的自回歸順序提供了一個(gè)全新的視角，即由粗到細(xì)、由全局輪廓到局部精調(diào)的順序。在符合直覺的同時(shí)，這樣的自回歸算法帶來了很好的效果：VAR 顯著提升了自回歸模型的速度和生成質(zhì)量，在多方面使得自回歸模型首次超越擴(kuò)散模型。同時(shí) VAR 展現(xiàn)出類似 LLM 的 Scaling Laws 和零樣本任務(wù)泛化能力。

論文 2：Stochastic Taylor Derivative Estimator: Efficient amortization for arbitrary differential operators

作者：Zekun Shi, Zheyuan Hu, Min Lin, Kenji Kawaguchi
機(jī)構(gòu)：新加坡國立大學(xué)、 Sea AI Lab
論文地址：https://arxiv.org/abs/2412.00088
項(xiàng)目地址：https://github.com/sail-sg/stde

論文簡介：使用包含高維和高階微分算子的損失函數(shù)來優(yōu)化神經(jīng)網(wǎng)絡(luò)是非常昂貴的，因?yàn)榉聪騻鞑ブ袑?dǎo)數(shù)張量的大小按縮放，計(jì)算圖中的計(jì)算按縮放，其中，d 是域的維度，L 是前向計(jì)算圖中操作的數(shù)量，k 是導(dǎo)數(shù)的階數(shù)。

在之前的研究中，d 中多項(xiàng)式縮放是通過隨機(jī)化在優(yōu)化過程中平攤計(jì)算來解決的。另外，單變量函數(shù)（d = 1）中 k 的指數(shù)縮放通過高階自動(dòng)微分（AD）解決。

本研究展示了如何通過正確構(gòu)造單變量高階 AD 輸入切線（input tangent），有效地對多元函數(shù)的任意階導(dǎo)數(shù)張量進(jìn)行任意收縮，這可用于有效地隨機(jī)化任何微分算子。

當(dāng)應(yīng)用于 PINN（ Physics-Informed Neural Networks ）時(shí)，與使用一階 AD 進(jìn)行隨機(jī)化相比，本文方法提供了 1000 倍以上的速度提升和 30 倍以上的內(nèi)存減少，而且現(xiàn)在可以在單個(gè) NVIDIA A100 GPU 上在 8 分鐘內(nèi)解決 100 萬維 PDE。這項(xiàng)工作開啟了在大規(guī)模問題中使用高階微分算子的可能性。

最佳論文亞軍（Best Paper Runner-up）

論文 1：Not All Tokens Are What You Need for Pretraining

作者：Zhenghao Lin, Zhibin Gou, Yeyun Gong, Xiao Liu, yelong shen, Ruochen Xu, Chen Lin, Yujiu Yang, Jian Jiao, Nan Duan, Weizhu Chen
機(jī)構(gòu)：廈門大學(xué)、清華大學(xué)、微軟
論文地址：https://openreview.net/pdf?id=0NMzBwqaAJ
項(xiàng)目地址：https://github.com/microsoft/rho

論文簡介：以前的語言模型預(yù)訓(xùn)練方法會(huì)統(tǒng)一對所有訓(xùn)練 token 應(yīng)用下一個(gè) token 預(yù)測損失。

但這一范式并非不可挑戰(zhàn)。這篇論文的作者首先做出了一個(gè)假設(shè)：「對于語言模型訓(xùn)練，并非語料庫中的所有 token 都同等重要」。

然后，他們分析了語言模型的 token 級訓(xùn)練動(dòng)態(tài)，結(jié)果發(fā)現(xiàn)不同 token 有著不同的損失模式。

基于這些見解，他們開發(fā)了一種新模型 RHO-1。不同于傳統(tǒng)語言模型（會(huì)學(xué)習(xí)預(yù)測語料庫中的每一下個(gè) token），RHO-1 采用了選擇性語言建模（SLM），它會(huì)選擇性地使用與所需分布對齊的有用 token 進(jìn)行訓(xùn)練。

該方法需要使用一個(gè)參考模型來給 token 評分，然后再在分?jǐn)?shù)更高的 token 上使用一個(gè)重點(diǎn)關(guān)注損失（focused loss）來訓(xùn)練模型。

在 15B OpenWebMath 語料庫上進(jìn)行持續(xù)預(yù)訓(xùn)練時(shí)，RHO-1 在 9 個(gè)數(shù)學(xué)任務(wù)上的少樣本準(zhǔn)確率實(shí)現(xiàn)了 30% 的絕對提升。經(jīng)過微調(diào)后，RHO-1-1B 和 7B 在 MATH 數(shù)據(jù)集上分別取得了 40.6% 和 51.8% 的 SOTA 結(jié)果 —— 僅用 3% 的預(yù)訓(xùn)練 token 就達(dá)到了 DeepSeekMath 相當(dāng)?shù)乃健４送猓趯?80B 個(gè)通用 token 進(jìn)行持續(xù)預(yù)訓(xùn)練時(shí)，RHO-1 在 15 個(gè)不同任務(wù)上實(shí)現(xiàn)了 6.8% 的平均提升，數(shù)據(jù)效率和語言模型預(yù)訓(xùn)練的性能都得到了提升。

論文 2：Guiding a Diffusion Model with a Bad Version of Itself

作者：Tero Karras, Miika Aittala, Tuomas Kynk??nniemi, Jaakko Lehtinen, Timo Aila, Samuli Laine
機(jī)構(gòu)：英偉達(dá)、阿爾托大學(xué)
論文地址：https://arxiv.org/pdf/2406.02507

論文簡介：圖像生成擴(kuò)散模型關(guān)注的核心是圖像質(zhì)量、結(jié)果的多變程度以及結(jié)果與給定條件（例如類標(biāo)簽或文本提示）的對齊程度。

常見的無分類器引導(dǎo)方法是使用無條件模型來引導(dǎo)條件模型，這樣既能實(shí)現(xiàn)更好的提示詞對齊，也能得到更高質(zhì)量的圖像，但代價(jià)是多變程度下降。

這些效果似乎本質(zhì)上是糾纏在一起的，因此很難控制。

基于此，該團(tuán)隊(duì)得出了一個(gè)令人驚訝的觀察結(jié)果：通過使用較小、訓(xùn)練較少的模型版本（而不是無條件模型）來引導(dǎo)生成，就可以在不影響多變程度的情況下獲得對圖像質(zhì)量的控制。由此，圖像質(zhì)量與多變程度就分離了。

實(shí)驗(yàn)表明，這能顯著提升 ImageNet 生成效果。他們使用公開可用的網(wǎng)絡(luò)，為 64×64 分辨率下的生成創(chuàng)造了 1.01 的 FID 記錄，為 512×512 創(chuàng)造了 1.25 的 FID 記錄。此外，該方法也適用于無條件擴(kuò)散模型，可極大提高其質(zhì)量。