2022出圈的ML研究：爆火的Stable Diffusion、通才智能體Gato，LeCun轉推

作者：機器之心 2022-12-26 13:40:59

這些機器學習領域的研究你都讀過嗎？

2022 年即將步入尾聲。在這一年里，機器學習領域涌現出了大量有價值的論文，對機器學習社區產生了深遠的影響。

今日，ML & NLP 研究者、Meta AI 技術產品營銷經理、DAIR.AI 創始人 Elvis S. 對 2022 年熱度很高的 12 篇機器學習論文進行了匯總。帖子很火，還得到了圖靈獎得主 Yann LeCun 的轉推。

接下來，我們一一來看。

論文 1：A ConvNet for the 2020s

視覺識別的快速發展始于 ViT 的引入，其很快取代了傳統 ConvNet，成為 SOTA 圖像分類模型。ViT 模型在包括目標檢測、語義分割等一系列計算機視覺任務中存在很多挑戰。因此有研究者提出分層 Swin Transformer，重新引入 ConvNet 先驗，使得 Transformer 作為通用視覺主干實際上可行，并在各種視覺任務上表現出卓越的性能。

然而，這種混合方法的有效性在很大程度上仍歸功于 Transformer 的內在優勢，而不是卷積固有的歸納偏置。本文中，FAIR 、UC 伯克利的研究者重新檢查了設計空間并測試了純 ConvNet 所能達到的極限。研究者逐漸將標準 ResNet「升級」為視覺 Transformer 的設計，并在此過程中發現了導致性能差異的幾個關鍵組件。

論文地址：https://arxiv.org/abs/2201.03545v2

論文 2：Language Models as Zero-Shot Planners: Extracting Actionable Knowledge for Embodied Agents

通過大型語言模型（LLM）學習的世界知識能能用于交互式環境中的行動嗎？本文中，UC 伯克利、CMU 和谷歌的研究者探究了將自然語言表達為一組選定可操作步驟的可能性。以往的工作側重于從顯式分布示例中學習如何行動，但他們驚訝地發現，如果預訓練語言模型足夠大并得到適當的提示，則可以有效地將高級任務分解為中級規劃，無需進一步訓練。但是，LLM 制定的規劃往往無法精確地映射到可接受的行動。

研究者提出的步驟以現有演示為條件，并將規劃在語義上轉換為可接受的行動。在 VirtualHome 環境中的評估表明，他們提出的方法大大提高了 LLM 基線的可執行性。人工評估揭示了可執行性和正確性之間的權衡，但展現出了從語言模型中提取可操作知識的可能性跡象。

論文地址：https://arxiv.org/abs/2201.07207v2

論文 3：OFA: Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Framework

這是阿里達摩院推出的統一多模態多任務模型框架 OFA，總結了通用模型現階段最好符合的三個特點，即模態無關、任務無關、任務多樣性。該論文被 ICML 2022 接收。

在圖文領域，OFA 將 visual grounding、VQA、image caption、image classification、text2image generation、language modeling 等經典任務通過統一的 seq2seq 框架進行表示，在任務間共享不同模態的輸入輸出，并且讓 Finetune 和預訓練保持一致，不新增額外的參數結構。

論文地址：https://arxiv.org/abs/2202.03052v2

論文 4：Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer

深度學習中的超參數（HP）調優是一個成本高昂的過程，對于具有數十億參數的神經網絡而言更是如此。本文中，微軟和 OpenAI 的研究者表明，在最近發現的 Maximal Update Parametrization（muP）中，即使模型大小發生變化，很多最優 HP 仍保持穩定。

這促成了他們稱為 muTransfer 的全新 HP 調優范式，即在 muP 中對目標模型進行參數化，在較小的模型上不直接進行 HP 調優，并將它們零樣本遷移到全尺寸模型中，這也意味著根本不需要直接對后者模型進行調優。研究者在 Transformer 和 ResNet 上驗證了 muTransfer。例如，通過從 40M 參數的模型進行遷移，性能優于已發布的 6.7B GPT-3 模型，調優成本僅為預訓練總成本的 7%。

論文地址：https://arxiv.org/abs/2203.03466v2

論文 5：OPT: Open Pre-trained Transformer Language Models

大模型往往經過成千上萬個計算日的訓練，在零樣本和少樣本學習中展現出了非凡的能力。不過考慮到它們的計算成本，如果沒有充足的資金，這些大模型很難復制。對于少數可以通過 API 獲得的模型，無法訪問它們完整的模型權重，也就難以展開研究。

本文中，Meta AI 的研究者提出了 Open Pre-trained Transformers（OPT），這是一套僅用于解碼器的預訓練 transformers 模型，參數從 125M 到 175B 不等。他們表明，OPT-175B 性能與 GPT-3 相當，但開發所需的碳足跡僅為后者的 1/7。

論文地址：https://arxiv.org/abs/2205.01068v4

論文 6：A Generalist Agent

受大規模語言建模的啟發，Deepmind 構建了一個單一的「通才」智能體 Gato，它具有多模態、多任務、多具身（embodiment）特點。

Gato 可以玩雅達利游戲、給圖片輸出字幕、和別人聊天、用機械臂堆疊積木等等。此外，Gato 還能根據上下文決定是否輸出文本、關節力矩、按鈕按壓或其他 token。

與大多數智能體玩游戲不同，Gato 使用相同的訓練模型就能玩許多游戲，而不用為每個游戲單獨訓練。

論文地址：https://arxiv.org/abs/2205.06175v3

論文 7：Solving Quantitative Reasoning Problems with Language Models

來自谷歌的研究者提出了一種叫作 Minerva 的深度學習語言模型，可以通過逐步推理解決數學定量問題。其解決方案包括數值計算、符號操作，而不需要依賴計算器等外部工具。

此外，Minerva 還結合了多種技術，包括小樣本提示、思維鏈、暫存器提示以及多數投票原則，從而在 STEM 推理任務上實現 SOTA 性能。

Minerva 建立在 PaLM（Pathways Language Model ）的基礎上，在 118GB 數據集上進一步訓練完成，數據集來自 arXiv 上關于科技方面的論文以及包含使用 LaTeX、MathJax 或其他數學表達式的網頁的數據進行進一步訓練。

下圖為 Minerva 解決問題示例展示：

論文地址：https://arxiv.org/abs/2206.14858

論文 8：No Language Left Behind: Scaling Human-Centered Machine Translation

來自 Meta AI 的研究者發布了翻譯模型 NLLB（No Language Left behind ），直譯為「一個語言都不能少」，其可以支持 200 + 語言之間的任意互譯，除了中英法日等常用語種翻譯外，NLLB 還能對包括盧干達語、烏爾都語等在內的許多小眾語言進行翻譯。

Meta 宣稱，這是全球第一個以單一模型對應多數語言翻譯的設計，他們希望借此能夠幫助更多人在社群平臺上進行跨語言互動，同時提高用戶在未來元宇宙中的互動體驗。

論文地址：?https://arxiv.org/abs/2207.04672v3?

論文 9：High-Resolution Image Synthesis with Latent Diffusion Models

最近一段時間 Stable Diffusion 火爆出圈，圍繞這一技術展開的研究數不勝數。

該研究是來自慕尼黑大學和 Runway 的研究者基于其 CVPR 2022 的論文《High-Resolution Image Synthesis with Latent Diffusion Models》，并與 Eleuther AI、LAION 等團隊合作完成。Stable Diffusion 可以在消費級 GPU 上 10 GB VRAM 下運行，并在幾秒鐘內生成 512x512 像素的圖像，無需預處理和后處理。

時間僅過去四個月，該開源項目已收獲 38K 星。

項目地址：https://github.com/CompVis/stable-diffusion

Stable Diffusion 生成圖像示例展示：

論文 10：Robust Speech Recognition via Large-Scale Weak Supervision

OpenAI 發布開源模型 Whisper，在英語語音識別方面接近人類水平，并具有較高的準確性。

Whisper 是一個自動語音識別（ASR，Automatic Speech Recognition）系統，OpenAI 通過從網絡上收集了 68 萬小時的 98 種語言和多任務監督數據對 Whisper 進行了訓練。除了可以用于語音識別，Whisper 還能實現多種語言轉錄，以及將這些語言翻譯成英語。