傳說中Ilya Sutskever精選論文清單:AI領域40大論文完整版「破解」完成
今年 5 月,一份網傳 OpenAI 聯合創始人兼首席科學家 Ilya Sutskever 整理的一份機器學習研究文章清單火了。網友稱「Ilya 認為掌握了這些內容,你就了解了當前(人工智能領域) 90% 的重要內容。」
據說這份論文清單是 2020 年 OpenAI 的聯合創始人、首席科學家 Ilya Sutskever 給另一位計算機領域大神,id Software 聯合創始人,致力于轉行 AGI 的 John Carmack 編寫的。
雖然清單準確性難以考證(John Carmack 本人回應說已經把列表搞丟了),而且 AI 領域發展日新月異,但其內容很快流傳開來,甚至有人表示它是 OpenAI 入職培訓內容的一部分。
當時,這份清單包含 27 項機器學習資料,包括論文、博客文章、課程和兩本書的章節,均來自 1993 年至 2020 年。
但據稱,受 Meta 電子郵件刪除策略的影響,該清單并不完整,原清單中應該包含約 40 項閱讀資料。
轉發來轉發去,一小半內容被擠掉了,這你受的了嗎?
特別是,根據與資料清單一起共享的一項聲明,整個「元學習」類論文列表都丟失了。元學習是機器學習的一個子領域,是將自動學習算法應用于機器學習實驗的元數據上。
就像紅樓夢缺失的 40 回,清單資料缺失的 13 篇論文引發了不少討論,對于哪些論文足夠重要而應該包括在內,人們提出了許多不同的想法。
最近,一位名為 Taro Langner 的網友根據 Ilya Sutskever 多年來演講內容、OpenAI 共享的資源等,試圖找出清單丟失的資料。最后補充完成了「覆蓋 AI 領域 90% 知識」的 AI 論文名單。
與此同時,他還指出了一些你必須注意的額外內容,包括 Yann LeCun、Ian Goodfellow 等重要 AI 學者的工作,以及關于 U-Net、YOLO 目標檢測、GAN、WaveNet、Word2Vec 等技術的論文。
讓我們看看其中的內容,和論文推薦的理由。
缺失的「元學習」板塊
現在的 AI 系統可以通過大量時間和經驗從頭學習一項復雜技能。但是,我們如果想使智能體掌握多種技能、適應多種環境,則不應該從頭開始在每一個環境中訓練每一項技能,而是需要智能體通過對以往經驗的再利用來學習如何學習多項新任務,因此我們不應該獨立地訓練每一個新任務。
這種學習如何學習的方法,又叫元學習(meta-learning),是通往可持續學習多項新任務的多面智能體的必經之路。
Ilya Sutskever 擔任 OpenAI 首席科學家時曾發布教育資源「Spinning Up in Deep RL」,并公開發表過幾次關于「元學習」的演講:
- Meta Learning and Self Play - Ilya Sutskever, OpenAI (YouTube), 2017
- OpenAI - Meta Learning & Self Play - Ilya Sutskever (YouTube), 2018
- Ilya Sutskever: OpenAI Meta-Learning and Self-Play (YouTube), 2018
Taro Langner 據此推測原始清單應該包含以下幾篇研究論文:
- 《Meta-Learning with Memory-Augmented Neural Networks》
論文地址:https://proceedings.mlr.press/v48/santoro16.pdf - 《Prototypical Networks for Few-shot Learning》
論文地址:https://arxiv.org/abs/1703.05175 - 《Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks》
論文地址:https://proceedings.mlr.press/v70/finn17a/finn17a.pdf
值得注意的是,Ilya Sutskever 在上述「元學習」演講中,還提到了以下幾篇論文:
- 《Human-level concept learning through probabilistic program induction》
論文地址:https://amygdala.psychdept.arizona.edu/labspace/JclubLabMeetings/Lijuan-Science-2015-Lake-1332-8.pdf - 《Neural Architecture Search with Reinforcement Learning》
論文地址:https://arxiv.org/pdf/1611.01578 - 《A Simple Neural Attentive Meta-Learner》
論文地址:https://arxiv.org/pdf/1707.03141
可以發現,強化學習 (RL) 在演講中也占有重要地位,因為強化學習與元學習有著密切的聯系。一個關鍵概念是競爭性自我博弈,其中智能體在模擬環境中進行交互以達到特定的目標。
Ilya Sutskever 提出了一種進化生物學觀點,將競爭性自我博弈與社交互動對大腦大小的影響聯系起來。根據他的判斷,在模擬的「智能體社會」中快速獲得能力最終可能會為某種形式的通用人工智能提供一條可行的道路。
考慮到他賦予這些概念的重要性,一些被引用的有關自我博弈的論文也可能被納入閱讀清單:
- 《Hindsight Experience Replay》
論文地址:https://arxiv.org/abs/1707.01495 - 《Continuous control with deep reinforcement learning》
論文地址:https://arxiv.org/abs/1509.02971 - 《Sim-to-Real Transfer of Robotic Control with Dynamics Randomization》
論文地址:https://arxiv.org/abs/1710.06537 - 《Meta Learning Shared Hierarchies》
論文地址:https://arxiv.org/abs/1710.09767 - 《Temporal Difference Learning and TD-Gammon ,1995》
論文地址:https://www.csd.uwo.ca/~xling/cs346a/extra/tdgammon.pdf - 《Karl Sims - Evolved Virtual Creatures, Evolution Simulation, 1994》
論文地址:https://dl.acm.org/doi/10.1145/192161.192167 - 《Emergent Complexity via Multi-Agent Competition》
論文地址:https://arxiv.org/abs/1710.03748 - 《Deep reinforcement learning from human preferences》
論文地址:https://arxiv.org/abs/1706.03741
其他可能性
當然,原始的 40 篇論文名單上可能還有許多其他作品和作者,但從現在開始,證據越來越薄弱了。
總體而言,目前補充完整的論文名單在涵蓋不同模型類別、應用和理論的同時,還涵蓋了該領域的許多著名作者,端水端得已經挺穩了。但顯然,還有很多重要內容值得注意。
我們似乎可以繼續列入:
- Yann LeCun 等人的工作,他在 CNN 的實際應用方面做出了開創性的工作 ——《Gradient-based learning applied to document recognition》
- Ian Goodfellow 等人的工作,他在生成對抗網絡(GAN)方面的工作長期主導了圖像生成領域 ——《Generative Adversarial Networks》
- Demis Hassabis 等人的工作,他在 AlphaFold 方面的強化學習研究獲得了諾貝爾獎 ——《Human-level control through deep reinforcement learning》、《AlphaFold at CASP13》
在更多信息公布之前,這篇文章在很大程度上仍是推測性的。畢竟,原版的「Ilya 閱讀清單」本身也從未得到官方證實是真的。盡管如此,你可以看出目前補充好的列表是絕對具有含金量的。總之讓我們先填補好空白,用作者的話來說,這大致相當于當時缺失了「重要內容的 30%」。