Facebook 聯同 MIT 等發布研究手稿:解釋深度學習實際工作原理的理論
Facebook、普林斯頓大學和麻省理工學院的 AI 研究人員近日宣布聯合出版了一本名為《The Principles of Deep Learning Theory: An Effective Theory Approach to Understanding Neural Networks(深度學習理論原理:理解神經網絡的一種有效理論方法)》的書籍。目前,該書的手稿已經公開提供。
根據介紹,在基本層面上,該書提供了一個從第一性原理(first principles)理解深度神經網絡(DNN)的理論框架。對于 AI 從業者來說,這種理解可以大大減少訓練這些 DNN 所需的試驗和錯誤的數量。例如,它可以揭示任何給定模型的最佳超參數,而不需要通過今天所需的時間和計算密集型實驗。
Facebook AI 研究科學家 Sho Yaida 稱,DNN 是現代 AI 研究的關鍵要素之一。但對于包括大多數 AI 研究人員在內的人都認為,DNN 太過復雜,無法從第一性原理的角度來理解。這一問題的存在意味著,盡管業界已通過實驗和反復試驗在 AI 方面取得了很大進展,但研究人員對 DNN 的許多關鍵特性仍一無所知,而這些特性恰恰使得 DNN 極其有用。他認為,如果研究人員對這些關鍵特性有更深入的了解,可能會帶來一些顯著的進步,并開發出強大得多的 AI 模型。
Yaida 將 AI 與工業革命初期的蒸汽機進行了比較。并表示,雖然蒸汽機永遠改變了制造業,但直到接下來的一個世紀熱力學定律和統計力學原理得到發展,科學家們才能夠在理論層面上充分解釋它是如何工作的以及為什么工作。雖然缺乏了解的這個問題并沒有阻止人們改進蒸汽機,但熱機原理的發現卻大大加快了改進的步伐。
Yaida 指出,AI 領域目前就正處于類似的關頭。DNN 被視為黑匣子,因太過復雜導致無法從第一性原理的角度來理解。因此,AI 模型通過反復試驗加以微調,類似于人們改進蒸汽機的方式。不過 Yaida 也表示,試錯并不一定是壞事,它可以結合多年形成的經驗來巧妙進行。但試錯也只是描述 DNN 及其實際運作方式的統一理論語言的替代品。
公告指出,此書只是重新構想 AI 科學這一更大項目的第一步,該項目既源自第一性原理,同時又專注于描述現實模型的實際工作方式。如果成功,這種深度學習的一般理論可能會支持更強大的人工智能模型,甚至可能引導我們建立一個研究智能通用方面的框架。
值得注意的是,雖然書中描述的框架可以擴展到現代 AI 社區使用的真實世界 DNN。但此書本身最主要的還是關注最簡單的深度學習模型(深度多層感知器)。
有了這個新的有效理論,我們希望 AI 理論家能夠推動對神經網絡有更深入、更全面的理解。還有很多的東西需要計算,但這項工作有望使這個領域更接近了解這些模型的哪些特定屬性使它們能夠智能地執行。我們還希望這本書能夠幫助 AI 社區減少有時會限制當前進展的試錯循環。我們希望幫助從業者快速設計更好的模型——效率更高、性能更好、訓練更快。特別是,那些設計 DNN 的人將能夠在沒有任何訓練的情況下選擇最佳超參數,并選擇最佳算法和模型架構以獲得最佳結果。
更多詳情可查看官方博客。
本文轉自OSCHINA
本文標題:Facebook 聯同 MIT 等發布研究手稿:解釋深度學習實際工作原理的理論
本文地址:https://www.oschina.net/news/147068/facebook-mit-ai-researchers