Jeff Dean長文展望:2021年之后,機器學習領域的五大潛力趨勢
在過去的數年,見證了機器學習(ML)和計算機科學領域的許多變化。按照這種長弧形的進步模式,人們或許將在接下來的幾年中看到許多令人興奮的進展,這些進步最終將造福數十億人的生活,并產生比以往更深遠的影響。
在一篇總結文章中,谷歌 AI 負責人、知名學者 Jeff Dean 重點介紹了 2021 年之后機器學習最具潛力的五個領域:
- 趨勢 1:能力、通用性更強的機器學習模型
- 趨勢 2:機器學習持續的效率提升
- 趨勢 3:機器學習變得更個性化,對社區也更有益
- 趨勢 4:機器學習對科學、健康和可持續發展的影響越來越大
- 趨勢 5:對機器學習更深入和更廣泛的理解
文章具體內容如下:
趨勢 1:能力、通用性更強的機器學習模型
研究人員正在訓練比以往任何時候規模更大、能力更強的機器學習模型。過去幾年,語言領域已經從數百億 token 數據上訓練的數十億參數模型(如 110 億參數的 T5 模型),發展到了在數萬億 token 數據上訓練的數千億或萬億參數模型(如 OpenAI 1750 億參數的 GPT-3 和 DeepMind 2800 億參數的 Gopher 等密集模型和谷歌 6000 億參數的 GShard 和 1.2 萬億參數的 GLaM 等稀疏模型)。數據集和模型規模的增長帶來了多種語言任務上準確率的顯著提升,并通過標準 NLP 基準任務上的全面改進證明了這一點。
這些先進的模型中有很多都聚焦于單一但重要的書面語言形態上,并在語言理解基準和開放式會話能力中展現出了 SOTA 結果,即使跨同一領域多個任務也是如此。同時,這些模型在訓練數據相對較少時也有能力泛化至新的語言任務,在某些情況下,對于新任務需要極少甚至不需要訓練樣本。
與谷歌對話應用語言模型 LaMDA 模擬威德爾氏海豹(weddell seal)時的對話
Transformer 模型也對圖像、視頻和語音模型產生了重大影響,所有這些都從規模中獲益頗多。用于圖像識別和視頻分類的 Transformer 模型在很多基準上實現了 SOTA,我們也證明了在圖像和視頻數據上協同訓練模型可以獲得較單獨在視頻數據上訓練模型更高的性能。
我們開發了用于圖像和視頻 Transformer 的稀疏、軸性注意力機制,為視覺 Transformer 模型找到了更好的標記化圖像方法,并通過檢查視覺 Transformer 方法相較于 CNN 的操作原理來提升對它們的理解。卷積操作與 Transformer 模型的結合也在視覺和語音識別任務中大有裨益。
生成模型的輸出也大幅提升。這在圖像生成模型中最為明顯,并在過去幾年取得了顯著進步。例如,最近的模型有能力在僅給出一個類別的情況下創建真實圖像,可以填充一個低分辨率圖像以創建看起來自然的高分辨率對應物,甚至還可以創建任意長度的空中自然景觀。
基于給定類生成全新圖像的 cascade 擴散模型示意圖
除了先進的單模態模型之外,大規模多模態模型也在發展中。其中一些最先進的多模態模型可以接受語言、圖像、語言和視頻等多種不同的輸入模態,產生不同的輸出模態。這是一個令人興奮的方向,就像真實世界一樣,有些東西在多模態數據中更容易學習。
同樣地,圖像和文本配對有助于多語種檢索任務,并且更好地理解如何配對文本和圖像輸入可以提升圖像描述任務。視覺和文本數據上的協同訓練有助于提升視覺分類任務的準確率和穩健性,同時圖像、視頻和語音任務上的聯合訓練能夠提升所有模態的泛化性能。

谷歌機器人團隊(Robotics at Google)基于視覺的機器人操作系統的示意圖,該系統可以泛化至全新任務。
所有這些趨勢都指向了訓練能力更強的通用性模型,這些模型可以處理多種數據模態并解決數千甚至數萬個任務。在接下來的幾年,我們將通過下一代架構 Pathways 來追求這一愿景,并期望在該領域看到實質性進展。

趨勢 2:機器學習持續的效率提升
效率的提升源自計算機硬件設計和機器學習算法、元學習研究的進步,并正在推動機器學習模型更強大的功能。機器學習 pipeline 的很多方面,從訓練和執行模型的硬件到機器學習架構的各個組件,這些都可以進行效率優化,同時保持或提升整體性能。更高的效率促成了大量關鍵性進步,這些進步將繼續顯著提升機器學習的效率,使更大、更高質量的機器學習模型能夠在保持成本效益的前提下開發,并進一步促進大眾化。
一是機器學習加速性能的持續提升。每一代機器學習加速器都較前代更強,實現了更快的每芯片性能,并常常增加整體系統的規模。2021 年,我們推出了谷歌第四代張量處理器 TPUv4,在 MLPerf 基準上顯示出較 TPUv3 2.7 倍的提升。移動設備上的機器學習能力也在顯著提升。Pixel 6 手機配有全新的谷歌張量處理器(Google Tensor processor ),該處理器集成了一個強大的機器學習加速器,以支持重要的設備上功能。
左:TPUv4 板;中:TPUv4 艙;右:Pixel 6 手機采用的谷歌張量芯片
二是機器學習編譯和機器學習工作負載優化的持續提升。即使當硬件無法改變時,編譯器的改進以及機器學習加速器的其他系統軟件優化也可以實現效率的顯著提升。
在 150 個機器學習模型上使用基于 ML 的編譯器進行自動調優,可以實現端到端模型加速
三是人類創造力驅動的更高效模型架構的發現。模型架構的持續改進大幅度減少了在很多問題上實現一定準確率水平所需的計算量。例如,在使用計算量比 CNN 少 4 至 10 倍的情況下,Vision Transformer 能夠在大量不同的圖像分類任務上提升 SOTA 結果。
四是機器驅動的更高效模型架構的發現。神經架構搜索(NAS)可以自動發現新的機器學習架構,這些架構對于給定的問題域更加高效。神經架構搜索的主要優勢是可以顯著減少算法開發所需的努力,這是因為它對每個搜索空間和問題域組合只需要一次努力(one-time effort)。
此外,雖然執行神經架構搜索的初始努力需要很高的計算成本,但生成的模型可以極大地減少下游研究和生產設置中的計算量,從而減少整體資源需求。
神經架構搜索發現的 Primer 架構,效率是 plain Transformer 模型的 4 倍
五是稀疏性的使用。所謂稀疏性,即模型具有非常大的容量,但只有一部分針對給定的任務、示例或 token 而被激活。稀疏性是另一個重大的算法進步,可以極大地提升效率。
2017 年,我們提出了稀疏門混合專家層(sparsely-gated mixture-of-experts layers),使用計算量比當時 SOTA 密集 LSTM 模型少 10 倍時在多個翻譯基準上實現更好結果。還有最近的 Swin Transformer,將混合專家風格的架構與 Transformer 模型架構結合,結果顯示訓練時間和效率均實現了較密集 T5-Base Transformer 模型 7 倍的加速。稀疏性概念還可以用來降低核心 Transformer 架構中注意力機制的成本。
谷歌研究院提出的 BigBird 稀疏注意力模型由處理輸入序列所有部分的全局 token、局部 token 和一系列隨機 token 組成。
趨勢 3:機器學習變得更個性化,對社區也更有益
隨著機器學習和硅硬件(如谷歌 Pixel 6 上的谷歌張量處理器)的創新,許多新體驗成為了可能,使移動設備更有能力持續有效地感知周圍的背景和環境。這些進步提升了可訪問性和易用性,同時也增強了計算能力,對于移動攝影、實時翻譯等功能至關重要。值得注意的是,最近的技術進步還為用戶提供了更加個性化的體驗,同時加強了隱私保護。
可以看到,更多的人比以往任何時候都要依靠手機攝像頭來記錄他們的日常生活并進行藝術表達。機器學習在計算攝影中的巧妙應用不斷提升了手機攝像頭的功能,使其更易于使用、性能更強并生成更高質量的圖像。
例如,改進的 HDR+、在極低光下拍照的能力、更好地人像處理能力、以及適用于所有膚色的更具包容性的相機,所有這些進步都使用戶可以拍攝出更好的照片。使用 Google Photos 中現在提供的基于 ML 的強大工具,如電影照片(Cinematic Photo)等,進一步提高了照片拍攝效果。
HDR + 從一組全分辨率的原始圖像開始,每張都有相同的曝光度(圖左);合并后的圖像減少了噪聲,增加了動態范圍,從而得到更高質量的最終圖像(圖右)。
除了使用手機進行創意表達外,許多人還依靠手機來與他人實時溝通,使用消息應用中的 Live Translate 和 Live Caption 進行電話通話。
得益于自監督學習和嘈雜學生訓練等技術,語音識別的準確性繼續提升,在重音、嘈雜條件或重疊語音的環境以及多語言任務中都有顯著改善。基于文本到語音合成的進步,人們可以在越來越多的平臺上使用谷歌 Read Aloud 服務收聽網頁和文章,從而使信息更容易跨越形態和語言的障礙。
最近一項研究表明,注視識別能力是精神疲勞的一個重要生物標記。(https://www.nature.com/articles/s41746-021-00415-6)
鑒于這些新功能背后的數據具有潛在的敏感性,因此必須將它們默認設計為私有的。它們中的許多都在安卓私有計算核心內(Private Compute Core)運行,這是一個與操作系統其余部分隔離的開源安全環境。安卓確保私有計算核心中處理的數據不會在用戶未采取操作的情況下共享給任何應用。
安卓還阻止私有計算核心內的任何功能直接訪問網絡。相反,功能通過一小組開源 API 與私有計算服務(Private Compute Services)進行通信,后者消除識別信息并利用聯邦學習、聯邦分析和私有信息檢索等隱私技術,在確保隱私的同時實現學習。
聯邦重構是一種全新的局部聯邦學習技術,它將模型劃分為全局和局部參數
趨勢 4:機器學習對科學、健康和可持續發展的影響越來越大
近年來,從物理學到生物學,機器學習在基礎科學中的影響越來越大,并在相關領域(例如可再生能源和醫學)實現了許多優秀的實際應用。例如,計算機視覺模型正在被用來解決個人和全球范圍內的問題,它們可以協助醫生展開日常工作,擴展人們對神經生理學的理解,還可以提供更精準的天氣預報,可以簡化救災工作。通過發現減少排放和提高替代能源輸出的方法,其他類型的機器學習模型被證明在應對氣候變化方面至關重要。隨著 機器學習變得更加穩健、成熟且可廣泛使用,這樣的模型甚至可以用作藝術家的創作工具。
計算機視覺的大規模應用以獲得新的洞察力
過去十年計算機視覺的進步使計算機能夠用于不同科學領域的各種任務。在神經科學中,自動重建技術可以從腦組織薄片的高分辨率電子顯微鏡圖像中恢復腦組織的神經結締結構。
前幾年,谷歌合作為果蠅、小鼠和鳴禽的大腦創建了此類資源;去年,谷歌與哈佛大學的 Lichtman 實驗室合作,分析了重建的最大腦組織樣本,以及任何物種中的這種細致程度成像,并生成了跨越皮層所有層的多種細胞類型的人類皮層突觸連接的第一次大規模研究。這項工作的目標是生成一種新的資源,幫助神經科學家研究人類大腦的驚人復雜性。例如,下圖顯示了成人大腦中約 860 億個神經元中的 6 個神經元。
來自谷歌人類皮層重建的單個人類枝形吊燈神經元,以及與該細胞連接的一些錐體神經元。
計算機視覺技術還提供了強大的工具來應對更大甚至全球范圍內的挑戰。一種基于深度學習的天氣預報方法使用衛星和雷達圖像作為輸入,并結合其他大氣數據,在長達 12 小時的預測時間內產生比傳統的基于物理的模型更準確的天氣和降水預測。與傳統方法相比,它們還可以更快地生成更新的預測,這在極端天氣出現時非常重要。

這些案例的一個共同主題是,機器學習模型能夠基于對可用視覺數據的分析,高效、準確地執行專門的任務,支持下游任務。
自動化設計空間探索
另一種在許多領域產生出色結果的方法是允許機器學習算法以自動化方式探索和評估問題的設計空間,以尋找可能的解決方案。在一個應用程序中,基于 Transformer 的變分自動編碼器學習能夠創建美觀且有用的文檔布局,并且可以擴展相同的方法來探索可能的空間布局。
另一種機器學習驅動的方法能夠自動探索計算機游戲規則調整的設計空間,提高游戲的可玩性和其他屬性,使人類游戲設計師能夠更快地創建更好的游戲。
VTN 模型的可視化。它能夠提取布局元素(段落、表格、圖像等)之間的有意義的聯系,以生成逼真的合成文檔(例如,具有更好的對齊和邊距)。
還有其他機器學習算法已被用于評估機器學習加速器芯片本身的計算機架構決策的設計空間。機器學習可用于為 ASIC 設計快速創建芯片布局,這些布局優于人類專家生成的布局,并且可以在幾小時而不是幾周內生成。這降低了芯片的固定工程成本,并減少了為不同應用快速創建專用硬件的阻礙。谷歌在即將推出的 TPU-v5 芯片的設計中成功地使用了這種方法。
這種探索性的機器學習方法也已應用于材料發現。在谷歌研究院和加州理工學院的合作中,幾個機器學習模型與改進后的噴墨打印機和定制顯微鏡相結合,能夠快速搜索數十萬種可能的材料。
這些自動化設計空間探索方法可以幫助加速許多科學領域,特別是當生成實驗和評估結果的整個實驗循環都能以自動化或大部分自動化的方式完成時。這種方法也許會在未來幾年在更多領域中發揮良好的效果。
健康應用
除了推進基礎科學,機器學習還可以更廣泛地推動醫學和人類健康的進步。利用計算機科學在健康方面的進步并不是什么新鮮事,但是機器學習打開了新的大門,帶來了新的機會,也帶來了新的挑戰。
以基因組學領域為例。自基因組學問世以來,計算一直很重要,但機器學習增加了新功能并破壞了舊范式。當谷歌的研究人員開始在這一領域工作時,許多專家認為使用深度學習幫助從測序儀輸出推斷遺傳變異的想法是牽強附會的。而在今天,這種機器學習方法被認為是最先進的。
未來機器學習將扮演更重要的角色,基因組學公司正在開發更準確、更快的新測序儀器,但也帶來了新的推理挑戰。谷歌發布了開源軟件 DeepConsensus,并與 UCSC 、PEPPER-DeepVariant 合作,支持這些前沿信息學的新儀器,希望更快速的測序能夠帶來對患者產生影響的適用性。
除了處理測序儀數據之外,還有其他機會使用機器學習來加速將基因組信息用于個性化健康的過程。廣泛表型和測序個體的大型生物庫可以徹底改變人類理解和管理疾病遺傳易感性的方式。谷歌基于機器學習的表型分析方法提高了將大型成像和文本數據集轉換為可用于遺傳關聯研究的表型的可擴展性,DeepNull 方法更好地利用大型表型數據進行遺傳發現。這兩種方法均已開源。
生成解剖和疾病特征的大規模量化以與生物庫中的基因組數據相結合的過程。
正如機器學習幫助我們看到基因組數據的隱藏特征一樣,它也可以幫助我們發現新信息并從其他健康數據類型中收集新見解。疾病診斷通常是關于識別模式、量化相關性或識別更大類別的新實例,這些都是機器學習擅長的任務。
谷歌研究人員已經使用機器學習解決了廣泛的此類問題,但機器學習在醫學成像中的應用更進一步:谷歌 2016 年介紹深度學習在糖尿病性視網膜病變篩查中應用的論文,被美國醫學會雜志 (JAMA) 的編輯選為十年來最具影響力的 10 篇論文之一。
另一個雄心勃勃的醫療保健計劃 Care Studio 使用最先進的 ML 和先進的 NLP 技術來分析結構化數據和醫療記錄,在正確的時間向臨床醫生提供最相關的信息——最終幫助他們提供更積極、更準確的護理。
盡管機器學習可能對擴大臨床環境的可及性和提高準確性很重要,但一個同樣重要的新趨勢正在出現:機器學習應用于幫助人們提高日常健康和福祉。人們日常設備逐漸擁有強大的傳感器,幫助健康指標和信息民主化,人們可以就自己的健康做出更明智的決定。我們已經看到了智能手機攝像頭已經能評估心率和呼吸頻率以幫助用戶,甚至無需額外硬件,以及支持非接觸式睡眠感應的 Nest Hub 設備讓用戶更好地了解他們的夜間健康狀況。
我們已經看到,一方面,我們在自己的 ASR 系統中可以顯著提高無序語音的語音識別質量,另一方面,使用 ML 幫助重建有語言障礙的人的聲音,使他們能夠用自己的聲音進行交流。支持機器學習的智能手機,將幫助人們更好地研究新出現的皮膚狀況或幫助視力有限的人慢跑。這些機會提供了一個光明的未來,不容忽視。
用于非接觸式睡眠感應的自定義 ML 模型有效地處理連續的 3D 雷達張量流(總結一系列距離、頻率和時間的活動),以自動計算用戶存在和清醒(清醒或睡著)的可能性的概率。
氣候危機的機器學習應用
另一個最重要的領域是氣候變化,這對人類來說是一個極其緊迫的威脅。我們需要共同努力,扭轉有害排放的曲線,確保一個安全和繁榮的未來。關于不同選擇對氣候影響的信息,可以幫助我們以多種不同方式應對這一挑戰。
借助環保路線,Google 地圖將顯示最快的路線和最省油的路線,用戶可以選擇最適合的路線。
Google 地圖中的野火層可在緊急情況下為人們提供重要的最新信息。
趨勢 5:對機器學習更深入和更廣泛的理解
隨著 ML 在技術產品和社會中更廣泛地使用,我們必須繼續開發新技術以確保公平公正地應用它,造福于所有人,而不只是其中一部分。
一個重點領域是基于在線產品中用戶活動的推薦系統。由于這些推薦系統通常由多個不同的組件組成,因此了解它們的公平性通常需要深入了解各個組件以及各個組件組合在一起時的行為方式。
與推薦系統一樣,上下文在機器翻譯中很重要。由于大多數機器翻譯系統都是孤立地翻譯單個句子,沒有額外的上下文,它們通常會加強與性別、年齡或其他領域相關的偏見。為了解決其中一些問題,谷歌在減少翻譯系統中的性別偏見方面進行了長期的研究。
部署機器學習模型的另一個常見問題是分布偏移:如果用于訓練模型的數據的統計分布與作為輸入的模型的數據的統計分布不同,則模型的行為有時可能是不可預測的。
數據收集和數據集管理也是一個重要的領域,因為用于訓練機器學習模型的數據可能是下游應用程序中偏見和公平問題的潛在來源。分析機器學習中的此類數據級聯有助于識別機器學習項目生命周期中可能對結果產生重大影響的許多地方。這項關于數據級聯的研究在針對機器學習開發人員和設計人員的修訂版 PAIR Guidebook 中為數據收集和評估提供了證據支持的指南。
不同顏色的箭頭表示各種類型的數據級聯,每個級聯通常起源于上游,在機器學習開發過程中復合,并在下游表現出來。
創建更具包容性和更少偏見的公共數據集是幫助改善每個人的機器學習領域的重要方法。
2016 年,谷歌發布了 Open Images 數據集,該數據集包含約 900 萬張圖像,標注了涵蓋數千個對象類別的圖像標簽和 600 個類別的邊界框注釋。去年,谷歌在 Open Images Extended 集合中引入了更具包容性的人物注釋 (MIAP) 數據集。該集合包含更完整的針對人類層次結構的邊界框注釋,并且每個注釋都標有與公平相關的屬性,包括感知的性別表示和感知的年齡范圍。
此外,隨著機器學習模型變得更有能力并在許多領域產生影響,保護機器學習中使用的私人信息仍然是研究的重點。沿著這些思路,我們最近的一些工作解決了大型模型中的隱私問題,既能從大型模型中提取訓練數據,又指出如何在大型模型中包含隱私。除了聯邦學習和分析方面的工作之外,谷歌還一直在使用其他有原則和實用的機器學習技術來強化工具箱。
【本文是51CTO專欄機構“機器之心”的原創譯文,微信公眾號“機器之心( id: almosthuman2014)”】