機器學習三個時代的計算趨勢
在 2010 年之前,訓練計算的發展與摩爾定律同步,每兩年一翻;自 2010 年代初,引入深度學習以來,訓練計算的速度已經加快,大約每六個月增加一倍;2015 年末,出現了一種新的趨勢。
基于這些觀察,機器學習的計算歷史被劃分為三個時代——前深度學習時代、深度學習時代 和 大規模時代。本文總結了用于訓練高級機器學習系統快速增長的計算需求。
趨勢
比較是在一個由 123 個里程碑式的機器學習系統組成的數據集上進行的,并標注了訓練它們所需的計算量。在深度學習起步之前,有一段進展緩慢的時間,這種趨勢在 2010 年加速,此后一直沒有放緩。另外,在 2015 年和 2016 年,出現了大規模模型的新趨勢,以比上一個時代快兩個數量級的速度擴張。
過渡到深度學習在深度學習出現之前和之后,人們注意到了兩種不同的趨勢機制。
此前,訓練機器學習算法所需的算力是每 17 至 29 個月翻一番。之后,整體趨勢加快速,每 4 到 9 個月翻一番。
根據摩爾定律,晶體管密度每兩年翻一番(Moore,1965 年),通常簡化為計算性能每兩年翻一番——基本上符合前深度學習時代的趨勢。目前尚不清楚深度學習時代何時開始,從前深度學習到深度學習時代的過渡沒有明顯的間斷。此外,無論深度學習時代始于 2010 年還是 2012 年,結果幾乎都不會改變。
大規模深度時代的趨勢
數據顯示,大規模型模型的新趨勢始于 2015-2016 年,這種新趨勢始于 2015 年底的 AlphaGo,一直持續到現在,大規模模型是由大公司訓練的,更高的訓練預算可能是打破先前的趨勢的原因。
另外,常規規模模型受歡迎的程度并未受到影響,這一趨勢在 2016 年之前和之后是相同的速度,每 5 到 6 個月翻一番,如下表所示。大規模模型的計算量增加的趨勢明顯放緩,每 9 到 10 個月翻一番。由于這些模型的數據有限,明顯放緩可能是噪聲的結果。
這一發現與 Amodei & Hernandez (2018) 和 Lyzhov (2021) 形成對比,前者發現 2012 年至 2018 年的倍增期為 3.4 個月,后者發現 2018 年至 2020 年的倍增期超過 2 年。以前的評估無法區分這兩個獨立的模式,因為大規模的趨勢是最近才發展起來的。
結論
研究結果與早期研究一致,這顯示了訓練計算更適度的規模。1952 年到 2010 年有 18 個月的倍增時間,2010 年到 2022 年有 6 個月的倍增時間,從 2015 年末到 2022 年的大規模新趨勢,快了 2 到 3 個數量級,倍增時間為 10 個月。
總而言之,在前深度學習時代,計算進展緩慢,隨著 2010 年進入深度學習時代,這種趨勢加速了。在 2015 年底,企業開始生產優于趨勢的大規模模型,如 AlphaGo,標志著大規模時代的開始。然而,這并不能確定區分大規模和常規規模的模型而形成模式。
在計算機教學中,硬件基礎設施和工程師的作用越來越大,凸顯了兩者的戰略必要性。獲得巨大的計算預算或計算集群,以及應用它們的專業知識,已經成為前沿機器學習研究的代名詞。