谷歌：大模型不僅有涌現能力，訓練時間長了還有「領悟」能力

作者：機器之心 2023-08-14 20:18:20

模型在達到一定規模時會出現涌現現象，谷歌的研究表明，模型在訓練到一定時間后，會出現另一種現象，即「領悟」現象。

2021 年，研究人員在訓練一系列微型模型時取得了一個驚人的發現，即模型經過長時間的訓練后，會有一個變化，從開始只會「記憶訓練數據」，轉變為對沒見過的數據也表現出很強的泛化能力。

這種現象被稱為「領悟（grokking）」，如下圖所示，模型在長時間擬合訓練數據后，「領悟」現象會突然出現。

圖片

既然微型模型有這種特性，那么更復雜一點的模型在經過更長時間的訓練后，是否也會突然出現「領悟」現象？最近大型語言模型（LLM）發展迅猛，它們看起來對世界有著豐富的理解力，很多人認為 LLM 只是在重復所記憶的訓練內容，這一說法正確性如何，我們該如何判斷 LLM 是輸出記憶內容，還是對輸入數據進行了很好的泛化？

為了更好的了解這一問題，本文來自谷歌的研究者撰寫了一篇博客，試圖弄清楚大模型突然出現「領悟」現象的真正原因。

圖片

本文先從微型模型的訓練動態開始，他們設計了一個具有 24 個神經元的單層 MLP，訓練它們學會做模加法（modular addition）任務，我們只需知道這個任務的輸出是周期性的，其形式為 (a + b) mod n。

MLP 模型權重如下圖所示，研究發現模型的權重最初非常嘈雜，但隨著時間的增加，開始表現出周期性。

圖片

如果將單個神經元的權重可視化，這種周期性變化更加明顯：

圖片

別小看周期性，權重的周期性表明該模型正在學習某種數學結構，這也是模型從記憶數據轉變為具有泛化能力的關鍵。很多人對這一轉變感到迷惑，為什么模型會從記憶數據模式轉變為泛化數據模式。

用 01 序列進行實驗

為了判斷模型是在泛化還是記憶，該研究訓練模型預測 30 個 1 和 0 隨機序列的前三位數字中是否有奇數個 1。例如 000110010110001010111001001011 為 0，而 010110010110001010111001001011 為 1。這基本就是一個稍微棘手的 XOR 運算問題，帶有一些干擾噪聲。如果模型在泛化，那么應該只使用序列的前三位數字；而如果模型正在記憶訓練數據，那么它還會使用后續數字。

該研究使用的模型是一個單層 MLP，在 1200 個序列的固定批上進行訓練。起初，只有訓練準確率有所提高，即模型會記住訓練數據。與模運算一樣，測試準確率本質上是隨機的，隨著模型學會通用解決方案而急劇上升。

通過 01 序列問題這個簡單的示例，我們可以更容易地理解為什么會發生這種情況。原因就是模型在訓練期間會做兩件事：最小化損失和權重衰減。在模型泛化之前，訓練損失實際上會略有增加，因為它交換了與輸出正確標簽相關的損失，以獲得較低的權重。

圖片