從80個模型中構建Scaling Law:華人博士生新作,思維鏈提出者力薦
在 AI 領域,擴展定律(Scaling laws)是理解 LM 擴展趨勢的強大工具,其為廣大研究者提供了一個準則,該定律在理解語言模型的性能如何隨規模變化提供了一個重要指導。
但不幸的是,擴展分析在許多基準測試和后訓練研究中并不常見,因為大多數研究人員沒有計算資源來從頭開始構建擴展法則,并且開放模型的訓練尺度太少,無法進行可靠的擴展預測。
來自斯坦福大學、多倫多大學等機構的研究者提出了一種替代觀察法:可觀察的擴展定律(Observational Scaling Laws),其將語言模型 (LM) 的功能與跨多個模型系列的下游性能聯系起來,而不是像標準計算擴展規律那樣僅在單個系列內。
該方法繞過了模型訓練,而是從基于大約 80 個公開可用的模型上建立擴展定律。但這又引出了另一個問題,從多個模型族構建單一擴展定律面臨巨大的挑戰,原因在于不同模型之間的訓練計算效率和能力存在很大差異。
盡管如此,該研究表明,這些變化與一個簡單的、廣義的擴展定律是一致的,在這個定律中,語言模型性能是低維能力空間(low-dimensional capability space)的函數,而整個模型系列僅在將訓練計算轉換為能力的效率上有所不同。
使用上述方法,該研究展示了許多其他類型的擴展研究具有驚人的可預測性,他們發現:一些涌現現象遵循平滑的 sigmoidal 行為,并且可以從小模型中預測;像 GPT-4 這樣的智能體性能可以從更簡單的非智能體基準中精確預測。此外,該研究還展示了如何預測后訓練干預措施(如思維鏈)對模型的影響。
研究表明,即使僅使用小型 sub-GPT-3 模型進行擬合,可觀察的擴展定律也能準確預測復雜現象,例如涌現能力、智能體性能和后訓練方法的擴展(例如思維鏈)。
- 論文地址:https://arxiv.org/pdf/2405.10938
- 論文標題:Observational Scaling Laws and the Predictability of Language Model Performance
論文作者共有三位,其中 Yangjun Ruan 為華人作者 ,他本科畢業于浙江大學。
這篇論文也得到了思維鏈提出者 Jason Wei 的轉發評論,Jason Wei 表示,他非常喜歡這項研究。
論文介紹
該研究觀察到目前存在數百個開放模型,這些模型擁有不同的規模和能力。不過研究者不能直接使用這些模型來計算擴展定律(因為模型族之間的訓練計算效率差異很大),但研究者希望存在一個適用于模型族的更通用的擴展定律。
特別是,本文假設 LM 的下游性能是低維能力空間(例如自然語言理解、推理和代碼生成)函數,模型族的變化僅僅在于它們將訓練計算轉換為這些能力的效率。如果這種關系成立,則意味著從低維能力到跨模型族的下游能力存在對數線性關系(這將允許研究者利用現有模型建立擴展定律)(圖 1)。該研究使用近 80 個公開可用的 LM 獲得了低成本、高分辨率的擴展預測 (右)。
通過對標準的 LM 基準分析(例如,Open LLM Leaderboard ),研究者發現了一些這樣的能力度量, 這些度量在模型家族內部與計算量之間存在擴展定律關系(R^2 > 0.9)(見下圖 3),并且在不同模型家族與下游指標上也存在這種關系。本文將這種擴展關系稱為可觀察的擴展定律。
最后,該研究表明使用可觀察的擴展定律成本低且簡單,因為有一些系列模型足以復制該研究的許多核心發現。通過這種方法,該研究發現只需評估 10-20 個模型就可以輕松地對基準和后訓練干預進行擴展預測。
涌現能力
關于 LM 是否在某些計算閾值下具有不連續出現的「涌現」能力,以及這些能力是否可以使用小模型進行預測,一直存在著激烈的爭論。可觀察的擴展定律表明,其中一些現象遵循平滑的 S 形曲線,并且可以使用小型 sub Llama-2 7B 模型進行準確預測。
智能體能力
該研究表明,正如 AgentBench 和 AgentBoard 所測量的,LM 作為智能體的更高級、更復雜的能力可以使用可觀察的擴展定律來預測。通過可觀察的擴展定律,該研究僅使用較弱的模型(sub GPT-3.5)就能精確預測 GPT-4 的性能,并將編程能力確定為驅動智能體性能的因素。
后訓練方法擴展
該研究表明,即使將擴展定律擬合到較弱的模型(sub Llama-2 7B)上,擴展定律也可以可靠地預測后訓練方法的收益,例如思維鏈(Chain-of-Thought)、自洽性(Self-Consistency)等等。
總的來說,該研究的貢獻是提出可觀察的擴展定律,利用了計算、簡單能力度量和復雜下游指標之間可預測的對數線性關系。
驗證可觀察的擴展定律
研究者通過實驗驗證了這些擴展定律的有用性。此外,在論文發布后,研究者還預注冊了對未來模型的預測,以測試擴展定律是否對當前的模型過擬合。關于實現過程和收集數據的相關代碼已在 GitHub 上放出:
GitHub 地址:https://github.com/ryoungj/ObsScaling
涌現能力的可預測性
下圖 4 展示了使用 PC(principal capability)度量的預測結果,以及基于訓練 FLOPs 來預測性能的基線結果。可以發現,即使僅僅使用性能不佳的模型,也可以使用本文的 PC 度量來準確預測這些能力。
相反,使用訓練 FLOPs 會導致測試集上的外推效果和訓練集上的擬合效果明顯更差,正如更高的 MSE 值所示。這些差異可能是由不同模型系列的訓練 FLOPs 導致的。
智能體能力可預測性
下圖 5 展示了使用 PC 度量后,可觀察的擴展定律的預測結果。可以發現,在兩個智能體基準上,使用 PC 度量的留出模型(GPT-4 或 Claude-2)的性能可以從更弱性能(10% 以上的差距)的模型中準確地預測出。
這表明 LMs 的更復雜智能體能力與它們的基礎模型能力息息相關,并能夠基于后者進行預測。這也說明了隨著基干 LMs 持續擴展規模,基于 LM 的智能體能力具有良好的擴展特性。
后訓練技術的影響
下圖 6a 展示了使用可觀察的擴展定律,CoT 和 SC(Self-Consistency,自洽性)的擴展預測結果。可以發現,使用 CoT 和 CoT+SC 但不使用(Naive)后訓練技術的更強、規模更大模型的性能可以從更弱、更小計算規模(比如模型大小和訓練 FLOPs)的模型中準確預測出。
值得注意的是,兩種技術之間的擴展趨勢不同,其中與使用 CoT 的自洽性相比,CoT 表現出更明顯的擴展趨勢。
更多技術細節請參閱原論文。
本文轉自 機器之心 ,作者:機器之心
