告別玄學選LLM!弗吉尼亞理工選型框架入選ICML 2025
還在靠“開盲盒”選擇大模型?
來自弗吉尼亞理工大學的研究人員推出了個選型框架LensLLM——
大幅提升選型效果的同時,成本卻降低近90%。
眾所周知,在大模型如雨后春筍般爆發的時代,選型成了AI工程師和研究員最大的痛點之一:
- 模型多如牛毛,怎么選才不會“踩坑”?
- 微調代價高昂,怎么預測誰能表現最優?
- 資源受限,怎么才能用最少成本跑出最優解?
而使用LensLLM框架,不僅可以預測微調后的性能走勢,還通過全新理論解釋了大模型微調中一直難以理解的“玄學現象”。
按照團隊的說法,LensLLM=用理論看清大模型未來+用極小代價選出最優解。
該研究被ICML 2025收錄。
下面具體來看。
首度揭示:LLM微調中的“相變”動力學
近幾年,大語言模型(LLM)從學術走向產業,從GPT到LLaMA,再到Mistral、DeepSeek,光是名字就讓人眼花繚亂。
但選錯模型不僅會浪費GPU資源,更可能拖慢產品迭代速度,甚至導致項目失敗。
現有方法依賴經驗、調參和“玄學”,在成本和效果之間很難找到平衡。
而LensLLM正是在這個背景下誕生,其目標是終結LLM選型“靠感覺”的時代。
展開來說,LensLLM的理論基礎來自一項全新的PAC-Bayes泛化界限推導,首次從數學上揭示了LLM在不同數據規模下微調表現的非線性變化規律,具體表現為:
其中,n是訓練樣本量,???與模型參數的Hessian矩陣(衡量損失函數曲率和參數敏感性)緊密相關。
在此基礎上,研究團隊進一步推導出推論1,將泛化界限簡化為:
其中C3和??3都是模型/任務相關的參數。
“預冪律相”→“冪律相”的相變現象
在數據量較小時,模型處于“預冪律相”,此階段參數對損失非常敏感,表現極不穩定,性能提升有限;而當訓練數據量超過某個臨界點后,模型進入“冪律相”,此時誤差收斂明顯,調參也更有效率。
這一“從不確定到穩定”的過渡,首次在理論上得到了嚴謹解釋,并被寫進了LensLLM的預測邏輯中。
下圖反映了LLM微調過程中測試損失L隨訓練數據量D變化的相變現象。低數據量階段為預冪律相,高數據量階段為冪律相,兩者之間存在明顯的轉折點。
實錘LensLLM:用NTK模擬微調,用極小代價選出最優模型
理論解釋只是開始。更重要的是——LensLLM還能算準。
研究團隊構建了一個基于神經切線核(NTK)增強的縮放律模型,能夠在只微調極少量數據的前提下:
- 精確擬合整個微調曲線(如圖2和表2所示)
- 預測最終測試性能
- 排出最優模型排名
下圖2顯示了,LensLLM(藍色方塊)在FLAN、Wikitext和Gigaword數據集上對OPT-1.3b、GPT-2和T5-base模型性能的曲線擬合效果。
可以看到,LensLLM的RMSE值顯著低于Rectified Scaling Law(紅色三角形),誤差帶更窄,表明其預測更穩定準確。
下表2為預測測試損失與實際測試損失方面的均方根誤差(RMSE)對比(×)。
不需要完整訓練,不需要大規模試錯,就像提前“看穿”一個模型的未來走向。
在FLAN、Wikitext、Gigaword三大數據集上,LensLLM預測準確度遠超基線方法(如Rectified Scaling Law),RMSE誤差最小可低至原來的1/5。
下圖3為LensLLM在FLAN、Wikitext和Gigaword數據集上的Pearson相關系數和相對準確率表現。
LensLLM(最右側深藍色條形)在所有數據集上均顯著優于Rectified Scaling Law、NLPmetrics、SubTuning、ZeroShot和ModelSize等基線方法,展現了其在模型選型中的卓越能力。
大幅提升選型效果,成本卻降低近90%
選得準是一方面,選得快也是關鍵。
LensLLM引入了漸進式采樣機制,計算成本比FullTuning方法最多降低88.5%,且在模型排名任務中保持高達91.1%的選型準確率,真正實現成本低、精度高、泛化強。
圖4顯示了LLM選型性能與計算成本的Pareto-最優曲線。LensLLM(橙色點)在顯著降低FLOPs(計算成本)的同時,保持了高水平的Pearson相關系數,相較于Rectified(藍色點)、SubTuning(綠色點)和FullTuning(紫色點)展現出更優的效率。
就是說,在選型性能與計算代價之間,LensLLM達到顯著的Pareto最優。
未來場景:邊緣部署/模型迭代/個性化推薦
團隊表示,LensLLM不只是選型利器,更有潛力成為模型評估與管理的核心組件:
- 資源受限部署場景:幫助邊緣設備快速選出兼顧精度與效率的模型;
- A/B測試與快速迭代:縮短新模型上線周期,節省GPU試錯成本;
- 定制化微調:根據用戶任務和數據量,找到最合適的預訓練模型,從而達到最佳效果。
未來他們將探索將LensLLM拓展到多任務環境與MoE等復雜模型結構,構建更通用的智能模型選型系統。
論文:https://arxiv.org/pdf/2505.03793
開源地址:https://github.com/Susan571/LENSLLM