告別玄學選LLM！弗吉尼亞理工選型框架入選ICML 2025

2025-06-19 08:55:00

人工智能新聞

來自弗吉尼亞理工大學的研究人員推出了個選型框架LensLLM。

還在靠“開盲盒”選擇大模型？

來自弗吉尼亞理工大學的研究人員推出了個選型框架LensLLM——

大幅提升選型效果的同時，成本卻降低近90%。

眾所周知，在大模型如雨后春筍般爆發的時代，選型成了AI工程師和研究員最大的痛點之一：

模型多如牛毛，怎么選才不會“踩坑”？
微調代價高昂，怎么預測誰能表現最優？
資源受限，怎么才能用最少成本跑出最優解？

而使用LensLLM框架，不僅可以預測微調后的性能走勢，還通過全新理論解釋了大模型微調中一直難以理解的“玄學現象”。

按照團隊的說法，LensLLM=用理論看清大模型未來+用極小代價選出最優解。

該研究被ICML 2025收錄。

下面具體來看。

首度揭示：LLM微調中的“相變”動力學

近幾年，大語言模型（LLM）從學術走向產業，從GPT到LLaMA，再到Mistral、DeepSeek，光是名字就讓人眼花繚亂。

但選錯模型不僅會浪費GPU資源，更可能拖慢產品迭代速度，甚至導致項目失敗。

現有方法依賴經驗、調參和“玄學”，在成本和效果之間很難找到平衡。

而LensLLM正是在這個背景下誕生，其目標是終結LLM選型“靠感覺”的時代。

展開來說，LensLLM的理論基礎來自一項全新的PAC-Bayes泛化界限推導，首次從數學上揭示了LLM在不同數據規模下微調表現的非線性變化規律，具體表現為：

其中，n是訓練樣本量，?_??與模型參數的Hessian矩陣（衡量損失函數曲率和參數敏感性）緊密相關。

在此基礎上，研究團隊進一步推導出推論1，將泛化界限簡化為：

其中C₃和??₃都是模型/任務相關的參數。

“預冪律相”→“冪律相”的相變現象

在數據量較小時，模型處于“預冪律相”，此階段參數對損失非常敏感，表現極不穩定，性能提升有限；而當訓練數據量超過某個臨界點后，模型進入“冪律相”，此時誤差收斂明顯，調參也更有效率。

這一“從不確定到穩定”的過渡，首次在理論上得到了嚴謹解釋，并被寫進了LensLLM的預測邏輯中。

下圖反映了LLM微調過程中測試損失L隨訓練數據量D變化的相變現象。低數據量階段為預冪律相，高數據量階段為冪律相，兩者之間存在明顯的轉折點。

實錘LensLLM：用NTK模擬微調，用極小代價選出最優模型

理論解釋只是開始。更重要的是——LensLLM還能算準。

研究團隊構建了一個基于神經切線核（NTK）增強的縮放律模型，能夠在只微調極少量數據的前提下：

精確擬合整個微調曲線（如圖2和表2所示）
預測最終測試性能
排出最優模型排名

下圖2顯示了，LensLLM（藍色方塊）在FLAN、Wikitext和Gigaword數據集上對OPT-1.3b、GPT-2和T5-base模型性能的曲線擬合效果。

可以看到，LensLLM的RMSE值顯著低于Rectified Scaling Law（紅色三角形），誤差帶更窄，表明其預測更穩定準確。

下表2為預測測試損失與實際測試損失方面的均方根誤差（RMSE）對比（×)。

不需要完整訓練，不需要大規模試錯，就像提前“看穿”一個模型的未來走向。

在FLAN、Wikitext、Gigaword三大數據集上，LensLLM預測準確度遠超基線方法（如Rectified Scaling Law），RMSE誤差最小可低至原來的1/5。

下圖3為LensLLM在FLAN、Wikitext和Gigaword數據集上的Pearson相關系數和相對準確率表現。

LensLLM（最右側深藍色條形）在所有數據集上均顯著優于Rectified Scaling Law、NLPmetrics、SubTuning、ZeroShot和ModelSize等基線方法，展現了其在模型選型中的卓越能力。

大幅提升選型效果，成本卻降低近90%

選得準是一方面，選得快也是關鍵。

LensLLM引入了漸進式采樣機制，計算成本比FullTuning方法最多降低88.5%，且在模型排名任務中保持高達91.1%的選型準確率，真正實現成本低、精度高、泛化強。

圖4顯示了LLM選型性能與計算成本的Pareto-最優曲線。LensLLM（橙色點）在顯著降低FLOPs（計算成本）的同時，保持了高水平的Pearson相關系數，相較于Rectified（藍色點）、SubTuning（綠色點）和FullTuning（紫色點）展現出更優的效率。

就是說，在選型性能與計算代價之間，LensLLM達到顯著的Pareto最優。

未來場景：邊緣部署/模型迭代/個性化推薦

團隊表示，LensLLM不只是選型利器，更有潛力成為模型評估與管理的核心組件：

資源受限部署場景：幫助邊緣設備快速選出兼顧精度與效率的模型；
A/B測試與快速迭代：縮短新模型上線周期，節省GPU試錯成本；
定制化微調：根據用戶任務和數據量，找到最合適的預訓練模型，從而達到最佳效果。

未來他們將探索將LensLLM拓展到多任務環境與MoE等復雜模型結構，構建更通用的智能模型選型系統。

論文：https://arxiv.org/pdf/2505.03793

開源地址：https://github.com/Susan571/LENSLLM

責任編輯：張燕妮來源：量子位

LLM AI 模型

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看