成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

LLM省錢大測評!48塊GH200,首個百億級參數(shù)量實證

人工智能 新聞
EfficientLLM項目聚焦LLM效率,提出三軸分類法和六大指標,實驗包攬全架構(gòu)、多模態(tài)、微調(diào)技術(shù),可為研究人員提供效率與性能平衡的參考。

近年來,大型語言模型(LLM)如GPT系列取得了革命性進展,在自然語言處理、內(nèi)容創(chuàng)作、多語言翻譯乃至科學研究等眾多領(lǐng)域展現(xiàn)出驚人能力。

然而,模型參數(shù)量(如DeepseekR1的671B參數(shù))和上下文窗口的急劇膨脹,帶來了巨大的計算力(GPT-3訓練約需3640Petaflop/s-days)、能源消耗和資金投入(GPT-3訓練成本估計超460萬美元)。

高昂的成本已成為制約LLM進一步發(fā)展和廣泛應(yīng)用的關(guān)鍵瓶頸。

EfficientLLM項目應(yīng)「效率測評」需求而生,也是首個針對LLM效率技術(shù)進行端到端、百億級參數(shù)規(guī)模的系統(tǒng)性實證研究。

圖片

項目詳情:https://dlyuangod.github.io/EfficientLLM/

模型庫:https://huggingface.co/Tyrannosaurus/EfficientLLM

研究人員在配備了48塊GH200和8塊H200 GPU的生產(chǎn)級集群上執(zhí)行效率測評,確保了對真實世界中LLM性能與能耗權(quán)衡的精確測量。

EfficientLLM的核心目標是為學術(shù)界和工業(yè)界的研發(fā)人員提供一個清晰、數(shù)據(jù)驅(qū)動的導航圖,幫助研究人員在下一代基礎(chǔ)模型的「效率-性能」復雜地貌中找到最佳路徑。

圖片

EfficientLLM的三維評測框架與核心指標

研究人員創(chuàng)新性地提出了一個統(tǒng)一的三軸分類法來系統(tǒng)評估LLM效率,覆蓋模型生命周期的關(guān)鍵階段:

架構(gòu)預訓練(Architecture Pretraining)

此部分專注于為模型設(shè)計者和研究者在構(gòu)建新型LLM架構(gòu)時,提供關(guān)于計算資源和能源成本預算的精確分析,并深入評估了多種高效注意力機制變體(如多查詢注意力MQA、分組查詢注意力GQA、多頭潛在注意力MLA、原生稀疏注意力NSA)以及稀疏混合專家模型(MoE)的效率表現(xiàn)。

微調(diào)(Fine-tuning)

針對需要將預訓練基礎(chǔ)模型適配到特定下游任務(wù)或?qū)I(yè)領(lǐng)域的實踐者,研究人員提供了參數(shù)高效微調(diào)(PEFT)方法的效率基準。評估涵蓋了LoRA、RSLORA、DoRA等主流PEFT技術(shù)。

位寬量化(Bit-width Quantization)

面向模型部署工程師,研究人員評估了如何通過模型壓縮技術(shù)(特別是無需重訓即可直接部署的訓練后量化方法,如int4和float16)有效降低服務(wù)成本和推理延遲。

評估指標

為全面刻畫效率,EfficientLLM還引入了六個相互正交的細粒度評估指標:

1. 平均內(nèi)存利用率(Average-Memory-Utilization,AMU)

2. 峰值計算利用率(Peak-Compute-Utilization,PCU)

3. 平均延遲(Average-Latency,AL)

4. 平均吞吐量(Average-Throughput,AT)

5. 平均能耗(Average-Energy-Consumption,AEC)

6. 模型壓縮率(Model-Compression-Rate,MCR)這些指標共同捕捉了硬件飽和度、延遲與吞吐量的平衡,以及碳排放成本等關(guān)鍵因素。

基準測試涵蓋了超過100個「模型-技術(shù)」組合,納入從0.5B到72B參數(shù)規(guī)模的多種LLM。

圖片

EfficientLLM的三大核心洞見

效率優(yōu)化是「沒有免費午餐」的量化權(quán)衡(Efficiency Involves Quantifiable Trade-offs)

百余項實驗清晰地表明,不存在一種能在所有維度上都達到最優(yōu)的通用效率技術(shù)。

每一種被評估的方法,在提升至少一個效率指標的同時,幾乎總會在其他某個或某些指標上有所妥協(xié)。

圖片

以稀疏混合專家模型(MoE)為例,能有效降低推理時的FLOPs(浮點運算次數(shù))并提升下游任務(wù)的準確率,但其代價是峰值顯存需求增加約40%(因為需要存儲所有專家網(wǎng)絡(luò)的參數(shù))。

int4量化技術(shù)則展現(xiàn)了另一面:可以將模型的內(nèi)存占用和能耗降低高達3.9倍,模型壓縮率表現(xiàn)優(yōu)異,但根據(jù)實測數(shù)據(jù),通常伴隨著約3-5%的任務(wù)平均得分下降。

最優(yōu)效率策略高度依賴于具體任務(wù)和模型規(guī)模(Optima are Task- and Scale-Dependent)

效率的「最優(yōu)解」并非一成不變,而是高度依賴于應(yīng)用場景、模型規(guī)模和硬件環(huán)境。

高效注意力機制:在架構(gòu)預訓練階段,對于內(nèi)存資源極度受限的設(shè)備(如端側(cè)推理),MQA(多查詢注意力)因其共享鍵值頭設(shè)計,展現(xiàn)出最佳的內(nèi)存占用和延遲特性。

而當追求極致的語言生成質(zhì)量時(以困惑度PPL為衡量標準),MLA(多頭潛在注意力)則表現(xiàn)更優(yōu)。若目標是最低能耗部署,NSA(原生稀疏注意力)則是首選。

圖片

PEFT方法的規(guī)模效應(yīng):在微調(diào)階段,對于1B到3B參數(shù)規(guī)模的較小模型,LoRA及其變體(如DoRA,統(tǒng)稱LoRA-plus)在特定的內(nèi)存約束下能達到最低的性能損失(即最佳的任務(wù)表現(xiàn))。

然而,當模型規(guī)模擴展到14B參數(shù)以上時,RSLORA在效率上反超LoRA,展現(xiàn)出更低的延遲和功耗。

對于超大規(guī)模模型的微調(diào),參數(shù)凍結(jié)(僅更新部分層或組件)策略雖然可能犧牲少量任務(wù)精度,但能提供最佳的端到端微調(diào)延遲。

量化精度選擇:在推理階段,測試(涵蓋Llama-3,DeepSeek,Qwen等1.5B至34B模型)表明,int4訓練后量化能顯著提升資源效率。

內(nèi)存占用減少接近理論上的4倍,吞吐量(每秒處理詞元數(shù))在內(nèi)存受限條件下可提升三倍,而平均任務(wù)性能得分僅有小幅下降(例如DeepSeek-R1-Distill-Qwen-14B的平均分從bf16的0.4719降至int4的0.4361)。

在16位浮點格式中,bfloat16在Hopper架構(gòu)GPU(GH200/H200)上,相較于float16,始終在平均延遲和能耗方面表現(xiàn)更優(yōu),這得益于現(xiàn)代NVIDIA GPU對bfloat16運算的原生硬件加速。

LLM效率技術(shù)可廣泛遷移至跨模態(tài)模型(Broad ApplicabilityAcrossModalities)

研究人員將EfficientLLM的評估框架成功擴展到了大型視覺模型(LVMs)和視覺語言模型(VLMs),如Stable Diffusion3.5、Wan2.1和Qwen2.5-VL等。

圖片

實驗結(jié)果令人鼓舞:在LLM上得到驗證的效率技術(shù),如MQA/GQA等高效注意力機制,能夠有效地遷移并改進LVM的生成質(zhì)量(以FID分數(shù)為衡量標準);PEFT方法同樣在LVM和VLM上取得了良好的性能-效率權(quán)衡,表明針對LLM的效率優(yōu)化研究成果具有更廣泛的適用性。

開放共享,賦能未來

研究人員即將開源完整的評估流程代碼以及排行榜,在為全球的學術(shù)研究者和企業(yè)工程師在探索下一代基礎(chǔ)模型的效率與性能平衡時,提供一個堅實的、可復現(xiàn)的、值得信賴的「指南針」。

研究成果可以為從業(yè)者提供基于嚴謹實證數(shù)據(jù)的可操作建議,幫助研究人員在具體的任務(wù)需求和資源限制下,做出更明智、更高效的模型和技術(shù)選型決策,而不是僅僅依賴理論推演或有限的經(jīng)驗。

LLM的效率優(yōu)化是一個持續(xù)演進的系統(tǒng)工程,EfficientLLM的探索也僅是其中的一部分,諸如訓練基礎(chǔ)設(shè)施優(yōu)化、基于強化學習的訓練后對齊、測試時擴展策略等重要議題,開發(fā)團隊計劃在未來進行深入研究。

責任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2023-05-29 15:57:41

新型AI超級計算機NVIDIA

2023-09-01 15:22:49

人工智能數(shù)據(jù)

2023-11-14 13:39:57

2024-02-05 13:37:35

AI數(shù)據(jù)

2024-05-22 08:36:30

2023-08-09 17:19:54

服務(wù)器計算

2024-11-05 11:14:05

2018-12-17 09:02:25

百億大表維度查詢

2025-05-14 00:55:00

英偉達命名規(guī)則體系

2023-07-08 23:20:41

2025-02-27 13:45:00

2025-01-24 15:09:43

2022-06-25 21:17:15

人工智能訓練

2016-01-25 13:42:24

云之家

2023-07-03 14:49:39

2023-09-19 21:09:18

百度人工智能

2022-12-27 13:36:09

2010-09-01 19:09:41

2018-05-17 10:10:17

架構(gòu)設(shè)計優(yōu)化

2014-12-01 17:04:44

外包服務(wù)IT桌面
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 99精品99 | 日韩欧美大片 | 日日人人| 欧美日韩国产三级 | 日韩视频专区 | 国产精品日韩欧美一区二区 | www.一区二区三区 | 精品国产网 | 久久久久成人精品 | 日本久久久一区二区三区 | 中文字幕精品一区二区三区精品 | 成人在线不卡 | 一区二区片 | 久久精品免费一区二区三 | 理论片87福利理论电影 | 色小姐综合网 | 欧美精品久久久 | 中文字幕av亚洲精品一部二部 | 综合久久99 | 亚洲一区二区三区四区五区中文 | 久久久久久久久久爱 | 国产亚洲一区二区在线观看 | 亚洲黄色视屏 | 天天综合网天天综合色 | 在线观看特色大片免费网站 | 欧美激情精品久久久久久 | 国产不卡视频 | 一区二区中文 | 六月成人网 | 久久午夜精品福利一区二区 | 91精品国产高清久久久久久久久 | 亚洲精品中文字幕 | 免费高潮视频95在线观看网站 | 日韩在线观看 | 成人自拍视频网站 | 亚洲国产成人精品久久 | 亚洲成网站 | 亚洲精品黄色 | 精品欧美一区二区三区久久久小说 | www在线视频| 久草青青草 |