80億參數(shù)的MiniCPM4:為邊緣AI量身定制的高效語言模型 原創(chuàng) 精華
在當(dāng)今數(shù)字化時(shí)代,語言模型已經(jīng)成為人工智能系統(tǒng)的核心組件,廣泛應(yīng)用于多語言翻譯、虛擬助手和自動(dòng)化推理等任務(wù)。然而,這些功能強(qiáng)大的模型通常需要強(qiáng)大的云端基礎(chǔ)設(shè)施來支持其訓(xùn)練和推理過程。這種依賴不僅會(huì)導(dǎo)致延遲和高昂的成本,還會(huì)引發(fā)隱私問題,限制了它們?cè)谫Y源受限的邊緣設(shè)備上的部署。例如,像GPT和LLaMA這樣擁有數(shù)十億參數(shù)的模型,由于其龐大的體積和復(fù)雜的訓(xùn)練推理過程,無法在本地硬件上高效運(yùn)行。它們對(duì)大規(guī)模數(shù)據(jù)集和高性能GPU的依賴,使得它們?cè)谝苿?dòng)或嵌入式環(huán)境中顯得格格不入。為了克服這些挑戰(zhàn),開發(fā)能夠在本地高效運(yùn)行且不犧牲推理和上下文處理能力的輕量級(jí)高效模型,已經(jīng)成為當(dāng)務(wù)之急。
現(xiàn)有解決方案的局限性
為了應(yīng)對(duì)這些挑戰(zhàn),人們已經(jīng)探索了多種方法。例如,稀疏注意力機(jī)制(如NSA和MoBA)旨在減少內(nèi)存消耗,但它們要么在解碼效率上不盡如人意,要么引入了顯著的架構(gòu)開銷。在數(shù)據(jù)處理方面,以往的方法依賴于大規(guī)模網(wǎng)絡(luò)爬取,導(dǎo)致數(shù)據(jù)集噪聲大且結(jié)構(gòu)松散。過濾方法包括使用fastText分類器和人工篩選,但這些方法要么缺乏深度,要么難以擴(kuò)展。在訓(xùn)練方面,像StepLaw這樣的框架雖然可以根據(jù)可預(yù)測(cè)的擴(kuò)展規(guī)律優(yōu)化超參數(shù),但往往需要大量的實(shí)驗(yàn)和GPU計(jì)算周期,這無疑為入門設(shè)置了障礙。在推理優(yōu)化方面,F(xiàn)lashAttention等技術(shù)雖然降低了計(jì)算復(fù)雜度,但仍未能達(dá)到邊緣設(shè)備實(shí)時(shí)應(yīng)用所需的速度。
MiniCPM4:高效架構(gòu)、數(shù)據(jù)和推理的結(jié)合
在這種背景下,OpenBMB的研究人員推出了MiniCPM4,這是一套專為設(shè)備端部署而設(shè)計(jì)的高效大型語言模型。該模型包括兩個(gè)版本:一個(gè)擁有5億參數(shù),另一個(gè)擁有80億參數(shù)。MiniCPM4在模型架構(gòu)、訓(xùn)練數(shù)據(jù)、訓(xùn)練算法和推理系統(tǒng)四個(gè)核心維度上進(jìn)行了改進(jìn)。在架構(gòu)方面,團(tuán)隊(duì)引入了InfLLM v2,這是一種稀疏注意力機(jī)制,能夠在不犧牲上下文理解的情況下加速預(yù)填充和解碼過程。在數(shù)據(jù)方面,UltraClean被用于生成和篩選訓(xùn)練數(shù)據(jù)集,使得模型僅需使用8萬億訓(xùn)練標(biāo)記,相較于Qwen3-8B等競(jìng)爭(zhēng)模型所需的36萬億標(biāo)記,大大減少了數(shù)據(jù)量。ModelTunnel v2指導(dǎo)了訓(xùn)練過程,通過高效的超參數(shù)調(diào)整,而CPM.cu則負(fù)責(zé)處理推理任務(wù),實(shí)現(xiàn)了平臺(tái)無關(guān)的CUDA基礎(chǔ)執(zhí)行。
MiniCPM4的技術(shù)創(chuàng)新
MiniCPM4的技術(shù)棧旨在在性能和資源利用之間取得平衡。InfLLM v2將鍵值緩存劃分為塊,并使用語義內(nèi)核選擇最相關(guān)的K個(gè)塊進(jìn)行注意力計(jì)算,與NSA相比,注意力計(jì)算減少了60%。其動(dòng)態(tài)上下文塊選擇和基于標(biāo)記的查詢組處理使其能夠支持長(zhǎng)達(dá)128K標(biāo)記的序列,同時(shí)保持速度和連貫性。UltraClean依賴于高效的數(shù)據(jù)驗(yàn)證,利用預(yù)訓(xùn)練的LLM和基于退火的微調(diào),在100億標(biāo)記上進(jìn)行訓(xùn)練。這使得其生成的高質(zhì)量數(shù)據(jù)集UltraFineWeb(英文)和UltraFineWeb-zh(中文)在平均基準(zhǔn)性能上分別超過了FineWeb 3.61和1.98個(gè)百分點(diǎn)。UltraChat v2進(jìn)一步通過生成富有推理能力的多輪對(duì)話來支持訓(xùn)練后微調(diào)。
基準(zhǔn)性能和速度提升
在原始性能方面,80億參數(shù)版本的MiniCPM4在MMLU測(cè)試中得分為32.24%,超過了FineWeb(28.84%)和FineWeb-edu(31.80%)。在ARC-C和ARC-E測(cè)試中,其得分分別為35.67%和70.62%,均超過了競(jìng)爭(zhēng)數(shù)據(jù)集超過10個(gè)百分點(diǎn)。與Qwen3-8B相比,MiniCPM4僅使用了22%的訓(xùn)練數(shù)據(jù),但在處理128K長(zhǎng)度文檔時(shí),其在邊緣端GPU(如Jetson AGX Orin和RTX 4090)上的推理速度提高了7倍。對(duì)于長(zhǎng)上下文輸入,平均解碼速度超過了每秒200個(gè)標(biāo)記,而對(duì)于較短序列,架構(gòu)則優(yōu)雅地退化為密集注意力。此外,BitCPM4啟用了量化感知訓(xùn)練,使得模型能夠在內(nèi)存限制更嚴(yán)格的設(shè)備上部署,而不會(huì)損失性能保真度。
MiniCPM4的關(guān)鍵要點(diǎn)
- MiniCPM4提供5億和80億參數(shù)兩種版本,專為邊緣設(shè)備優(yōu)化。
- 它僅使用了8萬億訓(xùn)練標(biāo)記,而Qwen3-8B則使用了36萬億。
- 在處理128K長(zhǎng)度文檔時(shí),其速度比Qwen3-8B快7倍。
- InfLLM v2通過塊級(jí)注意力將注意力計(jì)算成本降低了60%。
- UltraFineWeb在英文基準(zhǔn)測(cè)試中比FineWeb高出3.61%,中文基準(zhǔn)測(cè)試高出1.98%。
- 在ARC-C上達(dá)到35.67%,在ARC-E上達(dá)到70.62%,在MMLU上達(dá)到32.24%,均超過了之前的數(shù)據(jù)集。
- BitCPM4使得三元LLM適合于極其受限的硬件。
- CPM.cu推理系統(tǒng)結(jié)合了CUDA優(yōu)化和推測(cè)性采樣。
- UltraChat v2通過生成推理密集型對(duì)話來增強(qiáng)微調(diào)。
- ModelTunnel v2使用ScalingBench進(jìn)行精確的超參數(shù)調(diào)整,提高了訓(xùn)練效率。
結(jié)論:為邊緣AI應(yīng)用打造高效的LLM
總之,MiniCPM4團(tuán)隊(duì)采取的全面方法解決了當(dāng)前LLM的所有關(guān)鍵低效問題。通過引入新的架構(gòu)、訓(xùn)練和部署策略,該模型在保持高質(zhì)量響應(yīng)的同時(shí),支持長(zhǎng)上下文理解,并在邊緣約束下表現(xiàn)良好。這項(xiàng)工作的成功不僅體現(xiàn)在原始指標(biāo)上,還證明了在云端之外實(shí)現(xiàn)最先進(jìn)的性能是可能的。它為新的應(yīng)用領(lǐng)域鋪平了道路,例如安全離線助手、實(shí)時(shí)移動(dòng)AI和自主嵌入式系統(tǒng),而無需傳統(tǒng)的計(jì)算負(fù)擔(dān)。
本文轉(zhuǎn)載自??Halo咯咯?? 作者:基咯咯
