把MLA和稀疏激活帶到端側(cè)!港科大廣州和倫敦大學(xué)學(xué)院團(tuán)隊(duì)聯(lián)合發(fā)布軟硬協(xié)同設(shè)計(jì)的邊緣語(yǔ)言模型PLM
本文由 PLM 團(tuán)隊(duì)撰寫,PLM 團(tuán)隊(duì)是由香港科技大學(xué)(廣州)的校長(zhǎng)倪明選教授,倫敦大學(xué)學(xué)院(UCL)AI 中心汪軍教授,香港科技大學(xué)(廣州)信息樞紐院長(zhǎng)陳雷教授聯(lián)合指導(dǎo)。第一作者鄧程是香港科技大學(xué)(廣州)的研究助理,研究方向?yàn)槎藗?cè)大模型和高效模型推理;參與成員包括中科院自動(dòng)化所的孫羅洋博士,曾勇程博士,姜紀(jì)文碩士,UCL 吳昕鍵,港科大廣州的博士生肖慶發(fā)和趙文欣,港科大的博士后王嘉川以及香港理工的助理教授(研究)李昊洋。通訊作者為鄧程博士,陳雷教授和汪軍教授。
在大模型「卷參數(shù)」的浪潮中,一個(gè)亟待解決的課題始終存在:如何讓百億級(jí)能力的 AI 跑進(jìn)手機(jī)、嵌入設(shè)備、實(shí)現(xiàn)萬(wàn)物互聯(lián)?內(nèi)存墻、算力墻、I/O 墻這三座邊緣設(shè)備的「大山」令許多大模型鎩羽而歸。
近日,香港科技大學(xué)(廣州)倪明選校長(zhǎng)和陳雷教授聯(lián)合 UCL 汪軍教授團(tuán)隊(duì)以及中科院自動(dòng)化所團(tuán)隊(duì)聯(lián)合提出 PLM(Peripheral Language Model),通過算法 - 系統(tǒng)協(xié)同設(shè)計(jì),選擇了適合邊緣設(shè)備的模型架構(gòu)。
PLM 是首個(gè)結(jié)合 MLA 注意力機(jī)制與 ReLU2 激活 FFN 的架構(gòu)。評(píng)估結(jié)果表明,PLM 的表現(xiàn)優(yōu)于現(xiàn)有在公開數(shù)據(jù)上訓(xùn)練的小型語(yǔ)言模型,性能接近利用 18T tokens 訓(xùn)練的 Qwen2.5-1.5B 模型,同時(shí)保持最低激活參數(shù)數(shù)量。
其中,PLM 在通用知識(shí)理解(ARC)、數(shù)學(xué)(GSM8K)任務(wù)中表現(xiàn)出色,在代碼能力評(píng)測(cè)(HumanEval)基準(zhǔn)上更是以 64.6 分位居榜首。
- 項(xiàng)目論文:https://arxiv.org/abs/2503.12167
- 項(xiàng)目網(wǎng)站:https://www.project-plm.com
- 項(xiàng)目地址:https://github.com/plm-team/PLM
- 模型地址:Hugging Face: https://huggingface.co/PLM-Team
團(tuán)隊(duì)還將模型適配至多種邊緣設(shè)備,在 Snapdragon 等芯片上展現(xiàn)出優(yōu)于同層數(shù)模型的吞吐優(yōu)勢(shì)。PLM 團(tuán)隊(duì)不僅開源模型權(quán)重,還提供了從架構(gòu)設(shè)計(jì)到部署的完整技術(shù)報(bào)告,并計(jì)劃逐步開源訓(xùn)練數(shù)據(jù)集及相關(guān)代碼腳本。
剖析 PLM:1+1 能否大于 2?
核心模塊一:Multi-head Latent Attention(MLA)—— 把 KV 緩存壓縮到極致
PLM 采用了 Deepseek 提出的 MLA(Multi-Head Latent Attention)注意力機(jī)制,并首次將其應(yīng)用于 2B 參數(shù)以下的模型中。為適應(yīng)端側(cè)系統(tǒng)的需求,PLM 對(duì) Deepseek 的 MLA 進(jìn)行了適度優(yōu)化,去除了訓(xùn)練階段用于降低成本的 Q 矩陣壓縮過程,同時(shí)保留了 KV 矩陣的 512 維度。此外,PLM 通過解耦的位置編碼機(jī)制,確保了模型對(duì)長(zhǎng)程依賴信息的有效捕捉。
核心模塊二:平方 ReLU 激活 —— 讓計(jì)算「稀疏化」
PLM 通過去除門控機(jī)制簡(jiǎn)化了前饋神經(jīng)網(wǎng)絡(luò),從而有效降低了計(jì)算復(fù)雜度和內(nèi)存消耗。傳統(tǒng) SwiGLU 激活函數(shù)導(dǎo)致 MLP 層計(jì)算密集,而 PLM 采用了 ReLU2 作為替代。ReLU2 是一種在性能和稀疏性之間實(shí)現(xiàn)最優(yōu)平衡的激活函數(shù),特別適合稀疏計(jì)算場(chǎng)景。其定義如下:
這個(gè)設(shè)計(jì)使得 MLP 層激活稀疏度達(dá)到 90.9%,整體計(jì)算量減少 26%。此外,從硬件角度出發(fā),零值激活能夠觸發(fā)指令級(jí)優(yōu)化。這一設(shè)計(jì)理念成功地將模型與系統(tǒng)的聯(lián)合優(yōu)化整合到大語(yǔ)言模型架構(gòu)中。
訓(xùn)練策略:充分利用開源數(shù)據(jù)
三階段鍛造 PLM-1.8B
PLM 團(tuán)隊(duì)精心設(shè)計(jì)了一條訓(xùn)練流水線,僅使用未精細(xì)設(shè)計(jì)與配比的 2.48B 預(yù)訓(xùn)練數(shù)據(jù),PLM 性能就達(dá)到企業(yè)級(jí)水平。所有訓(xùn)練數(shù)據(jù)均來自開源社區(qū)。
預(yù)訓(xùn)練
第一階段累計(jì)約 1.65T 的 Token。這個(gè)階段中,學(xué)習(xí)率是屬于預(yù)熱和穩(wěn)定的階段,模型的 Loss 也在 2.3 附近有收斂趨勢(shì)。第二階段累計(jì)約 550B 的 Token。在這個(gè)階段,模型的 Loss 隨著學(xué)習(xí)的衰減快速下降。第三階段累計(jì)約 280B 的 Token。
這個(gè)階段里,保持第二階段的最小學(xué)習(xí)率訓(xùn)練,模型進(jìn)行最后的高質(zhì)量知識(shí)吸收,直到 loss 逐漸收斂。整個(gè)預(yù)訓(xùn)練中,始終保持中英數(shù)據(jù)比例 5:2。
SFT 階段
監(jiān)督微調(diào)數(shù)據(jù)遵循「由淺入深」的數(shù)據(jù)準(zhǔn)備方法,以漸進(jìn)的方式進(jìn)行監(jiān)督微調(diào)過程。PLM 的 SFT 訓(xùn)練分為基本指令微調(diào)和高難度指令微調(diào)。下面是各個(gè)階段的提升效果。
強(qiáng)化學(xué)習(xí)階段
PLM 在偏好訓(xùn)練階段沿用了團(tuán)隊(duì)先前提出的 ARIES 訓(xùn)練方法,以解決經(jīng)過一般的對(duì)齊學(xué)習(xí)會(huì)經(jīng)多輪自我改進(jìn)后,性能會(huì)顯著下降的問題。
性能實(shí)測(cè):真的可以
PLM 采用獨(dú)特的模型架構(gòu),對(duì)比的基線模型涵蓋了當(dāng)前最先進(jìn)的 2B 參數(shù)量級(jí)模型,具體對(duì)比如下。
實(shí)驗(yàn)表明,PLM 表現(xiàn)頗具競(jìng)爭(zhēng)力,平均分(57.29)位列第三,僅次于 Qwen2.5-1.5B(59.25)和 Yulan-Mini-2.4B(57.51)。PLM-1.8B 在 HumanEval 中獲得了所有模型中的最高分,在 ARC-C、ARC-E、MBPP 和 BoolQ 中排名第二,略遜于行業(yè)領(lǐng)先的 Qwen2.5-1.5B,需指出的是,Qwen 系列使用了 18T 閉源語(yǔ)料庫(kù)。
另一方面,與 Yulan-Mini-2.4B 相比,PLM-1.8B 在編碼和邏輯推理任務(wù)中旗鼓相當(dāng)。此外,PLM 僅包含 1.8B 參數(shù)和 32 層(Yulan-Mini 為 56 層),推理延遲會(huì)較低。綜上所述,PLM-1.8B 在基本知識(shí)理解、編碼和簡(jiǎn)單推理任務(wù)中表現(xiàn)強(qiáng)勁且可靠,是一款值得關(guān)注的模型。
場(chǎng)景實(shí)測(cè):從服務(wù)器到樹莓派,全場(chǎng)景通吃
除了基本的模型能力評(píng)估,PLM 團(tuán)隊(duì)還在在 5 類硬件平臺(tái)完成部署驗(yàn)證,并給出了實(shí)際的吞吐量數(shù)據(jù)。
文章全面評(píng)估了不同硬件平臺(tái)和量化級(jí)別的各種邊緣大小 LLM 的推理延遲,包括高性能 GPU(NVIDIA A10、Orin NX)、Apple 的 M3 芯片、Qualcomm 的 Snapdragon 8 Gen 3 和 BCM2712 等嵌入式系統(tǒng)。
評(píng)估數(shù)據(jù)揭示了幾個(gè)顯著特征:MLA 的確增加了計(jì)算量,ReLU2 的確可以提升模型推理速度,模型層數(shù)會(huì)顯著影響端側(cè)設(shè)備上推理的速度。
PLM 團(tuán)隊(duì)的實(shí)驗(yàn)表明,這些關(guān)鍵點(diǎn)恰好觸及了端側(cè)計(jì)算中最需要關(guān)注的內(nèi)存、算力和 I/O 三個(gè)核心維度。PLM 團(tuán)隊(duì)通過模型與硬件的協(xié)同設(shè)計(jì),在這一領(lǐng)域展現(xiàn)了其獨(dú)特的優(yōu)勢(shì)。
算法層面,PLM 做到了稀疏性與低秩的平衡:MLA 壓縮 KV 緩存,ReLU2 激活削減計(jì)算,二者互補(bǔ)突破內(nèi)存 - 算力瓶頸。系統(tǒng)層面,PLM 深度適配 TVM、llama.cpp 等框架,實(shí)現(xiàn)高效的量化與編譯優(yōu)化。
理解 PLM 的 MLA 和稀疏激活
在實(shí)際探索中,MLA 的引入會(huì)顯著增加計(jì)算量。然而,PLM 通過舍棄 Q 矩陣的低秩壓縮來降低推理計(jì)算復(fù)雜度,并結(jié)合稀疏激活函數(shù),成功避免了 MiniCPM3 在預(yù)填充或解碼階段的低效問題,從而在特定場(chǎng)景中展現(xiàn)出明顯優(yōu)勢(shì)。
PLM 團(tuán)隊(duì)在較長(zhǎng)文本序列上評(píng)估了其模型性能,結(jié)果表明,當(dāng)序列長(zhǎng)度達(dá)到一定閾值后,PLM 的表現(xiàn)優(yōu)于同深度的 GQA 模型 Fox。
因此,盡管 MLA 增加了計(jì)算負(fù)載,其對(duì)緩存利用率、推理效率和內(nèi)存消耗的優(yōu)化,使得 PLM 在邊緣設(shè)備上展現(xiàn)出高效、低延遲的性能,為實(shí)際應(yīng)用提供了顯著優(yōu)勢(shì)。
再來看 PLM 的稀疏化設(shè)計(jì),在邊緣模型中展現(xiàn)出了更高的普適性與高效性。從系統(tǒng)角度來看,零計(jì)算已被高度優(yōu)化,使得稀疏化在邊緣設(shè)備上的部署帶來顯著性能提升。
此外,由于邊緣設(shè)備的計(jì)算資源有限,模型通常無法完全加載到 GPU 或 RAM,需要 OffLoad 到緩存甚至存儲(chǔ)中。在此情況下,深度學(xué)習(xí)模型可采用分層加載,將當(dāng)前所需參數(shù)調(diào)入計(jì)算單元。
因此,最小化每層計(jì)算量至關(guān)重要。PLM 通過 KV 緩存存儲(chǔ)與稀疏激活減少計(jì)算開銷,有效緩解該問題。
PLM 團(tuán)隊(duì)實(shí)驗(yàn)驗(yàn)證了推理所需的最小參數(shù)量。他們對(duì)所有模型進(jìn)行相同稀疏化(即將激活函數(shù)后的最小值設(shè)為 0),并測(cè)試保持建模性能(困惑度下降 1)所需的最少參數(shù)量(如下圖)。
具體而言,PLM 團(tuán)隊(duì)繪制了稀疏率(0~1)與困惑度差異的關(guān)系圖,以分析神經(jīng)激活減少的性能成本。不同模型的曲線揭示了各自對(duì)稀疏度的敏感性。理論上的「理想點(diǎn)」—— 完全稀疏且困惑度不增加 —— 是無法實(shí)現(xiàn)的,因?yàn)?MLP 層完全停用將損害模型質(zhì)量。
在此背景下,PLM 展現(xiàn)出顯著優(yōu)勢(shì),僅需激活 74.3% 參數(shù),MLP 稀疏率達(dá) 90.9%,遠(yuǎn)低于同等規(guī)模模型,推理所需參數(shù)量最低。
PLM 團(tuán)隊(duì)已全面開放資源,為社區(qū)提供了一個(gè)小型且易于使用的 MLA 模型,使科研工作者能夠在消費(fèi)級(jí)顯卡上開展對(duì) MLA 的研究。同時(shí),PLM 為端側(cè)應(yīng)用廠商提供了一個(gè)高性能的端側(cè)模型,拓寬了選擇范圍,并支持基于 PLM 稀疏激活架構(gòu)的高效模型部署與開發(fā)。
結(jié)語(yǔ)
學(xué)術(shù)界在大規(guī)模模型結(jié)構(gòu)實(shí)驗(yàn)方面面臨諸多挑戰(zhàn),而堅(jiān)持從頭預(yù)訓(xùn)練的團(tuán)隊(duì)更是少之又少。PLM 團(tuán)隊(duì)在計(jì)算資源有限和數(shù)據(jù)質(zhì)量參差不齊的情況下,始終堅(jiān)信開源社區(qū)提供的數(shù)據(jù)和技術(shù)能夠?yàn)閷W(xué)術(shù)界的持續(xù)探索提供強(qiáng)大支持。
未來,PLM 團(tuán)隊(duì)將繼續(xù)致力于探索適用于邊緣設(shè)備的大模型,訓(xùn)練更具創(chuàng)新性的架構(gòu),并實(shí)現(xiàn)更高效的邊緣設(shè)備部署。PLM 團(tuán)隊(duì)認(rèn)為,未來的語(yǔ)言模型不應(yīng)僅僅是參數(shù)的堆砌,而應(yīng)是效率與智能的精密平衡。PLM的探索,正是向著這一理想邁出的關(guān)鍵一步。