把MLA和稀疏激活帶到端側(cè)！港科大廣州和倫敦大學(xué)學(xué)院團(tuán)隊(duì)聯(lián)合發(fā)布軟硬協(xié)同設(shè)計(jì)的邊緣語(yǔ)言模型PLM

作者：機(jī)器之心 2025-03-27 13:14:36

學(xué)術(shù)界在大規(guī)模模型結(jié)構(gòu)實(shí)驗(yàn)方面面臨諸多挑戰(zhàn)，而堅(jiān)持從頭預(yù)訓(xùn)練的團(tuán)隊(duì)更是少之又少。

本文由 PLM 團(tuán)隊(duì)撰寫，PLM 團(tuán)隊(duì)是由香港科技大學(xué)（廣州）的校長(zhǎng)倪明選教授，倫敦大學(xué)學(xué)院（UCL）AI 中心汪軍教授，香港科技大學(xué)（廣州）信息樞紐院長(zhǎng)陳雷教授聯(lián)合指導(dǎo)。第一作者鄧程是香港科技大學(xué)（廣州）的研究助理，研究方向?yàn)槎藗?cè)大模型和高效模型推理；參與成員包括中科院自動(dòng)化所的孫羅洋博士，曾勇程博士，姜紀(jì)文碩士，UCL 吳昕鍵，港科大廣州的博士生肖慶發(fā)和趙文欣，港科大的博士后王嘉川以及香港理工的助理教授（研究）李昊洋。通訊作者為鄧程博士，陳雷教授和汪軍教授。

在大模型「卷參數(shù)」的浪潮中，一個(gè)亟待解決的課題始終存在：如何讓百億級(jí)能力的 AI 跑進(jìn)手機(jī)、嵌入設(shè)備、實(shí)現(xiàn)萬(wàn)物互聯(lián)？內(nèi)存墻、算力墻、I/O 墻這三座邊緣設(shè)備的「大山」令許多大模型鎩羽而歸。

近日，香港科技大學(xué)（廣州）倪明選校長(zhǎng)和陳雷教授聯(lián)合 UCL 汪軍教授團(tuán)隊(duì)以及中科院自動(dòng)化所團(tuán)隊(duì)聯(lián)合提出 PLM（Peripheral Language Model），通過算法 - 系統(tǒng)協(xié)同設(shè)計(jì)，選擇了適合邊緣設(shè)備的模型架構(gòu)。

PLM 是首個(gè)結(jié)合 MLA 注意力機(jī)制與 ReLU2 激活 FFN 的架構(gòu)。評(píng)估結(jié)果表明，PLM 的表現(xiàn)優(yōu)于現(xiàn)有在公開數(shù)據(jù)上訓(xùn)練的小型語(yǔ)言模型，性能接近利用 18T tokens 訓(xùn)練的 Qwen2.5-1.5B 模型，同時(shí)保持最低激活參數(shù)數(shù)量。

其中，PLM 在通用知識(shí)理解（ARC）、數(shù)學(xué)（GSM8K）任務(wù)中表現(xiàn)出色，在代碼能力評(píng)測(cè)（HumanEval）基準(zhǔn)上更是以 64.6 分位居榜首。

項(xiàng)目論文：https://arxiv.org/abs/2503.12167
項(xiàng)目網(wǎng)站：https://www.project-plm.com
項(xiàng)目地址：https://github.com/plm-team/PLM
模型地址：Hugging Face: https://huggingface.co/PLM-Team

團(tuán)隊(duì)還將模型適配至多種邊緣設(shè)備，在 Snapdragon 等芯片上展現(xiàn)出優(yōu)于同層數(shù)模型的吞吐優(yōu)勢(shì)。PLM 團(tuán)隊(duì)不僅開源模型權(quán)重，還提供了從架構(gòu)設(shè)計(jì)到部署的完整技術(shù)報(bào)告，并計(jì)劃逐步開源訓(xùn)練數(shù)據(jù)集及相關(guān)代碼腳本。

剖析 PLM：1+1 能否大于 2？

核心模塊一：Multi-head Latent Attention（MLA）—— 把 KV 緩存壓縮到極致

PLM 采用了 Deepseek 提出的 MLA（Multi-Head Latent Attention）注意力機(jī)制，并首次將其應(yīng)用于 2B 參數(shù)以下的模型中。為適應(yīng)端側(cè)系統(tǒng)的需求，PLM 對(duì) Deepseek 的 MLA 進(jìn)行了適度優(yōu)化，去除了訓(xùn)練階段用于降低成本的 Q 矩陣壓縮過程，同時(shí)保留了 KV 矩陣的 512 維度。此外，PLM 通過解耦的位置編碼機(jī)制，確保了模型對(duì)長(zhǎng)程依賴信息的有效捕捉。

核心模塊二：平方 ReLU 激活 —— 讓計(jì)算「稀疏化」

PLM 通過去除門控機(jī)制簡(jiǎn)化了前饋神經(jīng)網(wǎng)絡(luò)，從而有效降低了計(jì)算復(fù)雜度和內(nèi)存消耗。傳統(tǒng) SwiGLU 激活函數(shù)導(dǎo)致 MLP 層計(jì)算密集，而 PLM 采用了 ReLU2 作為替代。ReLU2 是一種在性能和稀疏性之間實(shí)現(xiàn)最優(yōu)平衡的激活函數(shù)，特別適合稀疏計(jì)算場(chǎng)景。其定義如下：

這個(gè)設(shè)計(jì)使得 MLP 層激活稀疏度達(dá)到 90.9%，整體計(jì)算量減少 26%。此外，從硬件角度出發(fā)，零值激活能夠觸發(fā)指令級(jí)優(yōu)化。這一設(shè)計(jì)理念成功地將模型與系統(tǒng)的聯(lián)合優(yōu)化整合到大語(yǔ)言模型架構(gòu)中。

訓(xùn)練策略：充分利用開源數(shù)據(jù)

三階段鍛造 PLM-1.8B

PLM 團(tuán)隊(duì)精心設(shè)計(jì)了一條訓(xùn)練流水線，僅使用未精細(xì)設(shè)計(jì)與配比的 2.48B 預(yù)訓(xùn)練數(shù)據(jù)，PLM 性能就達(dá)到企業(yè)級(jí)水平。所有訓(xùn)練數(shù)據(jù)均來自開源社區(qū)。

預(yù)訓(xùn)練

第一階段累計(jì)約 1.65T 的 Token。這個(gè)階段中，學(xué)習(xí)率是屬于預(yù)熱和穩(wěn)定的階段，模型的 Loss 也在 2.3 附近有收斂趨勢(shì)。第二階段累計(jì)約 550B 的 Token。在這個(gè)階段，模型的 Loss 隨著學(xué)習(xí)的衰減快速下降。第三階段累計(jì)約 280B 的 Token。

這個(gè)階段里，保持第二階段的最小學(xué)習(xí)率訓(xùn)練，模型進(jìn)行最后的高質(zhì)量知識(shí)吸收，直到 loss 逐漸收斂。整個(gè)預(yù)訓(xùn)練中，始終保持中英數(shù)據(jù)比例 5:2。

SFT 階段

監(jiān)督微調(diào)數(shù)據(jù)遵循「由淺入深」的數(shù)據(jù)準(zhǔn)備方法，以漸進(jìn)的方式進(jìn)行監(jiān)督微調(diào)過程。PLM 的 SFT 訓(xùn)練分為基本指令微調(diào)和高難度指令微調(diào)。下面是各個(gè)階段的提升效果。

強(qiáng)化學(xué)習(xí)階段

PLM 在偏好訓(xùn)練階段沿用了團(tuán)隊(duì)先前提出的 ARIES 訓(xùn)練方法，以解決經(jīng)過一般的對(duì)齊學(xué)習(xí)會(huì)經(jīng)多輪自我改進(jìn)后，性能會(huì)顯著下降的問題。

性能實(shí)測(cè)：真的可以

PLM 采用獨(dú)特的模型架構(gòu)，對(duì)比的基線模型涵蓋了當(dāng)前最先進(jìn)的 2B 參數(shù)量級(jí)模型，具體對(duì)比如下。

實(shí)驗(yàn)表明，PLM 表現(xiàn)頗具競(jìng)爭(zhēng)力，平均分（57.29）位列第三，僅次于 Qwen2.5-1.5B（59.25）和 Yulan-Mini-2.4B（57.51）。PLM-1.8B 在 HumanEval 中獲得了所有模型中的最高分，在 ARC-C、ARC-E、MBPP 和 BoolQ 中排名第二，略遜于行業(yè)領(lǐng)先的 Qwen2.5-1.5B，需指出的是，Qwen 系列使用了 18T 閉源語(yǔ)料庫(kù)。

另一方面，與 Yulan-Mini-2.4B 相比，PLM-1.8B 在編碼和邏輯推理任務(wù)中旗鼓相當(dāng)。此外，PLM 僅包含 1.8B 參數(shù)和 32 層（Yulan-Mini 為 56 層），推理延遲會(huì)較低。綜上所述，PLM-1.8B 在基本知識(shí)理解、編碼和簡(jiǎn)單推理任務(wù)中表現(xiàn)強(qiáng)勁且可靠，是一款值得關(guān)注的模型。

場(chǎng)景實(shí)測(cè)：從服務(wù)器到樹莓派，全場(chǎng)景通吃

除了基本的模型能力評(píng)估，PLM 團(tuán)隊(duì)還在在 5 類硬件平臺(tái)完成部署驗(yàn)證，并給出了實(shí)際的吞吐量數(shù)據(jù)。

文章全面評(píng)估了不同硬件平臺(tái)和量化級(jí)別的各種邊緣大小 LLM 的推理延遲，包括高性能 GPU（NVIDIA A10、Orin NX）、Apple 的 M3 芯片、Qualcomm 的 Snapdragon 8 Gen 3 和 BCM2712 等嵌入式系統(tǒng)。

評(píng)估數(shù)據(jù)揭示了幾個(gè)顯著特征：MLA 的確增加了計(jì)算量，ReLU2 的確可以提升模型推理速度，模型層數(shù)會(huì)顯著影響端側(cè)設(shè)備上推理的速度。

PLM 團(tuán)隊(duì)的實(shí)驗(yàn)表明，這些關(guān)鍵點(diǎn)恰好觸及了端側(cè)計(jì)算中最需要關(guān)注的內(nèi)存、算力和 I/O 三個(gè)核心維度。PLM 團(tuán)隊(duì)通過模型與硬件的協(xié)同設(shè)計(jì)，在這一領(lǐng)域展現(xiàn)了其獨(dú)特的優(yōu)勢(shì)。

算法層面，PLM 做到了稀疏性與低秩的平衡：MLA 壓縮 KV 緩存，ReLU2 激活削減計(jì)算，二者互補(bǔ)突破內(nèi)存 - 算力瓶頸。系統(tǒng)層面，PLM 深度適配 TVM、llama.cpp 等框架，實(shí)現(xiàn)高效的量化與編譯優(yōu)化。

理解 PLM 的 MLA 和稀疏激活

在實(shí)際探索中，MLA 的引入會(huì)顯著增加計(jì)算量。然而，PLM 通過舍棄 Q 矩陣的低秩壓縮來降低推理計(jì)算復(fù)雜度，并結(jié)合稀疏激活函數(shù)，成功避免了 MiniCPM3 在預(yù)填充或解碼階段的低效問題，從而在特定場(chǎng)景中展現(xiàn)出明顯優(yōu)勢(shì)。

PLM 團(tuán)隊(duì)在較長(zhǎng)文本序列上評(píng)估了其模型性能，結(jié)果表明，當(dāng)序列長(zhǎng)度達(dá)到一定閾值后，PLM 的表現(xiàn)優(yōu)于同深度的 GQA 模型 Fox。

因此，盡管 MLA 增加了計(jì)算負(fù)載，其對(duì)緩存利用率、推理效率和內(nèi)存消耗的優(yōu)化，使得 PLM 在邊緣設(shè)備上展現(xiàn)出高效、低延遲的性能，為實(shí)際應(yīng)用提供了顯著優(yōu)勢(shì)。

再來看 PLM 的稀疏化設(shè)計(jì)，在邊緣模型中展現(xiàn)出了更高的普適性與高效性。從系統(tǒng)角度來看，零計(jì)算已被高度優(yōu)化，使得稀疏化在邊緣設(shè)備上的部署帶來顯著性能提升。

此外，由于邊緣設(shè)備的計(jì)算資源有限，模型通常無法完全加載到 GPU 或 RAM，需要 OffLoad 到緩存甚至存儲(chǔ)中。在此情況下，深度學(xué)習(xí)模型可采用分層加載，將當(dāng)前所需參數(shù)調(diào)入計(jì)算單元。

因此，最小化每層計(jì)算量至關(guān)重要。PLM 通過 KV 緩存存儲(chǔ)與稀疏激活減少計(jì)算開銷，有效緩解該問題。

PLM 團(tuán)隊(duì)實(shí)驗(yàn)驗(yàn)證了推理所需的最小參數(shù)量。他們對(duì)所有模型進(jìn)行相同稀疏化（即將激活函數(shù)后的最小值設(shè)為 0），并測(cè)試保持建模性能（困惑度下降 1）所需的最少參數(shù)量（如下圖）。

具體而言，PLM 團(tuán)隊(duì)繪制了稀疏率（0~1）與困惑度差異的關(guān)系圖，以分析神經(jīng)激活減少的性能成本。不同模型的曲線揭示了各自對(duì)稀疏度的敏感性。理論上的「理想點(diǎn)」—— 完全稀疏且困惑度不增加 —— 是無法實(shí)現(xiàn)的，因?yàn)?MLP 層完全停用將損害模型質(zhì)量。

在此背景下，PLM 展現(xiàn)出顯著優(yōu)勢(shì)，僅需激活 74.3% 參數(shù)，MLP 稀疏率達(dá) 90.9%，遠(yuǎn)低于同等規(guī)模模型，推理所需參數(shù)量最低。

PLM 團(tuán)隊(duì)已全面開放資源，為社區(qū)提供了一個(gè)小型且易于使用的 MLA 模型，使科研工作者能夠在消費(fèi)級(jí)顯卡上開展對(duì) MLA 的研究。同時(shí)，PLM 為端側(cè)應(yīng)用廠商提供了一個(gè)高性能的端側(cè)模型，拓寬了選擇范圍，并支持基于 PLM 稀疏激活架構(gòu)的高效模型部署與開發(fā)。

結(jié)語(yǔ)

學(xué)術(shù)界在大規(guī)模模型結(jié)構(gòu)實(shí)驗(yàn)方面面臨諸多挑戰(zhàn)，而堅(jiān)持從頭預(yù)訓(xùn)練的團(tuán)隊(duì)更是少之又少。PLM 團(tuán)隊(duì)在計(jì)算資源有限和數(shù)據(jù)質(zhì)量參差不齊的情況下，始終堅(jiān)信開源社區(qū)提供的數(shù)據(jù)和技術(shù)能夠?yàn)閷W(xué)術(shù)界的持續(xù)探索提供強(qiáng)大支持。

未來，PLM 團(tuán)隊(duì)將繼續(xù)致力于探索適用于邊緣設(shè)備的大模型，訓(xùn)練更具創(chuàng)新性的架構(gòu)，并實(shí)現(xiàn)更高效的邊緣設(shè)備部署。PLM 團(tuán)隊(duì)認(rèn)為，未來的語(yǔ)言模型不應(yīng)僅僅是參數(shù)的堆砌，而應(yīng)是效率與智能的精密平衡。PLM的探索，正是向著這一理想邁出的關(guān)鍵一步。

責(zé)任編輯：張燕妮來源：機(jī)器之心