成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

把MLA和稀疏激活帶到端側(cè)!港科大廣州和倫敦大學(xué)學(xué)院團(tuán)隊(duì)聯(lián)合發(fā)布軟硬協(xié)同設(shè)計(jì)的邊緣語(yǔ)言模型PLM

人工智能 新聞
學(xué)術(shù)界在大規(guī)模模型結(jié)構(gòu)實(shí)驗(yàn)方面面臨諸多挑戰(zhàn),而堅(jiān)持從頭預(yù)訓(xùn)練的團(tuán)隊(duì)更是少之又少。

本文由 PLM 團(tuán)隊(duì)撰寫,PLM 團(tuán)隊(duì)是由香港科技大學(xué)(廣州)的校長(zhǎng)倪明選教授,倫敦大學(xué)學(xué)院(UCL)AI 中心汪軍教授,香港科技大學(xué)(廣州)信息樞紐院長(zhǎng)陳雷教授聯(lián)合指導(dǎo)。第一作者鄧程是香港科技大學(xué)(廣州)的研究助理,研究方向?yàn)槎藗?cè)大模型和高效模型推理;參與成員包括中科院自動(dòng)化所的孫羅洋博士,曾勇程博士,姜紀(jì)文碩士,UCL 吳昕鍵,港科大廣州的博士生肖慶發(fā)和趙文欣,港科大的博士后王嘉川以及香港理工的助理教授(研究)李昊洋。通訊作者為鄧程博士,陳雷教授和汪軍教授。

在大模型「卷參數(shù)」的浪潮中,一個(gè)亟待解決的課題始終存在:如何讓百億級(jí)能力的 AI 跑進(jìn)手機(jī)、嵌入設(shè)備、實(shí)現(xiàn)萬(wàn)物互聯(lián)?內(nèi)存墻、算力墻、I/O 墻這三座邊緣設(shè)備的「大山」令許多大模型鎩羽而歸。

近日,香港科技大學(xué)(廣州)倪明選校長(zhǎng)和陳雷教授聯(lián)合 UCL 汪軍教授團(tuán)隊(duì)以及中科院自動(dòng)化所團(tuán)隊(duì)聯(lián)合提出 PLM(Peripheral Language Model),通過算法 - 系統(tǒng)協(xié)同設(shè)計(jì),選擇了適合邊緣設(shè)備的模型架構(gòu)。

PLM 是首個(gè)結(jié)合 MLA 注意力機(jī)制與 ReLU2 激活 FFN 的架構(gòu)。評(píng)估結(jié)果表明,PLM 的表現(xiàn)優(yōu)于現(xiàn)有在公開數(shù)據(jù)上訓(xùn)練的小型語(yǔ)言模型,性能接近利用 18T tokens 訓(xùn)練的 Qwen2.5-1.5B 模型,同時(shí)保持最低激活參數(shù)數(shù)量。

其中,PLM 在通用知識(shí)理解(ARC)、數(shù)學(xué)(GSM8K)任務(wù)中表現(xiàn)出色,在代碼能力評(píng)測(cè)(HumanEval)基準(zhǔn)上更是以 64.6 分位居榜首。

圖片

  • 項(xiàng)目論文:https://arxiv.org/abs/2503.12167
  • 項(xiàng)目網(wǎng)站:https://www.project-plm.com
  • 項(xiàng)目地址:https://github.com/plm-team/PLM
  • 模型地址:Hugging Face: https://huggingface.co/PLM-Team

團(tuán)隊(duì)還將模型適配至多種邊緣設(shè)備,在 Snapdragon 等芯片上展現(xiàn)出優(yōu)于同層數(shù)模型的吞吐優(yōu)勢(shì)。PLM 團(tuán)隊(duì)不僅開源模型權(quán)重,還提供了從架構(gòu)設(shè)計(jì)到部署的完整技術(shù)報(bào)告,并計(jì)劃逐步開源訓(xùn)練數(shù)據(jù)集及相關(guān)代碼腳本。

圖片

剖析 PLM:1+1 能否大于 2?

圖片

核心模塊一:Multi-head Latent Attention(MLA)—— 把 KV 緩存壓縮到極致

PLM 采用了 Deepseek 提出的 MLA(Multi-Head Latent Attention)注意力機(jī)制,并首次將其應(yīng)用于 2B 參數(shù)以下的模型中。為適應(yīng)端側(cè)系統(tǒng)的需求,PLM 對(duì) Deepseek 的 MLA 進(jìn)行了適度優(yōu)化,去除了訓(xùn)練階段用于降低成本的 Q 矩陣壓縮過程,同時(shí)保留了 KV 矩陣的 512 維度。此外,PLM 通過解耦的位置編碼機(jī)制,確保了模型對(duì)長(zhǎng)程依賴信息的有效捕捉。

核心模塊二:平方 ReLU 激活 —— 讓計(jì)算「稀疏化」

PLM 通過去除門控機(jī)制簡(jiǎn)化了前饋神經(jīng)網(wǎng)絡(luò),從而有效降低了計(jì)算復(fù)雜度和內(nèi)存消耗。傳統(tǒng) SwiGLU 激活函數(shù)導(dǎo)致 MLP 層計(jì)算密集,而 PLM 采用了 ReLU2 作為替代。ReLU2 是一種在性能和稀疏性之間實(shí)現(xiàn)最優(yōu)平衡的激活函數(shù),特別適合稀疏計(jì)算場(chǎng)景。其定義如下:

圖片

這個(gè)設(shè)計(jì)使得 MLP 層激活稀疏度達(dá)到 90.9%,整體計(jì)算量減少 26%。此外,從硬件角度出發(fā),零值激活能夠觸發(fā)指令級(jí)優(yōu)化。這一設(shè)計(jì)理念成功地將模型與系統(tǒng)的聯(lián)合優(yōu)化整合到大語(yǔ)言模型架構(gòu)中。

訓(xùn)練策略:充分利用開源數(shù)據(jù)

三階段鍛造 PLM-1.8B

PLM 團(tuán)隊(duì)精心設(shè)計(jì)了一條訓(xùn)練流水線,僅使用未精細(xì)設(shè)計(jì)與配比的 2.48B 預(yù)訓(xùn)練數(shù)據(jù),PLM 性能就達(dá)到企業(yè)級(jí)水平。所有訓(xùn)練數(shù)據(jù)均來自開源社區(qū)。

圖片

預(yù)訓(xùn)練

圖片

第一階段累計(jì)約 1.65T 的 Token。這個(gè)階段中,學(xué)習(xí)率是屬于預(yù)熱和穩(wěn)定的階段,模型的 Loss 也在 2.3 附近有收斂趨勢(shì)。第二階段累計(jì)約 550B 的 Token。在這個(gè)階段,模型的 Loss 隨著學(xué)習(xí)的衰減快速下降。第三階段累計(jì)約 280B 的 Token。

這個(gè)階段里,保持第二階段的最小學(xué)習(xí)率訓(xùn)練,模型進(jìn)行最后的高質(zhì)量知識(shí)吸收,直到 loss 逐漸收斂。整個(gè)預(yù)訓(xùn)練中,始終保持中英數(shù)據(jù)比例 5:2。  

圖片

SFT 階段

監(jiān)督微調(diào)數(shù)據(jù)遵循「由淺入深」的數(shù)據(jù)準(zhǔn)備方法,以漸進(jìn)的方式進(jìn)行監(jiān)督微調(diào)過程。PLM 的 SFT 訓(xùn)練分為基本指令微調(diào)和高難度指令微調(diào)。下面是各個(gè)階段的提升效果。

圖片

強(qiáng)化學(xué)習(xí)階段

PLM 在偏好訓(xùn)練階段沿用了團(tuán)隊(duì)先前提出的 ARIES 訓(xùn)練方法,以解決經(jīng)過一般的對(duì)齊學(xué)習(xí)會(huì)經(jīng)多輪自我改進(jìn)后,性能會(huì)顯著下降的問題。

圖片

性能實(shí)測(cè):真的可以

PLM 采用獨(dú)特的模型架構(gòu),對(duì)比的基線模型涵蓋了當(dāng)前最先進(jìn)的 2B 參數(shù)量級(jí)模型,具體對(duì)比如下。 

圖片

實(shí)驗(yàn)表明,PLM 表現(xiàn)頗具競(jìng)爭(zhēng)力,平均分(57.29)位列第三,僅次于 Qwen2.5-1.5B(59.25)和 Yulan-Mini-2.4B(57.51)。PLM-1.8B 在 HumanEval 中獲得了所有模型中的最高分,在 ARC-C、ARC-E、MBPP 和 BoolQ 中排名第二,略遜于行業(yè)領(lǐng)先的 Qwen2.5-1.5B,需指出的是,Qwen 系列使用了 18T 閉源語(yǔ)料庫(kù)。

另一方面,與 Yulan-Mini-2.4B 相比,PLM-1.8B 在編碼和邏輯推理任務(wù)中旗鼓相當(dāng)。此外,PLM 僅包含 1.8B 參數(shù)和 32 層(Yulan-Mini 為 56 層),推理延遲會(huì)較低。綜上所述,PLM-1.8B 在基本知識(shí)理解、編碼和簡(jiǎn)單推理任務(wù)中表現(xiàn)強(qiáng)勁且可靠,是一款值得關(guān)注的模型。

圖片

場(chǎng)景實(shí)測(cè):從服務(wù)器到樹莓派,全場(chǎng)景通吃

除了基本的模型能力評(píng)估,PLM 團(tuán)隊(duì)還在在 5 類硬件平臺(tái)完成部署驗(yàn)證,并給出了實(shí)際的吞吐量數(shù)據(jù)。

圖片

文章全面評(píng)估了不同硬件平臺(tái)和量化級(jí)別的各種邊緣大小 LLM 的推理延遲,包括高性能 GPU(NVIDIA A10、Orin NX)、Apple 的 M3 芯片、Qualcomm 的 Snapdragon 8 Gen 3 和 BCM2712 等嵌入式系統(tǒng)。

評(píng)估數(shù)據(jù)揭示了幾個(gè)顯著特征:MLA 的確增加了計(jì)算量,ReLU2 的確可以提升模型推理速度,模型層數(shù)會(huì)顯著影響端側(cè)設(shè)備上推理的速度。

PLM 團(tuán)隊(duì)的實(shí)驗(yàn)表明,這些關(guān)鍵點(diǎn)恰好觸及了端側(cè)計(jì)算中最需要關(guān)注的內(nèi)存、算力和 I/O 三個(gè)核心維度。PLM 團(tuán)隊(duì)通過模型與硬件的協(xié)同設(shè)計(jì),在這一領(lǐng)域展現(xiàn)了其獨(dú)特的優(yōu)勢(shì)。

算法層面,PLM 做到了稀疏性與低秩的平衡:MLA 壓縮 KV 緩存,ReLU2 激活削減計(jì)算,二者互補(bǔ)突破內(nèi)存 - 算力瓶頸。系統(tǒng)層面,PLM 深度適配 TVM、llama.cpp 等框架,實(shí)現(xiàn)高效的量化與編譯優(yōu)化。

理解 PLM 的 MLA 和稀疏激活

在實(shí)際探索中,MLA 的引入會(huì)顯著增加計(jì)算量。然而,PLM 通過舍棄 Q 矩陣的低秩壓縮來降低推理計(jì)算復(fù)雜度,并結(jié)合稀疏激活函數(shù),成功避免了 MiniCPM3 在預(yù)填充或解碼階段的低效問題,從而在特定場(chǎng)景中展現(xiàn)出明顯優(yōu)勢(shì)。

圖片


PLM 團(tuán)隊(duì)在較長(zhǎng)文本序列上評(píng)估了其模型性能,結(jié)果表明,當(dāng)序列長(zhǎng)度達(dá)到一定閾值后,PLM 的表現(xiàn)優(yōu)于同深度的 GQA 模型 Fox。

因此,盡管 MLA 增加了計(jì)算負(fù)載,其對(duì)緩存利用率、推理效率和內(nèi)存消耗的優(yōu)化,使得 PLM 在邊緣設(shè)備上展現(xiàn)出高效、低延遲的性能,為實(shí)際應(yīng)用提供了顯著優(yōu)勢(shì)。

再來看 PLM 的稀疏化設(shè)計(jì),在邊緣模型中展現(xiàn)出了更高的普適性與高效性。從系統(tǒng)角度來看,零計(jì)算已被高度優(yōu)化,使得稀疏化在邊緣設(shè)備上的部署帶來顯著性能提升。

此外,由于邊緣設(shè)備的計(jì)算資源有限,模型通常無法完全加載到 GPU 或 RAM,需要 OffLoad 到緩存甚至存儲(chǔ)中。在此情況下,深度學(xué)習(xí)模型可采用分層加載,將當(dāng)前所需參數(shù)調(diào)入計(jì)算單元。

因此,最小化每層計(jì)算量至關(guān)重要。PLM 通過 KV 緩存存儲(chǔ)與稀疏激活減少計(jì)算開銷,有效緩解該問題。

PLM 團(tuán)隊(duì)實(shí)驗(yàn)驗(yàn)證了推理所需的最小參數(shù)量。他們對(duì)所有模型進(jìn)行相同稀疏化(即將激活函數(shù)后的最小值設(shè)為 0),并測(cè)試保持建模性能(困惑度下降 1)所需的最少參數(shù)量(如下圖)。

圖片

具體而言,PLM 團(tuán)隊(duì)繪制了稀疏率(0~1)與困惑度差異的關(guān)系圖,以分析神經(jīng)激活減少的性能成本。不同模型的曲線揭示了各自對(duì)稀疏度的敏感性。理論上的「理想點(diǎn)」—— 完全稀疏且困惑度不增加 —— 是無法實(shí)現(xiàn)的,因?yàn)?MLP 層完全停用將損害模型質(zhì)量。

圖片

在此背景下,PLM 展現(xiàn)出顯著優(yōu)勢(shì),僅需激活 74.3% 參數(shù),MLP 稀疏率達(dá) 90.9%,遠(yuǎn)低于同等規(guī)模模型,推理所需參數(shù)量最低。

PLM 團(tuán)隊(duì)已全面開放資源,為社區(qū)提供了一個(gè)小型且易于使用的 MLA 模型,使科研工作者能夠在消費(fèi)級(jí)顯卡上開展對(duì) MLA 的研究。同時(shí),PLM 為端側(cè)應(yīng)用廠商提供了一個(gè)高性能的端側(cè)模型,拓寬了選擇范圍,并支持基于 PLM 稀疏激活架構(gòu)的高效模型部署與開發(fā)。

結(jié)語(yǔ)

學(xué)術(shù)界在大規(guī)模模型結(jié)構(gòu)實(shí)驗(yàn)方面面臨諸多挑戰(zhàn),而堅(jiān)持從頭預(yù)訓(xùn)練的團(tuán)隊(duì)更是少之又少。PLM 團(tuán)隊(duì)在計(jì)算資源有限和數(shù)據(jù)質(zhì)量參差不齊的情況下,始終堅(jiān)信開源社區(qū)提供的數(shù)據(jù)和技術(shù)能夠?yàn)閷W(xué)術(shù)界的持續(xù)探索提供強(qiáng)大支持。

未來,PLM 團(tuán)隊(duì)將繼續(xù)致力于探索適用于邊緣設(shè)備的大模型,訓(xùn)練更具創(chuàng)新性的架構(gòu),并實(shí)現(xiàn)更高效的邊緣設(shè)備部署。PLM 團(tuán)隊(duì)認(rèn)為,未來的語(yǔ)言模型不應(yīng)僅僅是參數(shù)的堆砌,而應(yīng)是效率與智能的精密平衡。PLM的探索,正是向著這一理想邁出的關(guān)鍵一步。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-10-14 13:40:00

2024-10-08 15:20:00

AI安全

2024-06-24 08:25:00

2024-11-29 14:10:00

神經(jīng)網(wǎng)絡(luò)AI

2025-03-19 09:10:00

2023-12-26 12:12:01

模型訓(xùn)練

2025-05-26 09:16:00

2024-07-10 12:38:22

2017-11-28 11:34:29

深度學(xué)習(xí)樹搜索二元處理機(jī)制

2022-04-12 15:05:22

機(jī)器人研究人工智能

2025-01-02 13:41:53

2025-05-06 15:32:23

模型AI測(cè)試

2020-08-06 09:51:38

人工智能犯罪技術(shù)

2022-01-17 17:34:38

人工智能機(jī)器學(xué)習(xí)技術(shù)

2023-12-07 06:52:54

AI化學(xué)

2024-11-04 10:20:00

模型數(shù)據(jù)

2021-03-22 10:05:03

算法可視化大數(shù)據(jù)

2024-10-23 09:00:00

2024-01-26 16:33:00

2024-11-13 15:00:00

模型數(shù)據(jù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 亚洲国产精品一区二区第一页 | 欧美在线视频一区二区 | 噜噜噜噜狠狠狠7777视频 | 亚洲视频二区 | 99在线免费视频 | 精品一区二区三区四区视频 | 精品国产一区二区三区成人影院 | 亚州国产 | 亚洲国产中文字幕 | 亚洲一区二区三区视频 | 精品视频国产 | 色片在线观看 | 欧美成人精品二区三区99精品 | 午夜视频一区 | 国产乱码精品一区二区三区五月婷 | 一级免费在线视频 | 81精品国产乱码久久久久久 | 午夜免费观看网站 | 久久精品一级 | 欧美高清一区 | 欧美精品一区二区在线观看 | 午夜爱爱网| 亚洲乱码国产乱码精品精98午夜 | 一区二区不卡视频 | 黄视频网站在线 | 91精品国产综合久久精品 | 亚洲 中文 欧美 日韩 在线观看 | 亚洲精品国产成人 | 在线天堂免费中文字幕视频 | 亚洲精品福利在线 | 中文字幕在线视频精品 | 亚洲最大福利网 | 日本视频在线 | 亚洲精品久久久久久一区二区 | 久久久成人动漫 | 日韩电影一区二区三区 | 国产欧美日韩精品一区 | 91视频久久 | 欧美精品一区二区三区四区五区 | 日韩中出 | 自拍偷拍第1页 |