成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<blockquote id="16611"><option id="16611"></option></blockquote>

<label id="16611"></label>

<video id="16611"><pre id="16611"><center id="16611"></center></pre></video>

<table id="16611"><abbr id="16611"></abbr></table>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

80億參數(shù)的MiniCPM4：為邊緣AI量身定制的高效語言模型原創(chuàng) 精華

發(fā)布于 2025-6-20 06:29

瀏覽

0收藏

在當(dāng)今數(shù)字化時(shí)代，語言模型已經(jīng)成為人工智能系統(tǒng)的核心組件，廣泛應(yīng)用于多語言翻譯、虛擬助手和自動(dòng)化推理等任務(wù)。然而，這些功能強(qiáng)大的模型通常需要強(qiáng)大的云端基礎(chǔ)設(shè)施來支持其訓(xùn)練和推理過程。這種依賴不僅會(huì)導(dǎo)致延遲和高昂的成本，還會(huì)引發(fā)隱私問題，限制了它們?cè)谫Y源受限的邊緣設(shè)備上的部署。例如，像GPT和LLaMA這樣擁有數(shù)十億參數(shù)的模型，由于其龐大的體積和復(fù)雜的訓(xùn)練推理過程，無法在本地硬件上高效運(yùn)行。它們對(duì)大規(guī)模數(shù)據(jù)集和高性能GPU的依賴，使得它們?cè)谝苿?dòng)或嵌入式環(huán)境中顯得格格不入。為了克服這些挑戰(zhàn)，開發(fā)能夠在本地高效運(yùn)行且不犧牲推理和上下文處理能力的輕量級(jí)高效模型，已經(jīng)成為當(dāng)務(wù)之急。

現(xiàn)有解決方案的局限性

為了應(yīng)對(duì)這些挑戰(zhàn)，人們已經(jīng)探索了多種方法。例如，稀疏注意力機(jī)制（如NSA和MoBA）旨在減少內(nèi)存消耗，但它們要么在解碼效率上不盡如人意，要么引入了顯著的架構(gòu)開銷。在數(shù)據(jù)處理方面，以往的方法依賴于大規(guī)模網(wǎng)絡(luò)爬取，導(dǎo)致數(shù)據(jù)集噪聲大且結(jié)構(gòu)松散。過濾方法包括使用fastText分類器和人工篩選，但這些方法要么缺乏深度，要么難以擴(kuò)展。在訓(xùn)練方面，像StepLaw這樣的框架雖然可以根據(jù)可預(yù)測(cè)的擴(kuò)展規(guī)律優(yōu)化超參數(shù)，但往往需要大量的實(shí)驗(yàn)和GPU計(jì)算周期，這無疑為入門設(shè)置了障礙。在推理優(yōu)化方面，F(xiàn)lashAttention等技術(shù)雖然降低了計(jì)算復(fù)雜度，但仍未能達(dá)到邊緣設(shè)備實(shí)時(shí)應(yīng)用所需的速度。

MiniCPM4：高效架構(gòu)、數(shù)據(jù)和推理的結(jié)合

在這種背景下，OpenBMB的研究人員推出了MiniCPM4，這是一套專為設(shè)備端部署而設(shè)計(jì)的高效大型語言模型。該模型包括兩個(gè)版本：一個(gè)擁有5億參數(shù)，另一個(gè)擁有80億參數(shù)。MiniCPM4在模型架構(gòu)、訓(xùn)練數(shù)據(jù)、訓(xùn)練算法和推理系統(tǒng)四個(gè)核心維度上進(jìn)行了改進(jìn)。在架構(gòu)方面，團(tuán)隊(duì)引入了InfLLM v2，這是一種稀疏注意力機(jī)制，能夠在不犧牲上下文理解的情況下加速預(yù)填充和解碼過程。在數(shù)據(jù)方面，UltraClean被用于生成和篩選訓(xùn)練數(shù)據(jù)集，使得模型僅需使用8萬億訓(xùn)練標(biāo)記，相較于Qwen3-8B等競(jìng)爭(zhēng)模型所需的36萬億標(biāo)記，大大減少了數(shù)據(jù)量。ModelTunnel v2指導(dǎo)了訓(xùn)練過程，通過高效的超參數(shù)調(diào)整，而CPM.cu則負(fù)責(zé)處理推理任務(wù)，實(shí)現(xiàn)了平臺(tái)無關(guān)的CUDA基礎(chǔ)執(zhí)行。

80億參數(shù)的MiniCPM4：為邊緣AI量身定制的高效語言模型-AI.x社區(qū)

MiniCPM4的技術(shù)創(chuàng)新

MiniCPM4的技術(shù)棧旨在在性能和資源利用之間取得平衡。InfLLM v2將鍵值緩存劃分為塊，并使用語義內(nèi)核選擇最相關(guān)的K個(gè)塊進(jìn)行注意力計(jì)算，與NSA相比，注意力計(jì)算減少了60%。其動(dòng)態(tài)上下文塊選擇和基于標(biāo)記的查詢組處理使其能夠支持長(zhǎng)達(dá)128K標(biāo)記的序列，同時(shí)保持速度和連貫性。UltraClean依賴于高效的數(shù)據(jù)驗(yàn)證，利用預(yù)訓(xùn)練的LLM和基于退火的微調(diào)，在100億標(biāo)記上進(jìn)行訓(xùn)練。這使得其生成的高質(zhì)量數(shù)據(jù)集UltraFineWeb（英文）和UltraFineWeb-zh（中文）在平均基準(zhǔn)性能上分別超過了FineWeb 3.61和1.98個(gè)百分點(diǎn)。UltraChat v2進(jìn)一步通過生成富有推理能力的多輪對(duì)話來支持訓(xùn)練后微調(diào)。

80億參數(shù)的MiniCPM4：為邊緣AI量身定制的高效語言模型-AI.x社區(qū)

基準(zhǔn)性能和速度提升

在原始性能方面，80億參數(shù)版本的MiniCPM4在MMLU測(cè)試中得分為32.24%，超過了FineWeb（28.84%）和FineWeb-edu（31.80%）。在ARC-C和ARC-E測(cè)試中，其得分分別為35.67%和70.62%，均超過了競(jìng)爭(zhēng)數(shù)據(jù)集超過10個(gè)百分點(diǎn)。與Qwen3-8B相比，MiniCPM4僅使用了22%的訓(xùn)練數(shù)據(jù)，但在處理128K長(zhǎng)度文檔時(shí)，其在邊緣端GPU（如Jetson AGX Orin和RTX 4090）上的推理速度提高了7倍。對(duì)于長(zhǎng)上下文輸入，平均解碼速度超過了每秒200個(gè)標(biāo)記，而對(duì)于較短序列，架構(gòu)則優(yōu)雅地退化為密集注意力。此外，BitCPM4啟用了量化感知訓(xùn)練，使得模型能夠在內(nèi)存限制更嚴(yán)格的設(shè)備上部署，而不會(huì)損失性能保真度。

80億參數(shù)的MiniCPM4：為邊緣AI量身定制的高效語言模型-AI.x社區(qū)

MiniCPM4的關(guān)鍵要點(diǎn)

MiniCPM4提供5億和80億參數(shù)兩種版本，專為邊緣設(shè)備優(yōu)化。
它僅使用了8萬億訓(xùn)練標(biāo)記，而Qwen3-8B則使用了36萬億。
在處理128K長(zhǎng)度文檔時(shí)，其速度比Qwen3-8B快7倍。
InfLLM v2通過塊級(jí)注意力將注意力計(jì)算成本降低了60%。
UltraFineWeb在英文基準(zhǔn)測(cè)試中比FineWeb高出3.61%，中文基準(zhǔn)測(cè)試高出1.98%。
在ARC-C上達(dá)到35.67%，在ARC-E上達(dá)到70.62%，在MMLU上達(dá)到32.24%，均超過了之前的數(shù)據(jù)集。
BitCPM4使得三元LLM適合于極其受限的硬件。
CPM.cu推理系統(tǒng)結(jié)合了CUDA優(yōu)化和推測(cè)性采樣。
UltraChat v2通過生成推理密集型對(duì)話來增強(qiáng)微調(diào)。
ModelTunnel v2使用ScalingBench進(jìn)行精確的超參數(shù)調(diào)整，提高了訓(xùn)練效率。

結(jié)論：為邊緣AI應(yīng)用打造高效的LLM

總之，MiniCPM4團(tuán)隊(duì)采取的全面方法解決了當(dāng)前LLM的所有關(guān)鍵低效問題。通過引入新的架構(gòu)、訓(xùn)練和部署策略，該模型在保持高質(zhì)量響應(yīng)的同時(shí)，支持長(zhǎng)上下文理解，并在邊緣約束下表現(xiàn)良好。這項(xiàng)工作的成功不僅體現(xiàn)在原始指標(biāo)上，還證明了在云端之外實(shí)現(xiàn)最先進(jìn)的性能是可能的。它為新的應(yīng)用領(lǐng)域鋪平了道路，例如安全離線助手、實(shí)時(shí)移動(dòng)AI和自主嵌入式系統(tǒng)，而無需傳統(tǒng)的計(jì)算負(fù)擔(dān)。

本文轉(zhuǎn)載自??Halo咯咯?? 作者：基咯咯

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

已于2025-6-20 06:29:57修改

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

80M參數(shù)打平GPT-4！蘋果發(fā)超強(qiáng)上下文理解模型，聰明版Siri馬上就來

duhorse ? 2843瀏覽 ? 0回復(fù)
讓大模型不再「巨無霸」，這是一份最新的大模型參數(shù)高效微調(diào)綜述

輕薄滴假象 ? 2692瀏覽 ? 0回復(fù)
速度秒殺GPT-4o！Mistral開源首個(gè)22B代碼模型破記錄，支持80+編程語言

duhorse ? 3473瀏覽 ? 0回復(fù)
AI生圖可“量身定制”了，華為&清華聯(lián)手打造個(gè)性化多模態(tài)生成方法PMG

Crystalcxt ? 2663瀏覽 ? 0回復(fù)
邊緣計(jì)算與AI：分布式智能的應(yīng)用前景

jim3000 ? 2787瀏覽 ? 0回復(fù)
定制你的AI助手：大型語言模型適配方法詳解

芝士AI吃魚 ? 2811瀏覽 ? 0回復(fù)
專用于法律的兩個(gè)開源大模型，最高1410億參數(shù)

Aceryt ? 3335瀏覽 ? 0回復(fù)
AI界的"小而美"：Mistral AI的最新力作如何重新定義邊緣計(jì)算 | 多智能體協(xié)作讓大語言模型訓(xùn)練效率暴增

sbf_2000 ? 2575瀏覽 ? 0回復(fù)
超級(jí)新星降臨：Arcee AI發(fā)布SuperNova-Medius，14億參數(shù)的小模型，大作為！

Halo咯咯 ? 2932瀏覽 ? 0回復(fù)
超GPT-4o，1240億參數(shù)！最強(qiáng)開源多模態(tài)模型 Pixtral Large！

Aceryt ? 2549瀏覽 ? 0回復(fù)
Omnivision-968M：最小多模態(tài)模型，為邊緣設(shè)備而生！

kede96 ? 5756瀏覽 ? 0回復(fù)
NVIDIA AI 推出 Fugatto：一個(gè) 25 億參數(shù)的音頻模型，可從文本和音頻輸入生成音樂、語音和聲音

Halo咯咯 ? 2563瀏覽 ? 0回復(fù)
LanceDB：為 AI 應(yīng)用打造的高效嵌入式向量數(shù)據(jù)庫

Syrupup ? 8912瀏覽 ? 0回復(fù)
來認(rèn)識(shí)一下 Ivy-VL：一種僅包含 30 億個(gè)邊緣設(shè)備參數(shù)的輕量級(jí)多模態(tài)模型

Halo咯咯 ? 2856瀏覽 ? 0回復(fù)
OpenBMB 剛剛發(fā)布 MiniCPM-o 2.6：新的 8B 參數(shù)、Any-to-Any 多模態(tài)模型

Halo咯咯 ? 4297瀏覽 ? 0回復(fù)
快來試試智能爬蟲Crawl4AI，開源高效，專為AI量身打造！附實(shí)測(cè)效果

AI博物院 ? 5986瀏覽 ? 0回復(fù)
【AI 界大地震】AMD 開源 30 億參數(shù)大模型 Instella：性能碾壓同類，訓(xùn)練成本暴跌 80%？

Halo咯咯 ? 1885瀏覽 ? 0回復(fù)
AMD開源30億小參數(shù)模型，媲美Qwen-2.5

Aceryt ? 1642瀏覽 ? 0回復(fù)
LLaMA 4深度解析：多模態(tài)、長(zhǎng)文本與高效推理，AI模型的“全能戰(zhàn)士”誕生了！

Halo咯咯 ? 1650瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

熱門推薦

LLaMA 4深度解析：多模態(tài)、長(zhǎng)文本與高效推理，AI模型的“全能戰(zhàn)士”誕生了！ 0回復(fù)

2025年必備的八種AI模型：別再把所有AI都叫LLM了！ 0回復(fù)

AI Agent面試寶典：30個(gè)核心問題及答案，讓你在面試中脫穎而出 0回復(fù)

AI Agents開源工具棧全解析~ 1回復(fù)

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

上一篇：企業(yè)效率大提升！Agentic Workflows帶來自動(dòng)化新突破

下一篇： AI Agents-7 | Muti-Agent的架構(gòu)解析

社區(qū)精華內(nèi)容

目錄

主站蜘蛛池模板：中文字幕一区二区三区在线视频 | 日本在线你懂的 | 久久精品国产一区二区电影 | 日日干日日 | 午夜视频免费在线观看 | 亚洲一区二区中文字幕 | 在线午夜电影 | 国产探花在线精品一区二区 | 国产视频福利一区 | 欧美精品黄 | 午夜私人影院在线观看 | 欧美又大粗又爽又黄大片视频 | 成年网站在线观看 | 日本在线中文 | 99热首页| 国产精品无码久久久久 | 99在线资源 | 久久精品亚洲精品国产欧美 | 国产一区二区av | 成人欧美一区二区三区黑人孕妇 | 另类综合日韩欧美亚洲 | 国产乱码精品一区二区三区中文 | 精品免费国产一区二区三区四区介绍 | 欧美专区日韩专区 | 久久久久久免费精品一区二区三区 | 国产精品久久久久999 | 99久久精品国产毛片 | 亚洲国产精久久久久久久 | 久久男人| 国产91九色 | 成人在线精品视频 | 久久成人人人人精品欧 | 成人欧美一区二区三区黑人孕妇 | 日韩在线中文 | 亚洲视频中文字幕 | 99re6在线视频精品免费 | 亚洲综合大片69999 | 日本不卡一区 | av在线电影网 | 欧美国产91 | 欧美福利视频 |

<blockquote id="11661"><samp id="11661"></samp></blockquote>

_{<cite id="11661"></cite>}

<form id="11661"></form>