成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<optgroup id="imqmg"></optgroup>

<button id="imqmg"><tr id="imqmg"></tr></button>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

開源的輕量化VLM-SmolVLM模型架構、數據策略及其衍生物PDF解析模型SmolDocling 原創

大模型自然語言處理

發布于 2025-5-8 06:48

瀏覽

0收藏

在《??多模態大模型輕量化探索-視覺大模型SAM的視覺編碼器???》介紹到，縮小視覺編碼器的尺寸，能夠有效的降低多模態大模型的參數量。再來看一個整體的工作，從視覺側和語言模型側綜合考量模型參數量的平衡模式，進一步降低參數量，甚至最小達256M參數量，推理時顯存占用<1GB。下面來看看，僅供參考。

模型架構

開源的輕量化VLM-SmolVLM模型架構、數據策略及其衍生物PDF解析模型SmolDocling-AI.x社區

SmolVLM 架構。圖像被分割成子圖像，從視頻中采樣幀，然后編碼成視覺特征。這些特征首先通過像素重排，然后通過MLP投影映射到LLM輸入空間作為視覺標記。然后，視覺標記與文本嵌入（橙色/紅色）連接/交錯。這個組合序列被傳遞給LLM進行文本輸出。

那么，如何設計一個高效的小型多模態模型架構？

Q1：如何在視覺和語言模型之間分配計算？

傳統大型VLMs（如Flamingo）將90%以上參數分配給語言模型（LM），但SmolVLM發現：小規模LM需重新平衡視覺與語言的計算資源。

研究方法：將三種不同規模的SmolLM2變體（135M、360M和1.7B參數）與兩種SigLIP編碼器（一個緊湊的93M SigLIP-B/16和一個較大的428M SigLIP-SO400M）進行配對。

發現：通常情況下，較大的VLM會不均衡地將參數分配給語言模型，但在小型模型中，這種分配方式不再適用。當使用大型編碼器與最小的LM（135M）時，性能顯著下降，表明這種配置效率低下。在中等規模的LM（360M）中，較大的編碼器可以提高性能，但會增加66%的參數。只有在最大的LM（1.7B）中，較大的編碼器僅增加10%的參數。

結論：緊湊的多模態模型受益于平衡的編碼器-LM參數分配，使得較小的視覺編碼器在效率上更具優勢。即：模型越小，視覺編碼器應更輕量，避免“頭重腳輕”。當使用具有最小LM（135M）的大編碼器時，性能顯著下降，突顯了編碼器-LM平衡效率低下。在中等LM規模（360M）時，較大的編碼器將性能提高了11.6%，但這也伴隨著參數增加了66%，使得緊湊型編碼器更可取。只有在最大的LM規模（1.7B）時，較大的編碼器僅代表參數增加了10%。

開源的輕量化VLM-SmolVLM模型架構、數據策略及其衍生物PDF解析模型SmolDocling-AI.x社區

Q2：如何有效地將圖像傳遞給語言模型？

如何支持長上下文與對視覺token進行壓縮？為了提高模型的上下文處理能力，采用了自注意力架構，其中視覺Token與文本token連接，并由語言模型共同處理。這種方法需要比SmolLM2的2ktoken限制更多的上下文。

研究方法：通過增加RoPE基數從10k到273k來擴展上下文容量，并在長上下文數據（如Dolma書籍和The Stack）和短上下文數據（如FineWeb-Edu、DCLM和SmolLM2的數學數據）上進行微調。

發現：擴展上下文窗口對緊湊VLM有顯著的好處。對于1.7B的LM，微調在16ktoken時表現穩定，但對于較小的模型（135M和360M），在超過8k token時表現不佳。因此，研究者們為SmolVLM采用了16k token的上下文，并為較小的變體設定了8k token的限制。

開源的輕量化VLM-SmolVLM模型架構、數據策略及其衍生物PDF解析模型SmolDocling-AI.x社區

像素重排：重新排列編碼圖像，以增加通道深度為代價換取空間分辨率。這減少了視覺標記數量，同時保持信息密度。

開源的輕量化VLM-SmolVLM模型架構、數據策略及其衍生物PDF解析模型SmolDocling-AI.x社區

原理：將2×2空間區域重組為通道維度（上圖），token數減少4倍（r=2時）。

開源的輕量化VLM-SmolVLM模型架構、數據策略及其衍生物PDF解析模型SmolDocling-AI.x社區

較小的VLMs從更激進的壓縮（r = 4）中受益，因為減少的token數減輕了注意力開銷并改善了長上下文建模

對比基線：InternVL等使用r=2，但SmolVLM證明小模型需更激進壓縮。

結論：小型VLM顯著受益于擴展的上下文長度。

Q3：如何有效地編碼圖像和視頻？

在多模態建模中，平衡圖像和視頻之間的token分配至關重要。圖像通常需要更高的分辨率和更多的token來保持質量，而視頻則需要更少的token來高效處理長序列。

研究方法：采用了一種圖像分割策略，靈感來自UReader和SPHINX，將高分辨率圖像分割成多個子圖像，并保留原始圖像的縮小版本。這種方法在不增加過多計算開銷的情況下保持了圖像質量。

視頻處理：對于視頻，發現幀平均策略會負面影響性能（下圖）。因此，選擇不采用幀平均策略，而是將視頻幀重新縮放到圖像編碼器的分辨率。

開源的輕量化VLM-SmolVLM模型架構、數據策略及其衍生物PDF解析模型SmolDocling-AI.x社區

結論：對于小型模型，圖像分割增強了視覺任務的表現，而視頻幀平均則不適用。

數據策略

數據配比：最終訓練集含14%文本、33%視頻、53%圖像

開源的輕量化VLM-SmolVLM模型架構、數據策略及其衍生物PDF解析模型SmolDocling-AI.x社區

視覺（左側）和視頻（右側）的訓練數據集詳情，按模態和子類別細分

性能

開源的輕量化VLM-SmolVLM模型架構、數據策略及其衍生物PDF解析模型SmolDocling-AI.x社區

開源的輕量化VLM-SmolVLM模型架構、數據策略及其衍生物PDF解析模型SmolDocling-AI.x社區

衍生模型-端到端的PDF解析多模態模型SmolDocling

模型結構：就是SmolVLM

開源的輕量化VLM-SmolVLM模型架構、數據策略及其衍生物PDF解析模型SmolDocling-AI.x社區

訓練數據（該模型核心）：訓練數據構造上，引入了一種新的文檔標記格式DocTags，用于標準化文檔轉換，這個是核心意義。DocTags定義了一個明確的標簽和規則集，以分離文本內容和文檔結構，從而提高圖像到序列模型的性能，如下圖：

開源的輕量化VLM-SmolVLM模型架構、數據策略及其衍生物PDF解析模型SmolDocling-AI.x社區

對應的語法：

開源的輕量化VLM-SmolVLM模型架構、數據策略及其衍生物PDF解析模型SmolDocling-AI.x社區

從上面類XML標簽語法看來，感覺設計的非常冗余。整體上結合模型架構也沒什么特殊的創新點，并且，之前被自媒體吹得性能很強，實際上，該模型還是demo玩具。個人使用后觀點。

參考文獻：SmolVLM: Redefining small and efficient multimodal models，https://arxiv.org/pdf/2504.05299

開源地址：https://github.com/huggingface/smollm

公眾號大模型自然語言處理作者：余俊暉

原文鏈接：??https://mp.weixin.qq.com/s/2ZQKauOyMCDdXkzbFoDMhw??

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

多模態模型架構

已于2025-5-8 06:48:33修改

贊

收藏

回復

舉報

回復

相關推薦

Mol-Instructions: 面向大模型的大規模生物分子指令數據集

mb5f8eba9bdb0af ? 2477瀏覽 ? 0回復
一文詳解視覺Transformer模型壓縮和加速策略(量化/低秩近似/蒸餾/剪枝)

angel ? 5621瀏覽 ? 0回復
字節開源大模型量化新思路，2-bit量化模型精度齊平fp16

輕薄滴假象 ? 3605瀏覽 ? 0回復
AlphaFold 3不開源，統一生物語言大模型阿里云先開了！

Crystalcxt ? 2456瀏覽 ? 0回復
RAG之PDF文件中多種格式數據解析實踐

玄姐聊AGI ? 4876瀏覽 ? 0回復
Gptpdf：一個簡單巧妙的復雜Pdf解析工具，提升RAG效果

Syrupup ? 6039瀏覽 ? 0回復
深度學習中生成模型的工作原理：解析用于數據增強的生成模型

51CTO內容精選 ? 3972瀏覽 ? 0回復
輕松解析本地PDF表格，基于LlamaIndex和UnstructuredIO打造RAG

小虎哦哦 ? 5495瀏覽 ? 0回復
五款小型多模態AI模型及其功能

51CTO內容精選 ? 2675瀏覽 ? 0回復
DeepSeek-VL2開源，VLM邁入MoE時代！

xuxiangda ? 3437瀏覽 ? 0回復
大模型底座之向量化，以及向量化的原理

AI探索時代 ? 5477瀏覽 ? 0回復
輕量化AI的崛起：蒸餾模型如何在資源有限中大放異彩

Halo咯咯 ? 2672瀏覽 ? 0回復
AIGC 及其發展歷程，關鍵模型

parson2000 ? 2565瀏覽 ? 0回復
AI架構系列：picoLLM 大模型的量化魔術師

魯班模錘1 ? 1405瀏覽 ? 0回復
十大PDF解析工具在不同文檔類別中的比較研究

大模型自然語言處理 ? 1812瀏覽 ? 0回復
阿里ESMM模型解析：解決樣本偏差與數據稀疏的全空間建模！

南夏的算法驛站 ? 1630瀏覽 ? 0回復
多模態大模型輕量化探索-視覺大模型SAM的視覺編碼器

大模型自然語言處理 ? 706瀏覽 ? 0回復
LightPlanner：中科視語開源的輕量化具身推理大模型，賦能機器人高效決策

穿越時空111 ? 702瀏覽 ? 0回復
Qwen3 Embedding模型架構、訓練方法、數據策略

大模型自然語言處理 ? 816瀏覽 ? 0回復

大模型自然語言處理

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

GraphRAG變種：HippoRAG進化到HippoRAG2.0,提升多跳復雜推理性能 4天前發布
Qwen3 Embedding模型架構、訓練方法、數據策略 5天前發布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇：多模態大模型輕量化探索-視覺大模型SAM的視覺編碼器

下一篇：開源多模態RAG的視覺文檔(OCR-Free)檢索增強生成方案-VDocRAG

社區精華內容

目錄

主站蜘蛛池模板：国产精品免费看 | 91精品综合久久久久久五月天 | 国产成人99久久亚洲综合精品 | 欧美精品在线播放 | 国产精品成人久久久久a级久久蜜桃av一区二区天堂 | 欧美成人精品一区二区三区 | 日本久草视频 | 日本精品一区二区三区四区 | 亚洲日韩中文字幕一区 | 亚洲一区二区三区四区五区中文 | www.五月婷婷.com| 极品销魂美女一区二区 | 欧美做暖暖视频 | 91在线一区二区 | 韩日一区 | 欧美日韩免费一区二区三区 | 91精品在线播放 | 男女啪啪网址 | 超碰日本| 奇米四色在线观看 | 久久久久久久久91 | 龙珠z国语版在线观看 | 婷婷桃色网 | 国产精品日韩欧美一区二区三区 | 欧美日韩一区二区三区四区 | 久久久久久99 | 欧美视频免费在线 | 毛片在线免费 | 精品欧美乱码久久久久久1区2区 | jdav视频在线观看免费 | 日韩一区二区福利视频 | 亚洲精品视频在线看 | avtt国产 | 免费成人在线网站 | 国产成人精品一区二区在线 | 国产一区91精品张津瑜 | 欧美日本国产 | 国产精品mv在线观看 | 成人免费视频在线观看 | 日韩久久久久久 | 日韩欧美视频 |

<option id="gqom0"><abbr id="gqom0"></abbr></option>

<source id="gqom0"><td id="gqom0"></td></source>