成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<tfoot id="8c4q4"></tfoot>

<code id="8c4q4"></code>

<abbr id="8c4q4"></abbr>

<li id="8c4q4"></li>

<li id="8c4q4"></li>

<button id="8c4q4"></button>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

多模態大模型輕量化探索-視覺大模型SAM的視覺編碼器原創

大模型自然語言處理

發布于 2025-5-8 06:46

瀏覽

0收藏

往期，筆者基于LLava的數據對齊訓練，搞了一個??Reyes?多模態大模型，并且看了些多模態大模型，相關開源的多模態大模型如：KimiVL、Internvl、QwenVL等，其視覺編碼器的尺寸都比較大，如：MoonViT-SO-400M、InternViT-6B-448px-V2_5 等都非常大，對于特定的垂直場景（或者是端側落地都不大友好），也許并不需要這么大視覺編碼器。如：表格場景（??【多模態 & 文檔智能】一次多模態大模型表格識別解析探索小實踐記錄???），當時筆者用了一個8B參數的模型及百萬表格數據進行訓練達到了不錯的效果。近期，因此思考一些模型輕量化的方案，尋找一個輕量點的視覺編碼器（比如參數量小于100M），下面來看看SAM，供參考。

Segment Anything Model（SAM）是Meta AI發布的一個突破性圖像分割模型為計算機視覺領域提供一個通用的、靈活的基座視覺大模型。它受到自然語言處理（NLP）中基礎模型（如GPT、BERT）的啟發，強調零樣本遷移和提示式交互能力。在SA-1B數據集上的訓練，該數據集包含超過11百萬張圖像和11億個高質量分割掩碼，覆蓋了從日常場景到專業領域的多樣化內容。

多模態大模型輕量化探索-視覺大模型SAM的視覺編碼器-AI.x社區

SAM借鑒了NLP領域的Prompt策略，通過給圖像分割任務提供Prompt提示來完成任意目標的快速分割。Prompt類型可以是「前景/背景點集、粗略的框或遮罩、任意形式的文本或者任何指示圖像中需要進行分割」的信息。如圖(a)所示，模型的輸入是原始的圖像和一些prompt，目標是輸出"valid"的分割，所謂valid，就是當prompt的指向是模糊時，模型能夠輸出至少其中一個mask。

模型結構

多模態大模型輕量化探索-視覺大模型SAM的視覺編碼器-AI.x社區

SAM的模型結構由三個核心組件組成，Image Encoder、Prompt Encoder和Mask Decoder。分別負責圖像特征提取、提示編碼和掩碼生成。圖像經過Image Encoder編碼，Prompt提示經過Prompt Encoder編碼，兩部分Embedding再經過一個輕量化的Mask Decoder得到融合后的特征。其中，Encoder部分使用的是已有模型，Decoder部分使用Transformer。下表為三個組件的總結：

組件名稱	功能	關鍵特點
Image Encoder	將輸入圖像轉換為密集特征表示	使用MAE預訓練的Vision Transformer（ViT-H/16），輸入1024x1024x3，輸出64x64x256嵌入。
Prompt Encoder	將用戶提示（點、框、文本、掩碼）編碼為嵌入	支持稀疏提示（點、框、文本）和密集提示（掩碼），使用CLIP處理文本，靈活適應多種輸入。
Mask Decoder	結合圖像和提示嵌入，生成最終分割掩碼	輕量級Transformer解碼器，通過自注意力與交叉注意力機制預測掩碼，實時高效。

Image Encoder

本文的目的是為了尋找一個輕量化的視覺編碼器，因此下面來詳細看下視覺編碼器部分。Image Encoder的作用是把圖像映射到特征空間，整體過程如下圖所示。

多模態大模型輕量化探索-視覺大模型SAM的視覺編碼器-AI.x社區

正如論文中所講，本質上這個Encoder可以是任何網絡結構，在這里使用的是微調的Detectron的ViT，當然它也可以被改成傳統的卷積結構，非常合理。

多模態大模型輕量化探索-視覺大模型SAM的視覺編碼器-AI.x社區

可以看到，Image Encoder就是一個ViT的結構，由PatchEmbed、Transformer Encoder、Neck Convolution組成。

輸入圖像經過ViT結構的過程如下：

1.Patch Embedding
輸入圖像通過一個卷積base，將圖像劃分為16x16的patches，步長也為16，這樣feature map的尺寸就縮小了16倍，同時channel從3映射到768。Patch Embedding示意圖如下所示。

多模態大模型輕量化探索-視覺大模型SAM的視覺編碼器-AI.x社區

多模態大模型輕量化探索-視覺大模型SAM的視覺編碼器-AI.x社區

將輸入的圖像轉換為序列化的特征向量

Patch Embedding過程在Vision Transformer結構圖中對應下圖所示。

多模態大模型輕量化探索-視覺大模型SAM的視覺編碼器-AI.x社區

2.Transformer Encode
feature map通過16個Transformer Block，其中12個Block使用了基于Window Partition（就是把特征圖分成14*14的windows做局部的Attention）的注意力機制，以處理局部信息。另外4個Block是全局注意力模塊（多頭注意力），它們穿插在Window Partition模塊之間，以捕捉圖像的全局上下文。

多模態大模型輕量化探索-視覺大模型SAM的視覺編碼器-AI.x社區

多模態大模型輕量化探索-視覺大模型SAM的視覺編碼器-AI.x社區

循環疊加Transformer Encode

3.Neck Convolution
最后，通過兩層卷積（Neck）將通道數降低至256，生成最終的Image Embedding。其結構圖如下所示。

多模態大模型輕量化探索-視覺大模型SAM的視覺編碼器-AI.x社區

多模態大模型輕量化探索-視覺大模型SAM的視覺編碼器-AI.x社區

SAM構建與輕量化編碼器提取

通過下面代碼提取一個參數量大小僅為80幾M的視覺編碼器。

import torch
from functools import partial
from modeling import ImageEncoderViT, MaskDecoder, PromptEncoder, Sam, TwoWayTransformer


def build_sam_vit_b(checkpoint=None):
    return _build_sam(
        encoder_embed_dim=768,
        encoder_depth=12,
        encoder_num_heads=12,
        encoder_global_attn_indexes=[2, 5, 8, 11],
        checkpoint=checkpoint,
    )


sam_model_registry = {
    "vit_b": build_sam_vit_b,
}


def _build_sam(
        encoder_embed_dim,
        encoder_depth,
        encoder_num_heads,
        encoder_global_attn_indexes,
        checkpoint=None,
):
    prompt_embed_dim = 256
    image_size = 1024
    vit_patch_size = 16
    image_embedding_size = image_size // vit_patch_size
    sam = Sam(
        image_encoder=ImageEncoderViT(
            depth=encoder_depth,
            embed_dim=encoder_embed_dim,
            img_size=image_size,
            mlp_ratio=4,
            norm_layer=partial(torch.nn.LayerNorm, eps=1e-6),
            num_heads=encoder_num_heads,
            patch_size=vit_patch_size,
            qkv_bias=True,
            use_rel_pos=True,
            global_attn_indexes=encoder_global_attn_indexes,
            window_size=14,
            out_chans=prompt_embed_dim,
        ),
        prompt_encoder=PromptEncoder(
            embed_dim=prompt_embed_dim,
            image_embedding_size=(image_embedding_size, image_embedding_size),
            input_image_size=(image_size, image_size),
            mask_in_chans=16,
        ),
        mask_decoder=MaskDecoder(
            num_multimask_outputs=3,
            transformer=TwoWayTransformer(
                depth=2,
                embedding_dim=prompt_embed_dim,
                mlp_dim=2048,
                num_heads=8,
            ),
            transformer_dim=prompt_embed_dim,
            iou_head_depth=3,
            iou_head_hidden_dim=256,
        ),
        pixel_mean=[123.675, 116.28, 103.53],
        pixel_std=[58.395, 57.12, 57.375],
    )
    sam.eval()
    if checkpoint is not None:
        with open(checkpoint, "rb") as f:
            state_dict = torch.load(f)
        sam.load_state_dict(state_dict)
    return sam


if __name__ == '__main__':
    x = torch.zeros(2, 3, 1024, 1024)
    net = build_sam_vit_b(checkpoint='sam_vit_b_01ec64.pth')
    image_encoder = net.image_encoder

    print(image_encoder)
    print(image_encoder(x).shape)  # 輸出：torch.Size([2, 256, 64, 64])
    
    total_params = sum(p.numel() for p in image_encoder.parameters())
    print(f"模型的參數量為: {(total_params/ 1e6):.2f}M")      # 模型的參數量為: 89.67M

參考文獻：

Segment Anything，https://arxiv.org/pdf/2304.02643

code：https://github.com/facebookresearch/segment-anything

公眾號大模型自然語言處理作者：余俊暉

原文鏈接：??https://mp.weixin.qq.com/s/-bpeKqfBEAytKTVeFd7szQ??

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

視覺大模型

已于2025-5-8 06:46:04修改

贊

收藏

回復

舉報

回復

相關推薦

揭秘AI幻覺：GPT-4V存在視覺編碼漏洞，清華聯合NUS提出LLaVA-UHD

輕薄滴假象 ? 2481瀏覽 ? 0回復
多模態視覺-語言大模型的架構演進

angel ? 5085瀏覽 ? 0回復
深度學習算法之稀疏自編碼器完整剖析

51CTO內容精選 ? 4067瀏覽 ? 0回復
多模態大語言模型的演變全回顧?。?em>視覺定位、圖像生成、編輯、理解）

angel ? 4157瀏覽 ? 0回復
多模態-故障診斷 | 大核卷積開啟視覺新紀元!

Tang_Lan ? 4255瀏覽 ? 0回復
多模態-故障診斷 | 大核卷積開啟視覺新紀元!

Tang_Lan ? 3027瀏覽 ? 0回復
超越CLIP，視覺大模型訓練新范式？

kede96 ? 2375瀏覽 ? 0回復
Cephalo：專門用于仿生設計的多模態視覺大型語言模型

魯班模錘1 ? 3253瀏覽 ? 0回復
多模態RAG-ColPali：使用視覺語言模型實現高效的文檔檢索

大模型自然語言處理 ? 3029瀏覽 ? 0回復
微軟發布LLM2CLIP：一種新型AI技術，LLM成為CLIP視覺編碼器的“老師”

Halo咯咯 ? 4086瀏覽 ? 0回復
Apple 發布 AIMv2：最先進的開放集視覺編碼器系列

Halo咯咯 ? 2743瀏覽 ? 0回復
大模型Transformer架構之編碼器(Encoder)和解碼器(Decoder)

AI探索時代 ? 4663瀏覽 ? 0回復
Transformer編碼器與解碼器和神經網絡之間的關系

AI探索時代 ? 2468瀏覽 ? 0回復
EarthMarker：首個視覺提示遙感多模態大模型

AIRoobt ? 4399瀏覽 ? 0回復
深入探究編碼器 - 解碼器架構：從RNN到Transformer的自然語言處理模型

AI論文解讀 ? 6062瀏覽 ? 0回復
EVEv2.0，視覺語言分開編碼，多模態視覺語言理解；視覺信息引導與標記邏輯增強減少大語言模型幻覺

AI研究前瞻 ? 2526瀏覽 ? 0回復
多模態大語言模型（MLLMs）如何重塑和變革計算機視覺？

angel ? 4009瀏覽 ? 0回復
VARGPT：視覺自回歸多模態大語言模型中的統一理解與生成

AIRoobt ? 983瀏覽 ? 0回復
Encoder-free無編碼器多模態大模型EVEv2模型架構、訓練方法淺嘗

大模型自然語言處理 ? 1122瀏覽 ? 0回復

大模型自然語言處理

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

GraphRAG變種：HippoRAG進化到HippoRAG2.0,提升多跳復雜推理性能 4天前發布
Qwen3 Embedding模型架構、訓練方法、數據策略 5天前發布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇：多模態RAG演進-MRAG1.0->MRAG2.0->MRAG3.0

下一篇：開源的輕量化VLM-SmolVLM模型架構、數據策略及其衍生物PDF解析模型SmolDocling

社區精華內容

目錄

主站蜘蛛池模板：爱爱爱av | 国产精品久久久久久吹潮 | 久久视频精品在线 | 亚洲国产中文字幕 | 国产精品视频偷伦精品视频 | 久久久久久亚洲精品不卡 | 亚洲国产一区二区三区四区 | 亚洲国产精品久久久久婷婷老年 | 九九热精品在线视频 | 最新国产精品精品视频 | 精品在线一区 | 日韩亚洲一区二区 | 国产一区二区三区四区三区四 | 日本黄色激情视频 | 色播久久 | 一区二区免费视频 | 中文字幕视频在线看5 | 在线观看亚洲欧美 | 国产精品久久久久久久久久久免费看 | 精品网| 亚洲国产片 | 射欧美 | 很很干很很日 | 蜜桃在线播放 | 伊人久麻豆社区 | 亚洲一区中文字幕 | 亚洲视频手机在线 | 精品国产乱码久久久久久闺蜜 | 在线播放国产一区二区三区 | 成人免费看 | 全免一级毛片 | 黄色网址在线免费观看 | 黄色av网站在线免费观看 | 国产目拍亚洲精品99久久精品 | 91成人在线视频 | 国产精品一区二区三区久久久 | 国产精品国产三级国产a | 日本欧美国产在线观看 | 欧美精品一区二区在线观看 | 91精品久久久久久久久久入口 | 久久小视频 |

<button id="644eg"><input id="644eg"></input></button>

<li id="644eg"><dl id="644eg"></dl></li><center id="644eg"></center>

<abbr id="644eg"><tbody id="644eg"></tbody></abbr>

<bdo id="644eg"><source id="644eg"></source></bdo>