成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<tfoot id="cy0kq"><dd id="cy0kq"></dd></tfoot><fieldset id="cy0kq"><delect id="cy0kq"></delect></fieldset>

<button id="cy0kq"><code id="cy0kq"></code></button>

<code id="cy0kq"><del id="cy0kq"></del></code>

<pre id="cy0kq"></pre>

<menu id="cy0kq"><option id="cy0kq"></option></menu>

<pre id="cy0kq"></pre>

<sup id="cy0kq"></sup>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

多模態大模型Ovis核心技術點、訓練方法、數據細節原創

大模型自然語言處理

發布于 2025-3-12 12:28

瀏覽

0收藏

文章提出：傳統的 MLLMs 中，文本嵌入是從 LLM 的嵌入查找表中索引得到的，而視覺嵌入是由視覺編碼器（如：ViT）直接生成的連續向量。這種差異導致在視覺和文本信息融合時存在挑戰。

與傳統的MLLM不同，Ovis 通過在視覺編碼器的過程中引入一個額外的視覺嵌入查找表來解決這個問題。這種方法使得視覺嵌入的生成過程與文本嵌入類似。

多模態大模型Ovis核心技術點、訓練方法、數據細節-AI.x社區

效果

核心創新

從下面模型結構代碼可以看到，Ovis和傳統的LLava架構其實差不多，最大的區別就是LLava使用MLP，Ovis使用“視覺詞匯”。

多模態大模型Ovis核心技術點、訓練方法、數據細節-AI.x社區

模型結構代碼

Ovis 的核心創新在于其視覺嵌入表的引入：

多模態大模型Ovis核心技術點、訓練方法、數據細節-AI.x社區

圖(a)：基于連接器的MLLM：傳統多模態模型（如LLava）的典型架構，連接器通常是一個MLP，其作用是將視覺特征投影到與文本嵌入相同的維度空間中。
圖(b)：Ovis的結構化嵌入對齊：視覺編碼器的輸出不再直接通過MLP投影，而是送入一個視覺嵌入表（Visual Embedding Table）。這個表是一個可學習的結構，類似于文本嵌入。表。

視覺編碼器：圖像首先被視覺編碼器（如 ViT）處理，分為多個patches，每個patch生成一個連續的特征向量。
視覺嵌入表：不同于傳統方法直接通過 MLP 投影，Ovis 在視覺編碼器后整合了一個可學習的視覺嵌入表。每個圖像patch的特征向量用于多次索引該表，生成最終的視覺嵌入。為了使視覺和文本嵌入具有兼容的形狀，視覺嵌入表的維度設置為與文本嵌入表相同。

多模態大模型Ovis核心技術點、訓練方法、數據細節-AI.x社區

視覺嵌入表實現過程

嵌入對齊：視覺嵌入表的引入使得視覺嵌入的生成方式與文本嵌入類似。文本嵌入通常通過查找表為每個token分配一個嵌入向量，而 Ovis 通過視覺嵌入表為視覺patch生成結構化的嵌入，實現了兩者的對齊。

訓練方法

訓練分為三個階段：

階段 1：初始化訓練

在這個階段，凍結 LLM 和視覺編碼器的大部分參數，僅隨機初始化視覺編碼器的最后一塊參數。使用視覺描述數據集（如 COYO）來訓練這些新初始化的參數，以及 Ovis 的投影矩陣和視覺嵌入表。

階段 2：擴展訓練

在這個階段，解凍 Ovis 的投影矩陣和視覺嵌入表，并繼續訓練視覺編碼器的所有參數。使用視覺描述數據集（如 ShareGPT4V-Pretrain）進行訓練。這個階段的目標是進一步優化視覺嵌入的生成。

階段 3：多模態指令學習

在前兩個階段的基礎上，解凍 LLM 模塊，并在多模態指令數據集（如 LLaVA-Finetune）上訓練整個模型。這個階段的目的是賦予 Ovis 跟隨多模態指令的能力。

訓練超參數設置：

多模態大模型Ovis核心技術點、訓練方法、數據細節-AI.x社區

訓練數據集

多模態大模型Ovis核心技術點、訓練方法、數據細節-AI.x社區

多模態大模型Ovis核心技術點、訓練方法、數據細節-AI.x社區

多模態大模型Ovis核心技術點、訓練方法、數據細節-AI.x社區

參考文獻：Ovis: Structural Embedding Alignment for Multimodal Large Language Model，https://arxiv.org/abs/2405.20797

公眾號大模型自然語言處理作者：余俊暉

原文鏈接：??https://mp.weixin.qq.com/s/IMhx1_b6mTnughMTzw5zrA???

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

贊

收藏

回復

舉報

回復

相關推薦

值得細讀的八個視覺大模型生成式預訓練方法

angel ? 6074瀏覽 ? 0回復
給 ?大模型初學者? 的 LLaMA 3 核心技術剖析

Baihai_IDP ? 3252瀏覽 ? 0回復
大模型的核心之一——大模型預訓練之數據預處理

AI探索時代 ? 5102瀏覽 ? 0回復
多模態大模型之模態融合的注意點及難點

AI探索時代 ? 6295瀏覽 ? 0回復
RAG文檔解析器，核心技術剖析

小虎哦哦 ? 3381瀏覽 ? 0回復
多模態大模型數據構造方法

shizhi02 ? 3155瀏覽 ? 0回復
Ai2開源OLMo 2：數據集、訓練方法、權重大放送

Aceryt ? 2375瀏覽 ? 0回復
一文搞懂AI大模型的四個核心技術

數字化助推器 ? 3111瀏覽 ? 0回復
大模型三階段訓練方法(LLaMa Factory)

一起AI技術 ? 1.4w瀏覽 ? 0回復
OCR-free感知多模態大模型技術鏈路及訓練數據細節

大模型自然語言處理 ? 3021瀏覽 ? 0回復
英偉達NVLM多模態大模型細節和數據集

大模型自然語言處理 ? 2727瀏覽 ? 0回復
DeepSeek簡明解析，10分鐘速通DeepSeekV1~V3核心技術點！

海因斯DK ? 8580瀏覽 ? 0回復
一文帶你看懂開源大模型基石LLaMA核心技術點，DeepSeek/千問等LLM的模型結構基礎

海因斯DK ? 2616瀏覽 ? 0回復
Phi-4-multimodal：圖、文、音頻統一的多模態大模型架構、訓練方法、數據細節

大模型自然語言處理 ? 2317瀏覽 ? 0回復
Qwen-VL系列多模態大模型技術演進-模型架構、訓練方法、數據細節

大模型自然語言處理 ? 5155瀏覽 ? 0回復
媲美OpenAI-o3，剛剛開源模型DeepCoder，訓練方法、數據集大公開

Aceryt ? 1595瀏覽 ? 0回復
Kimi-VL開源多模態大模型結構、訓練方法、訓練數據淺析

大模型自然語言處理 ? 1707瀏覽 ? 0回復
Encoder-free無編碼器多模態大模型EVEv2模型架構、訓練方法淺嘗

大模型自然語言處理 ? 1122瀏覽 ? 0回復
Qwen3 Embedding模型架構、訓練方法、數據策略

大模型自然語言處理 ? 807瀏覽 ? 0回復

大模型自然語言處理

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

GraphRAG變種：HippoRAG進化到HippoRAG2.0,提升多跳復雜推理性能 4天前發布
Qwen3 Embedding模型架構、訓練方法、數據策略 5天前發布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇： PathRAG：通過圖剪枝的方法優化Graph-based RAG的性能方法淺析

下一篇： DeepSeek-R1的方法遷移到多模態大模型-開源Vision-R1實現方法思路

社區精華內容

目錄

主站蜘蛛池模板：国产精品成人国产乱一区 | 国产精品久久久久久久久免费 | 国产一区二区日韩 | 国产精品久久久久av | av av在线| av国产精品| 国产精品视屏 | 国产成人精品免费视频 | 亚洲日本成人 | 在线中文字幕亚洲 | 青青草网站在线观看 | 黄色国产视频 | 亚洲一区中文字幕在线观看 | av香蕉| 久久在线 | 激情六月天 | 欧美一区二区在线观看 | 久久久久久久久久久爱 | 午夜精品| 国产精品永久久久久久久www | 91视视频在线观看入口直接观看 | 欧美一区二区三区视频在线观看 | 午夜免费视频 | 91久久综合亚洲鲁鲁五月天 | 欧美精品久久久久久久久老牛影院 | 亚洲欧美日本在线 | 亚洲一区二区三区久久 | 国产精品精品 | 精品av久久久久电影 | 全免费a级毛片免费看视频免费下 | 中文字幕av中文字幕 | 日韩av成人在线 | 一级黄色毛片子 | 久久久精品 | www亚洲免费国内精品 | 啪啪精品 | 久久久久久久久久久爱 | 中文字幕一区二区三 | www日本在线观看 | 精国产品一区二区三区四季综 | 国产精品美女久久久 |

<noframes id="8m4mu"><kbd id="8m4mu"></kbd></noframes>

<dl id="8m4mu"><del id="8m4mu"></del></dl><s id="8m4mu"><em id="8m4mu"></em></s>

<tbody id="8m4mu"></tbody>

<menu id="8m4mu"><acronym id="8m4mu"></acronym></menu>