成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<rt id="myuya"></rt>

<abbr id="myuya"></abbr>

<dl id="myuya"><xmp id="myuya"></xmp></dl>

<center id="myuya"></center>

<dl id="myuya"><acronym id="myuya"></acronym></dl>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

多模態大語言模型（MLLMs）如何重塑和變革計算機視覺？精華

發布于 2025-2-17 09:22

瀏覽

0收藏

多模態大語言模型（MLLMs）如何重塑和變革計算機視覺？-AI.x社區

本文介紹了多模態大型語言模型（MLLM）的定義、使用挑戰性提示的應用場景，以及正在重塑計算機視覺的頂級模型。

多模態大語言模型（MLLMs）如何重塑和變革計算機視覺？-AI.x社區

目錄

什么是多模態大語言模型（MLLM）？
MLLM 在計算機視覺中的應用與案例
領先的多模態大型語言模型
未來展望

1. 什么是多模態大型語言模型（MLLM）？

簡單來說，多模態大型語言模型（MLLM）是結合了大型語言模型（LLM）（如 GPT-3 [2] 或 LLaMA-3 [3]）的推理能力，同時具備接收、理解并輸出多種模態信息的能力。

示例：圖 1 展示了一個醫療領域的多模態 AI 系統 [4]。它接收兩個輸入：

一張醫學影像
一個文本查詢，如：“這張影像中是否存在胸腔積液？”該系統輸出一個關于該查詢的預測答案。

多模態大語言模型（MLLMs）如何重塑和變革計算機視覺？-AI.x社區

多模態大語言模型（MLLMs）如何重塑和變革計算機視覺？-AI.x社區

在本文中，可能會簡化“多模態大型語言模型”這一術語，直接稱其為“多模態模型”。

1.1 人工智能中的多模態崛起

近年來，人工智能經歷了重大變革，其中Transformer [5] 體系架構的興起極大推動了語言模型的發展 [6]。這一架構由 Google 于 2017 年提出，并對計算機視覺領域產生了深遠影響。

早期的示例包括視覺 Transformer（ViT） [7]，它將圖像分割為多個補丁，并將其作為獨立的視覺 token 進行輸入處理。

隨著大型語言模型（LLM）的崛起，一種新的生成式模型，即多模態大型語言模型（MLLM），自然地誕生了。

如前面時間線圖所示，2023 年，大多數科技巨頭都推出了至少一種 MLLM。到了 2024 年，OpenAI 的 GPT-4o 在 5 月發布時成為行業熱點。

1.2 MLLMs vs VLMs vs 基礎模型

一些人認為 MLLMs 其實就是基礎模型（Foundation Models）。例如，Google 的 Vertex AI 將 Claude 3、PaliGemma 和 Gemini 1.5 等多模態大型語言模型歸類為基礎模型。??

另一方面，視覺語言模型（VLMs）[8] 是多模態模型的一個子類別，它們集成了文本和圖像輸入，并生成文本輸出。

MLLMs 和 VLMs 的主要區別在于：

MLLMs 能處理更多模態，而不僅僅是文本和圖像（如 VLMs）。
VLMs 的推理能力較弱，而 MLLMs 具有更強的邏輯推理能力。

1.3 體系架構

多模態大語言模型（MLLMs）如何重塑和變革計算機視覺？-AI.x社區

如圖 3 所示，MLLM 的架構主要分為三個部分：

模態編碼器（Modality Encoder）：該組件將視覺、音頻等原始數據轉換為緊湊的表示形式。通常使用預訓練編碼器（如 CLIP）進行遷移學習，以適配不同的模態輸入。
LLM 主干（LLM Backbone）：語言模型負責生成文本輸出，作為 MLLM 的“核心大腦”。編碼器接收圖像、音頻或視頻輸入并生成特征，由連接器（模態接口）處理后輸入 LLM。
模態接口（Modality Interface）：連接編碼器和 LLM，確保 LLM 能夠理解不同模態的信息，并進行合理的推理和輸出。

2. 多模態模型在計算機視覺中的應用

為了驗證這些模型的能力，使用了 GPU 對三個頂級 MLLMs 進行測試，并使用了具有挑戰性的查詢（不再是貓??和狗??的簡單示例）。

測試的 MLLMs：

GPT-4o （OpenAI）
LLaVA 7b （開源，基于 LLaMA）
Apple Ferret 7b （Apple 開源）

2.1 目標遮擋情況下的物體計數

多模態大語言模型（MLLMs）如何重塑和變革計算機視覺？-AI.x社區

任務： 計算圖像中出現的安全帽數量，并提供其位置（見圖 4）。

GPT-4o提供了詳盡的場景描述，但給出的坐標有誤。
LLaVA僅檢測到 3 個安全帽，并且沒有正確識別遮擋部分的安全帽。
Apple Ferret成功檢測到 4 個安全帽，包括左側被遮擋的那個！??

2.2 自動駕駛：風險評估與規劃

多模態大語言模型（MLLMs）如何重塑和變革計算機視覺？-AI.x社區

任務： 從自動駕駛汽車的角度評估風險，并檢測車輛和行人（見圖 5）。

LLaVA未能識別前方的大卡車。
GPT-4o在文本分析方面表現優異，但檢測出的目標框位置錯誤。
Apple Ferret是唯一一個準確檢測出大部分物體并給出正確坐標的模型 ?。

2.3 體育分析：目標檢測與場景理解

多模態大語言模型（MLLMs）如何重塑和變革計算機視覺？-AI.x社區

多模態大語言模型（MLLMs）如何重塑和變革計算機視覺？-AI.x社區

任務： 分析足球比賽場景，包括球員計數、球和守門員位置估計，并預測進球可能性（見圖 7）。

結果：

所有模型均未能正確檢測所有球員，并區分不同球隊。
相比之下，YOLOv8 這樣的單模態檢測模型表現更優。

這表明，MLLMs 在一些復雜任務上仍然存在局限性，它們尚未完全取代專門優化的計算機視覺模型。

下一步是否應該對 MLLMs 進行微調？??

3. 領先的多模態大型語言模型

多模態大語言模型（MLLMs）如何重塑和變革計算機視覺？-AI.x社區

標簽

贊

收藏

回復

舉報

回復

相關推薦

多模態視覺-語言大模型的架構演進

angel ? 5077瀏覽 ? 0回復
計算機視覺關鍵技術

mb66125a723d24d ? 2684瀏覽 ? 0回復
AGI時代下，計算機專業出身的該何去何從？

科叼dd ? 2462瀏覽 ? 0回復
優雅談大模型：揭開計算機視覺任務神秘面紗

魯班模錘1 ? 3081瀏覽 ? 0回復
冰球運動的AI科技感：用計算機視覺跟蹤球員

51CTO內容精選 ? 3024瀏覽 ? 0回復
數據高效和計算高效全都要！中科大&微信等提出多模態大語言模型EE-MLLM

angel ? 2600瀏覽 ? 0回復
多模態大語言模型的演變全回顧！（視覺定位、圖像生成、編輯、理解）

angel ? 4157瀏覽 ? 0回復
探索 Ultralytics YOLO11 計算機視覺領域的關鍵突破

穿越時空111 ? 6145瀏覽 ? 0回復
Cephalo：專門用于仿生設計的多模態視覺大型語言模型

魯班模錘1 ? 3250瀏覽 ? 0回復
谷歌&Mistral AI發布TIPS：具有空間意識的文本-圖像預訓練（適配各種計算機視覺任務）

angel ? 2474瀏覽 ? 0回復
多模態RAG-ColPali：使用視覺語言模型實現高效的文檔檢索

大模型自然語言處理 ? 3029瀏覽 ? 0回復
OpenCV 5：邁向計算機視覺新紀元的最新進展

sword_hero ? 3156瀏覽 ? 0回復
EarthMarker：首個視覺提示遙感多模態大模型

AIRoobt ? 4399瀏覽 ? 0回復
計算效率和性能雙贏！南大聯合中移動發布高效多模態大模型新范式—— p-MoD

angel ? 2347瀏覽 ? 0回復
EVEv2.0，視覺語言分開編碼，多模態視覺語言理解；視覺信息引導與標記邏輯增強減少大語言模型幻覺

AI研究前瞻 ? 2520瀏覽 ? 0回復
融合語言模型的多模態大模型研究

zhcs333 ? 2132瀏覽 ? 0回復
計算機視覺五大核心算法解析

每天五分鐘玩轉人工智能 ? 1557瀏覽 ? 0回復
神經網絡詳解：傳統機器學習在計算機視覺領域的局限性

人工智能訓練營 ? 579瀏覽 ? 0回復
如何使用Google Gemini模型完成計算機視覺任務？

51CTO內容精選 ? 628瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

多領域SOTA誕生！Vid2World：打通視頻擴散到世界模型的“任督二脈”｜清華、重大 2025-05-23 10:17:32發布
多模態終極大一統！字節開源BAGEL爆火：圖文生成理解雙冠王，竟能預測未來畫面？ 2025-05-22 09:33:05發布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇：從低清到4K的魔法：FlashVideo突破高分辨率視頻生成計算瓶頸(港大&港中文&字節)

下一篇： ICLR 2025 | 計算量僅DiT一半!中山大學&360 AI研究院開源Qihoo-T2X:統一架構搞定T2X任務

社區精華內容

目錄

主站蜘蛛池模板：欧美激情精品久久久久久变态 | 国产精品国产精品国产专区不卡 | av在线免费观看网站 | 91精品国产91久久久久久吃药 | 一区二区国产在线 | 精品一区二区久久 | 精品视频久久久 | 黄色在线观看网站 | 精品一区二区三区四区五区 | 一区二区三区免费 | 韩日在线| 69热视频在线观看 | 日韩成人在线视频 | 亚洲精品中文字幕 | 毛片入口 | 免费黄色大片 | 久久免费精彩视频 | 欧美一区二区大片 | 久久久久久久久久爱 | 久久久久久999 | 日韩在线播放一区 | 成人日韩| 超碰97人人人人人蜜桃 | 久久久久久久一级 | 羞羞网站在线免费观看 | 一区二区三区av | 久久久免费 | 国产一区电影 | 成人免费观看视频 | 久久国产精品一区二区 | 国产成人一区二区 | 性在线 | 在线一区视频 | 国产特一级黄色片 | 亚洲一区二区在线视频 | 精品国产欧美 | 欧美日韩淫片 | 免费日韩av | 精品国产乱码久久久久久果冻传媒 | 欧洲免费毛片 | 久久久久久久久久久久久久国产 |

<dl id="uocmu"></dl>

<li id="uocmu"></li><table id="uocmu"></table>

<button id="uocmu"></button>

<button id="uocmu"><input id="uocmu"></input></button><samp id="uocmu"><tbody id="uocmu"></tbody></samp>

<bdo id="uocmu"></bdo><button id="uocmu"><tbody id="uocmu"></tbody></button>

<tfoot id="uocmu"></tfoot>