成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<rt id="8sgog"></rt>

<abbr id="8sgog"></abbr>

<noscript id="8sgog"><wbr id="8sgog"></wbr></noscript>

<tfoot id="8sgog"></tfoot>

<code id="8sgog"><xmp id="8sgog"></xmp></code>

<li id="8sgog"></li>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

文檔截圖嵌入統一多模態檢索方法原理原創

大模型自然語言處理

發布于 2024-12-6 14:30

瀏覽

0收藏

本文單獨來看看檢索部分的多模態嵌入部分。

文檔截圖嵌入統一多模態檢索方法原理-AI.x社區

（a）傳統方法；（b）本文方法

局限性：現有的檢索范式缺乏跨模態的統一編碼過程，導致兩個問題：

預處理工作繁瑣：需要專門的處理來應對各種文檔類型和內容模態，而這些處理往往不完美。例如，HTML文件由于其多樣的結構，復雜性較高，使得單一工具難以準確解析所有信息。同樣，ppt和PDF通常需要OCR模型來提取文本并分別處理其他內容類型，如表格和圖表。處理這些長尾問題較為復雜。
破壞文檔原始布局信息：解析過程可能導致文檔布局信息丟失。文檔的視覺呈現可以傳達通過內容提取難以捕捉的關鍵信息。例如，除了文本和圖像的內容外，這些元素在文檔中的大小和位置可能編碼了一些信息。

解決手段：提出了文檔截圖嵌入（Document Screenshot Embedding, DSE），將不同格式和模態的文檔統一為一種形式進行直接文檔編碼和索引：截圖。與使用各種工具從不同格式的文檔中提取文本和圖像不同，截圖易于獲取并且文檔的所有信息在視覺上都得到了保留。如上圖(b)所示，DSE將給定文檔的截圖進行embedding。

方法

文檔截圖嵌入統一多模態檢索方法原理-AI.x社區

文檔截圖embedding

采用雙編碼器架構進行密集檢索，其中文檔截圖和用戶文本查詢分別通過視覺編碼器和文本編碼器編碼成密集向量。

文檔截圖嵌入統一多模態檢索方法原理-AI.x社區

多模態大模型作為文檔截圖編碼器

視覺編碼器

一個文檔截圖D，首先由視覺編碼器E_v處理，生成隱藏層表示。序列的長度由視覺編碼器的圖像tokenizer決定。以 clip-vit-large-patch14-336l 為例，任何給定的截圖首先轉換為 336 X 336 像素的圖像，然后分成 24 X 24 個塊（即總共 576 個塊），每個塊由 14 X 14 像素組成。每個塊展平并通過可訓練的線性投影映射到塊嵌入。塊嵌入由視覺編碼器編碼成隱藏層表示。但是，如果截圖包含大量文本（例如維基百科網頁），576 個塊的潛在嵌入可能無法捕捉截圖中的細粒度文本信息。

視覺-語言模型

文檔截圖嵌入統一多模態檢索方法原理-AI.x社區

對比學習

query和文檔之間的相似性通過embedding之間的余弦相似度計算：

文檔截圖嵌入統一多模態檢索方法原理-AI.x社區

在訓練期間，embedding模型使用InfoNCE 損失進行優化：

文檔截圖嵌入統一多模態檢索方法原理-AI.x社區

文檔截圖嵌入統一多模態檢索方法原理-AI.x社區

實驗

文檔截圖嵌入統一多模態檢索方法原理-AI.x社區

監督檢索效果

文檔截圖嵌入統一多模態檢索方法原理-AI.x社區

零樣本檢索效果

文檔截圖嵌入統一多模態檢索方法原理-AI.x社區

補丁序列長度的影響

文檔截圖嵌入統一多模態檢索方法原理-AI.x社區

不同數量的作物輸入圖像下，DSE的有效性和效率之間的權衡。推理速度是在單個H100 GPU上通過BF16精度和FlashAttention實現的

參考文獻

Unifying Multimodal Retrieval via Document Screenshot Embedding，??https://arxiv.org/pdf/2406.11251??

本文轉載自公眾號大模型自然語言處理作者：余俊暉

原文鏈接：??https://mp.weixin.qq.com/s/o97T9IW6b7ikLDdDNXxBAg??

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

贊

收藏

回復

舉報

回復

相關推薦

字節跳動發布統一多模態大模型 Show-o!

AI論文解讀 ? 4496瀏覽 ? 0回復
改進RAG管道檢索文檔質量的五種方法

51CTO內容精選 ? 2756瀏覽 ? 0回復
統一多模態大模型！PUMA:多粒度策略笑傲生成、編輯、修復、著色、條件生成和理解!

angel ? 3417瀏覽 ? 0回復
Janus 統一多模態理解和生成

kede96 ? 2760瀏覽 ? 0回復
Emu3: 統一多模態輸入與生成

kede96 ? 2224瀏覽 ? 0回復
多模態RAG-ColPali：使用視覺語言模型實現高效的文檔檢索

大模型自然語言處理 ? 3005瀏覽 ? 0回復
多模態RAG-VisRAG：基于視覺的檢索增強生成在多模態文檔上的應用

大模型自然語言處理 ? 3003瀏覽 ? 0回復
自回歸和Rectified Flow完美融合統一多模態理解和生成！DeepSeek&北大等開源JanusFlow

angel ? 2890瀏覽 ? 0回復
mR^2AG：基于知識的多模態檢索-反思增強生成方法淺嘗

大模型自然語言處理 ? 2179瀏覽 ? 0回復
15M數據實現顛覆性統一多模態大模型！華為諾亞提出ILLUME

angel ? 3194瀏覽 ? 0回復
allenai開源多模態的文檔智能解析大模型（OLMOCR）方法、效果淺析

大模型自然語言處理 ? 3760瀏覽 ? 0回復
Phi-4-multimodal：圖、文、音頻統一的多模態大模型架構、訓練方法、數據細節

大模型自然語言處理 ? 2307瀏覽 ? 0回復
多模態理解和生成：多模態理解與生成統一獎勵模型；將獎勵模型多模態情緒識別上

AI研究前瞻 ? 2162瀏覽 ? 0回復
解鎖多模態大語言模型：從原理到實戰，一文全掌握！

Halo咯咯 ? 3288瀏覽 ? 0回復
浙大&上交等發布統一多模態視頻生成框架OmniCam

angel ? 1550瀏覽 ? 0回復
單模型統一多圖個性化生成！字節重磅開源UNO, FLUX版訓練、推理、權重全開源！

angel ? 2142瀏覽 ? 0回復
復旦：基于強化微調的統一多模態思維鏈獎勵模型

柏企閱文 ? 686瀏覽 ? 0回復
阿里推出 LingShu AI醫生：統一多模態醫學理解與推理的通用基礎模型

知識圖譜科技 ? 1062瀏覽 ? 0回復
圖表代碼生成，ChartIR；視頻與文本統一多模態模型

AI研究前瞻 ? 353瀏覽 ? 0回復

大模型自然語言處理

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

GraphRAG變種：HippoRAG進化到HippoRAG2.0,提升多跳復雜推理性能 3天前發布
Qwen3 Embedding模型架構、訓練方法、數據策略 4天前發布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇：淺看大模型用于Text2SQL的綜述

下一篇： RARE: 提升LLM推理準確性和事實完整性的檢索增強框架思路淺嘗

社區精華內容

目錄

主站蜘蛛池模板：亚洲国产成人精品久久 | 欧美激情一区二区三级高清视频 | 精品美女在线观看视频在线观看 | 日本免费在线观看视频 | 精品久久久久久国产 | 久久精品欧美一区二区三区麻豆 | 人人人人干 | 欧美久久久久久久久中文字幕 | 欧美一区二区在线播放 | 久久精品亚洲精品国产欧美 | 亚洲一区二区在线 | 成人av一区 | 99福利视频导航 | 免费视频99 | 在线啊v| 人妖videosex高潮另类 | 亚洲一区日韩 | 亚洲精品大片 | 国产精品久久久久久久久久了 | 久久99精品久久久久久琪琪 | 亚洲一区二区三区在线 | 日韩一区二区三区精品 | 伊人春色在线观看 | 日韩视频一级 | 国产精品二区三区 | 一级看片免费视频囗交动图 | 欧美专区在线观看 | 日本在线网站 | 日韩精品一区二区三区四区视频 | 精品久久久久久亚洲精品 | 欧美久久久久久久 | 欧美视频亚洲视频 | 国产精品日本一区二区在线播放 | 中文字幕成人网 | 超碰地址 | 欧美色999 | 一二区视频 | 欧美二区三区 | 日韩国产中文字幕 | 黄色大片免费播放 | 亚洲精品一区二区三区蜜桃久 |

<abbr id="umemk"></abbr>

<abbr id="umemk"></abbr>

<li id="umemk"></li>

<abbr id="umemk"></abbr>

<rt id="umemk"></rt>

<abbr id="umemk"></abbr>