成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<dl id="w8smc"></dl><bdo id="w8smc"><source id="w8smc"></source></bdo><bdo id="w8smc"><source id="w8smc"></source></bdo>

<code id="w8smc"><wbr id="w8smc"></wbr></code>

<cite id="w8smc"></cite>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

HiQA：一種用于多文檔問答的層次化上下文增強RAG 原創

大模型自然語言處理

發布于 2024-11-26 11:17

瀏覽

0收藏

前言

文檔領域的RAG，之前的工作如ChatPDF等很多的RAG框架，文檔數量一旦增加，將導致響應準確性下降，如下圖；現有RAG方法在處理具有相似內容（在面對大量難以區分的文檔時）和結構的文檔時表現不佳；用戶查詢常常涉及元信息，還增加了檢索和生成的復雜性，導致檢索的準確性會下降，本文介紹的方法-HiQA，一種用于主要解決多文檔問答（MDQA）中的檢索增強生成方法。

HiQA：一種用于多文檔問答的層次化上下文增強RAG-AI.x社區

數量多文檔RAG對著文檔數量的性能變化

方法

提出了HiQA框架，用于解決多文檔問答中的檢索準確性問題。該框架主要由Markdown格式化器（Markdown Formatter）、分層上下文增強器（Hierarchical Contextual Augmentor, HCA）、多路徑檢索器（Multi-Route Retriever, MRR）三部分組成。

Markdown格式化器（Markdown Formatter）

該部分主要是使用大模型的方式指導文檔解析生成markdown的過程，這樣的比較耗費時間，可以考慮替換成一些輕量的解析方法，常見的過程可以參考以往的一些文檔??《【文檔智能 & RAG】RAG增強之路：增強PDF解析并結構化技術路線方案及思路》??

下面看看這篇文章介紹的過程：

HiQA：一種用于多文檔問答的層次化上下文增強RAG-AI.x社區

首先，使用LLM將源文檔轉換為Markdown格式的文檔，每個章節對應一個自然段落，包含章節元數據和內容。LLM的處理過程如下：

HiQA：一種用于多文檔問答的層次化上下文增強RAG-AI.x社區

其中，D_I是輸入的PDF文檔，D_M是輸出的Markdown文檔，M_C是語言模型，D^(t)_m是第個時間步的輸出。

對于圖片引用：利用一個名為PDFImageSearcher的開源工具，用于從文檔中提取位圖和SVG矢量圖像，以及一個API來檢索圖像。它利用圖像周圍的文本、圖像標題和一個可選的視覺語言模型，為每個圖像生成一個描述性文件。

HiQA：一種用于多文檔問答的層次化上下文增強RAG-AI.x社區

對表格增強：表格的語義值源自其定義，包括整體描述、標題和行/列標簽，因此，在嵌入表格時，僅關注這些語義元素，將表格視為類似文本知識。

HiQA：一種用于多文檔問答的層次化上下文增強RAG-AI.x社區

表格嵌入。為了在嵌入過程中減少噪聲，省略了數據字段。但是，如果檢索到這些數據字段，它們將被保留以提供LLM的上下文

對圖片增強：利用視覺語言生成模型來創建描述性標題，這些標題包含了圖像的顯著特征。然后對這些標題進行嵌入。

HiQA：一種用于多文檔問答的層次化上下文增強RAG-AI.x社區

應用視覺-語言模型生成圖像語義的文本描述，然后將其納入片段中

總之，為了得到高質量的文檔處理結果，使用指令進行生成markdown核心思想如下：

將文檔中的每一章，無論其級別如何，都視為Markdown中的一級標題，并附上數字標識符。將每章視為一個知識片段，而不是固定大小的塊。
設置正確的章節編號，后面跟著章節標題。
通過Markdown語法生成表格并記錄表格標題。

分層上下文增強器（Hierarchical Contextual Augmentor, HCA）

使用級聯文檔結構在數據處理過程中進行文本增強：

HiQA：一種用于多文檔問答的層次化上下文增強RAG-AI.x社區

從Markdown文件中提取層次結構元數據，并將其級聯到每個章節，形成增強的段落。具體步驟包括：

使用深度優先搜索遍歷章節樹，連接和傳遞元數據。
對文本、表格和圖像等不同類型的段落進行不同的處理。

多路徑檢索器（Multi-Route Retriever, MRR）

最后，采用多路徑檢索方法來找到最適合的段落，并將其作為上下文輸入到語言模型中。具體方法包括：

向量相似性匹配：使用Elasticsearch和BM25。
關鍵詞匹配：使用預訓練的關鍵實體檢測模型提取關鍵詞。
補償向量相似性限制：結合基于頻率的檢索技術和關鍵詞排名策略。

HiQA：一種用于多文檔問答的層次化上下文增強RAG-AI.x社區

綜合以上三個組件，形成了HiQA框架。公式如下：

HiQA：一種用于多文檔問答的層次化上下文增強RAG-AI.x社區

其中，α、β是超參數，分別平衡向量相似性和信息檢索得分的貢獻，表示匹配的關鍵詞數量。

實驗效果

HiQA：一種用于多文檔問答的層次化上下文增強RAG-AI.x社區

HiQA：一種用于多文檔問答的層次化上下文增強RAG-AI.x社區

總結

本文介紹了HiQA，這是一個專門為了解決現有RAG在多文檔問答（MDQA）環境中的局限性而設計的新型框架，特別是在處理無法區分的多文檔時。利用文檔的結構元數據有效地進行塊分割和嵌入增強，并輔以多路檢索機制以提高檢索效率。

參考文獻

HiQA: A Hierarchical Contextual Augmentation RAG for Multi-Documents QA，https://arxiv.org/pdf/2402.01767v2

本文轉載自公眾號大模型自然語言處理作者：余俊暉

原文鏈接：??https://mp.weixin.qq.com/s/dDkB93ga4PsI-ywcwoqceQ??

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

已于2024-11-28 18:47:56修改

贊

收藏

回復

舉報

回復

相關推薦

利用大語言模型增強網絡抓取：一種現代化的方法

51CTO內容精選 ? 4885瀏覽 ? 0回復
百萬上下文RAG，Agent還能這么玩

ermulong ? 3664瀏覽 ? 0回復
MRAG：一種多頭RAG，提升具有顯著不同內容的多個文檔復雜查詢的檢索準確性

PaperAgent ? 4247瀏覽 ? 0回復
基于開源AI數據框架LlamaIndex構建上下文增強型LLA應用

51CTO內容精選 ? 4100瀏覽 ? 0回復
提升5.69倍，高效RAG上下文壓縮方法COCOM

Aceryt ? 2504瀏覽 ? 0回復
長上下文 還是 RAG？ Google:我全都要！

探索AGI ? 2450瀏覽 ? 0回復
介紹一種實用的RAG技術：父文檔檢索（PDR）

51CTO內容精選 ? 2791瀏覽 ? 0回復
在長上下文LLM的時代，RAG是否仍然必要？

sbf_2000 ? 2609瀏覽 ? 0回復
一種支持4種多模態RAG技術的引擎：VARAG

PaperAgent ? 3626瀏覽 ? 0回復
一種將RAG、KG、VS、TF結合增強領域LLM性能的框架

PaperAgent ? 3030瀏覽 ? 0回復
先進的多文檔問答（MDQA）框架HiQA：大幅降低區分度低的復雜多文檔RAG的幻覺問題

AI博物院 ? 2709瀏覽 ? 0回復
再看多模態RAG進行文檔問答的方案

大模型自然語言處理 ? 2588瀏覽 ? 0回復
表格場景RAG怎么做？TableRAG：一種增強大規模表格理解框架

大模型自然語言處理 ? 2962瀏覽 ? 0回復
基于Agent的金融問答系統：RAG的檢索增強之上下文重排和壓縮

一起AI技術 ? 2359瀏覽 ? 0回復
大模型超長窗口上下文與檢索增強生成——RAG

AI探索時代 ? 2753瀏覽 ? 0回復
Claude的MCP（模型上下文協議）簡介

Halo咯咯 ? 5272瀏覽 ? 0回復
RAG系統中的困境：上下文不是想加就能加的

芝士AI吃魚 ? 2336瀏覽 ? 0回復
基于多模態大語言模型的上下文目標檢測

AIRoobt ? 2529瀏覽 ? 0回復
MDQA 知識圖譜提示用于多文檔問答

AI悠閑區 ? 663瀏覽 ? 0回復

大模型自然語言處理

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

GraphRAG變種：HippoRAG進化到HippoRAG2.0,提升多跳復雜推理性能 3天前發布
Qwen3 Embedding模型架構、訓練方法、數據策略 4天前發布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇：文本文字識別、公式識別、表格文字識別核心算法及思路及實踐-DBNet、CRNN、TrOCR

下一篇： RAG再進化？基于長期記憶的檢索增強生成新范式-MemoRAG

社區精華內容

目錄

主站蜘蛛池模板：国产偷录视频叫床高潮对白 | 日本欧美在线观看视频 | 99久久婷婷国产综合精品首页 | 欧美三级视频在线观看 | 欧美日韩综合一区 | 国产91在线播放 | 日韩一区二区黄色片 | 国产91丝袜在线熟 | 亚洲美女天堂网 | 999免费视频| 久久的色 | 国产ts人妖一区二区三区 | 久在线观看 | av黄色免费 | 国产视频中文字幕 | 中文字幕av一区二区三区 | 精品久久久久久久人人人人传媒 | 久久久亚洲精品视频 | 亚州精品天堂中文字幕 | 成人欧美一区二区三区色青冈 | 国产精品久久久久久久久久免费看 | 永久免费av| 国产麻豆乱码精品一区二区三区 | 久久精品国产一区 | 日韩在线观看网站 | 免费视频一区二区 | 国产精品国产a级 | 一级黄a | 在线免费观看毛片 | 亚洲高清一区二区三区 | 成年人在线观看视频 | 黄网站免费在线观看 | 日韩精品| 99精品国产一区二区三区 | 国产日韩在线观看一区 | 91精品国产色综合久久不卡98 | 日韩电影一区二区三区 | 欧美一级在线观看 | 99国产精品久久久久老师 | 亚洲狠狠 | 一级黄色生活视频 |

<rt id="8wy80"><tr id="8wy80"></tr></rt>

<button id="8wy80"><strong id="8wy80"></strong></button>

<cite id="8wy80"></cite><cite id="8wy80"></cite>

<strike id="8wy80"></strike>

<li id="8wy80"></li>