成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

HiQA:一種用于多文檔問答的層次化上下文增強RAG 原創

發布于 2024-11-26 11:17
瀏覽
0收藏

前言

文檔領域的RAG,之前的工作如ChatPDF等很多的RAG框架,文檔數量一旦增加,將導致響應準確性下降,如下圖;現有RAG方法在處理具有相似內容(在面對大量難以區分的文檔時)和結構的文檔時表現不佳;用戶查詢常常涉及元信息,還增加了檢索和生成的復雜性,導致檢索的準確性會下降,本文介紹的方法-HiQA,一種用于主要解決多文檔問答(MDQA)中的檢索增強生成方法。

HiQA:一種用于多文檔問答的層次化上下文增強RAG-AI.x社區

數量多文檔RAG對著文檔數量的性能變化

方法

提出了HiQA框架,用于解決多文檔問答中的檢索準確性問題。該框架主要由Markdown格式化器(Markdown Formatter)、分層上下文增強器(Hierarchical Contextual Augmentor, HCA)、多路徑檢索器(Multi-Route Retriever, MRR)三部分組成。

Markdown格式化器(Markdown Formatter)

該部分主要是使用大模型的方式指導文檔解析生成markdown的過程,這樣的比較耗費時間,可以考慮替換成一些輕量的解析方法,常見的過程可以參考以往的一些文檔??《【文檔智能 & RAG】RAG增強之路:增強PDF解析并結構化技術路線方案及思路》??

下面看看這篇文章介紹的過程:

HiQA:一種用于多文檔問答的層次化上下文增強RAG-AI.x社區

首先,使用LLM將源文檔轉換為Markdown格式的文檔,每個章節對應一個自然段落,包含章節元數據和內容。LLM的處理過程如下:

HiQA:一種用于多文檔問答的層次化上下文增強RAG-AI.x社區

其中,DI是輸入的PDF文檔,DM是輸出的Markdown文檔,MC是語言模型,D(t)m是第個時間步的輸出。

對于圖片引用: 利用一個名為PDFImageSearcher的開源工具,用于從文檔中提取位圖和SVG矢量圖 像,以及一個API來檢索圖像。它利用圖像周圍的文本、圖像標題和一個可選的視覺語言模型,為每個圖像生成一個描述性文件。

HiQA:一種用于多文檔問答的層次化上下文增強RAG-AI.x社區

對表格增強:表格的語義值源自其定義,包括整體描述、標題和行/列標簽,因此,在嵌入表格時,僅關注這些語義元素,將表格視為類似文本知識。

HiQA:一種用于多文檔問答的層次化上下文增強RAG-AI.x社區

表格嵌入。為了在嵌入過程中減少噪聲,省略了數據字段。但是,如果檢索到這些數據字段,它們將被保留以提供LLM的上下文

對圖片增強:利用視覺語言生成模型來創建描述性標題,這些標題包含了圖像的顯著特征。然后對這些標題進行嵌入。

HiQA:一種用于多文檔問答的層次化上下文增強RAG-AI.x社區

應用視覺-語言模型生成圖像語義的文本描述,然后將其納入片段中

總之,為了得到高質量的文檔處理結果,使用指令進行生成markdown核心思想如下:

  • 將文檔中的每一章,無論其級別如何,都視為Markdown中的一級標題,并附上數字標識符。將每章視為一個知識片段,而不是固定大小的塊。
  • 設置正確的章節編號,后面跟著章節標題。
  • 通過Markdown語法生成表格并記錄表格標題。

分層上下文增強器(Hierarchical Contextual Augmentor, HCA)

使用級聯文檔結構在數據處理過程中進行文本增強:

HiQA:一種用于多文檔問答的層次化上下文增強RAG-AI.x社區

從Markdown文件中提取層次結構元數據,并將其級聯到每個章節,形成增強的段落。具體步驟包括:

  • 使用深度優先搜索遍歷章節樹,連接和傳遞元數據。
  • 對文本、表格和圖像等不同類型的段落進行不同的處理。

多路徑檢索器(Multi-Route Retriever, MRR)

最后,采用多路徑檢索方法來找到最適合的段落,并將其作為上下文輸入到語言模型中。具體方法包括:

  • 向量相似性匹配:使用Elasticsearch和BM25。
  • 關鍵詞匹配:使用預訓練的關鍵實體檢測模型提取關鍵詞。
  • 補償向量相似性限制:結合基于頻率的檢索技術和關鍵詞排名策略。

HiQA:一種用于多文檔問答的層次化上下文增強RAG-AI.x社區

綜合以上三個組件,形成了HiQA框架。公式如下:

HiQA:一種用于多文檔問答的層次化上下文增強RAG-AI.x社區

其中,α、β是超參數,分別平衡向量相似性和信息檢索得分的貢獻,表示匹配的關鍵詞數量。

實驗效果

HiQA:一種用于多文檔問答的層次化上下文增強RAG-AI.x社區

HiQA:一種用于多文檔問答的層次化上下文增強RAG-AI.x社區

總結

本文介紹了HiQA,這是一個專門為了解決現有RAG在多文檔問答(MDQA)環境中的局限性而設計的新型框架,特別是在處理無法區分的多文檔時。利用文檔的結構元數據有效地進行塊分割和嵌入增強,并輔以多路檢索機制以提高檢索效率。

參考文獻

  • HiQA: A Hierarchical Contextual Augmentation RAG for Multi-Documents QA,https://arxiv.org/pdf/2402.01767v2


本文轉載自公眾號大模型自然語言處理  作者:余俊暉

原文鏈接:??https://mp.weixin.qq.com/s/dDkB93ga4PsI-ywcwoqceQ??

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
標簽
已于2024-11-28 18:47:56修改
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 国产偷录视频叫床高潮对白 | 日本欧美在线观看视频 | 99久久婷婷国产综合精品首页 | 欧美三级视频在线观看 | 欧美日韩综合一区 | 国产91在线播放 | 日韩一区二区黄色片 | 国产91丝袜在线熟 | 亚洲美女天堂网 | 999免费视频| 久久的色 | 国产ts人妖一区二区三区 | 久在线观看 | av黄色免费 | 国产视频中文字幕 | 中文字幕av一区二区三区 | 精品久久久久久久人人人人传媒 | 久久久亚洲精品视频 | 亚州精品天堂中文字幕 | 成人欧美一区二区三区色青冈 | 国产精品久久久久久久久久免费看 | 永久免费av| 国产麻豆乱码精品一区二区三区 | 久久精品国产一区 | 日韩在线观看网站 | 免费视频一区二区 | 国产精品国产a级 | 一级黄a | 在线免费观看毛片 | 亚洲高清一区二区三区 | 成年人在线观看视频 | 黄网站免费在线观看 | 日韩精品| 99精品国产一区二区三区 | 国产日韩在线观看一区 | 91精品国产色综合久久不卡98 | 日韩电影一区二区三区 | 欧美一级在线观看 | 99国产精品久久久久老师 | 亚洲狠狠 | 一级黄色生活视频 |