成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

萬字解析非結構化文檔中的隱藏價值:多模態檢索增強生成(RAG)的前景 精華

發布于 2025-4-2 08:39
瀏覽
0收藏

在當今數據驅動的商業環境中,存在著一個矛盾現象:企業一方面要應對信息過載的問題,另一方面又試圖從海量信息中提取有意義的見解以推動行動,這構成了雙重挑戰。存儲在技術報告、產品文檔、合同和演示文稿幻燈片中的大量商業知識,都以非結構化格式存在,傳統的數據分析系統難以對其進行解讀。包含文本、圖表、圖形和圖像的文檔蘊含著有關業務流程和決策系統的重要商業情報,但這些情報大多未被充分利用。

想要利用機構知識的企業,在從多種格式的文檔中自動提取有價值的見解時,面臨著一個長期存在的障礙。光學字符識別(OCR)傳統上是一種可靠的文本提取方法,它運用計算機視覺技術將字符從背景中區分出來,重新組合成單詞和句子。OCR在處理基于文本的文檔時表現出色,但在處理圖表、圖形和信息圖時卻無能為力,而這些對于傳達復雜概念至關重要。

一些先進的OCR解決方案試圖通過章節分塊和布局分析來保留文檔結構,但當視覺數據對理解內容至關重要時,這些方法就會失效。這種局限性在建筑、工程和科學研究等領域尤為嚴重,因為視覺描述往往能傳達書面文本無法表達的重要信息。正如Adejumo等人(2024年)的研究所表明的,傳統的基于規則的系統和基本的機器學習算法無法準確解讀醫學文檔中文本與圖像之間的復雜關系。

多模態檢索系統是一項創新技術,能夠同時處理和理解文本與視覺數據。這些先進系統不僅僅是被動地接受視覺元素,而是通過將圖像與其文本環境相結合(反之亦然)來進行主動解讀。其成果具有革命性,因為多模態方法在處理文本較多的文檔時,性能達到或超過了傳統OCR,在處理視覺復雜的文檔時更是取得了優異的效果。

檢索增強生成(RAG)應用展示了這些多模態系統的全部能力。這些系統生成先進的嵌入向量,將文本和視覺數據封裝起來,使其能夠將非結構化文檔存儲到向量數據庫中,并保留其語義屬性。在接收到用戶查詢后,系統會定位并提供最相關的數據,這些數據可能包括文本元素、視覺元素或兩者皆有,然后將其提供給大語言模型或視覺語言模型(LLMs或VLMs)。結果如何呢?生成的回復不再是泛泛的答案,而是基于全面的數據分析,提供高度具體和準確的信息。

能夠訪問非結構化數據資產標志著企業數據使用方式的重大變革。多模態RAG系統通過防止有價值的見解被鎖定在難以訪問的文檔格式中,實現了機構知識的共享,有助于做出更好的決策,并為創新和提高效率創造了機會。

接下來的部分將探討兩種創新的多模態文檔檢索方法——ColPali和ColFlor,它們正在改變這個快速發展領域的能力。我們的分析將涵蓋這兩個系統的結構和性能基準,同時評估企業如何最大化其文檔庫的價值。尋求實施解決方案的數據科學家和希望了解這些技術戰略影響的商業領袖,通過這次探索,將對智能文檔處理的未來獲得有價值的見解。

ColPali:通過以視覺為先的文檔檢索重新構想多模態RAG

Faysse等人(2025年)提出的ColPali框架為多模態檢索增強生成(RAG)建立了一種變革性的方法。ColPali摒棄了以文本提取為中心的標準流程,采用以視覺為先的方法,簡化并改進了文檔檢索操作。這一創新解決了文檔處理中一個長期存在的挑戰,即處理包含多種信息模式的復雜現實世界文檔,同時保留其上下文含義。

萬字解析非結構化文檔中的隱藏價值:多模態檢索增強生成(RAG)的前景-AI.x社區

ColPali以PaliGemma-3B為基礎模型,并對其進行擴展,創建類似ColBERT的多向量表示,這種表示適用于文本和視覺數據。該模型通過有效利用在多模態微調過程中形成的文本和圖像令牌嵌入之間的固有對齊,展現出卓越性能。ColPali從文檔的視覺表示開始處理文檔,無需RAG系統通常需要的傳統預處理步驟。

傳統的文檔RAG流程需要幾個復雜的步驟,包括PDF解析、通過OCR進行文本提取、文檔布局檢測、文本分塊和視覺元素標注。這個處理流程在每個階段都存在失敗和信息丟失的可能性。ColPali通過將完整的頁面轉換為編碼視覺形式,避免了這些問題,這種形式保留了空間關系和視覺上下文,而標準的純文本表示通常無法做到這一點。

該系統架構采用先進的后期交互方法來執行查詢匹配。ColPali在共享嵌入空間中為提交的查詢和索引文檔生成多向量表示。它使用可微的后期交互算子計算相似度,而較簡單的雙編碼器模型為文檔生成單個密集向量表示。該算子通過確定查詢向量和文檔嵌入向量之間最高的點積之和,來找到文檔中最匹配的部分,而不要求完全匹配。

ColPali實施了一種技術設計,將SigLIP補丁嵌入轉換為與Gemma-2B指定的文本嵌入空間對齊。語言模型生成的每個輸出令牌嵌入(由文本或圖像令牌生成)都通過一個投影層進行映射,將其轉換到一個128維的低維向量空間。這種統一的表示方式使模型能夠高效地處理文檔中視覺和文本部分的上下文細節。

ColPali的性能優勢非常顯著。基準評估表明,與來自非結構化和標注方法的強大基線以及每個測試的文本 - 圖像嵌入模型相比,它都取得了卓越的性能。在處理像信息圖問答(InfographicVQA)、Arxiv問答和表格問答(TabFQuAD)等視覺復雜的任務時,ColPali相對于傳統RAG系統的優勢凸顯出來,因為傳統RAG系統在處理混合格式文檔時存在困難。

ColFlor:用于視覺文檔檢索的輕量級ColPali替代方案

ColFlor模型是高效多模態檢索領域的一項顯著改進,與更大的ColPali架構相比,它提供了一種更高效的選擇。這個無需OCR的視覺文檔檢索模型使用1.74億個參數,比ColPali小17倍,但在計算需求低得多的情況下仍取得了令人矚目的性能。ColFlor基于Florence-2架構構建,巧妙地利用其DaViT視覺編碼器和基于BART的文本編碼器,同時舍棄了文本自回歸解碼器,從而大大提高了處理速度:圖像編碼過程比ColPali快5.25倍,查詢編碼速度快9.8倍。

萬字解析非結構化文檔中的隱藏價值:多模態檢索增強生成(RAG)的前景-AI.x社區

ColFlor索引和查詢流程(Masry & Hoque,2024年)

該模型通過兩個不同的階段進行操作。在索引階段,DaViT視覺編碼器處理分辨率為768×768的文檔圖像(大于ColPali的448×448分辨率),以提取視覺特征,并將其轉換為嵌入向量。嵌入向量通過基于BART的文本編碼器,創建上下文表示,然后將其壓縮為128維向量以節省存儲空間。在查詢階段,文本編碼器處理用戶查詢,生成查詢嵌入,通過MaxSim操作將其與存儲的文檔嵌入進行評估,實現高效且具有上下文感知的匹配。

盡管ColFlor的規模較小,但在處理富含文本的英文文檔時,它與ColPali保持著相當的性能水平,在NDCG@5指標上僅下降了1.8%。在圖形評估中,ColFlor的表現優于其更大的模型ColPali,表明它具有更出色的視覺推理能力。然而,當處理非英文文檔時,ColFlor遇到了重大挑戰,與ColPali相比,它在處理法語文檔時表現較差。ColFlor生成的上下文嵌入數量較少(每頁587個向量),而ColPali為1024個,這減少了存儲需求和檢索時間。

實際應用:圍繞文檔構建多模態RAG系統

我們將通過研究ColPali和ColFlor在產品手冊中的應用,展示它們在實際應用中的工作方式。該手冊包含技術規格、圖表、表格和應用示例,這在建筑和建筑文檔中很常見。

設置索引流程

實施過程從索引開始,通過使用ColPali和ColFlor編碼器架構,將多頁的Xilonor CLT手冊轉換為向量表示。我們對兩個模型應用相同的高級步驟。

萬字解析非結構化文檔中的隱藏價值:多模態檢索增強生成(RAG)的前景-AI.x社區

使用ColPali和ColFlor模型將手冊文檔導入Qdrant多向量數據庫的流程

在預處理階段,我們的第一步是將每個PDF頁面轉換為高分辨率圖像。為了滿足ColPali的輸入規格,我們將圖像調整為448×448像素,但對于ColFlor,我們使用其支持的更高分辨率768×768。這種差異立即凸顯了ColFlor的一個優勢:它能夠從文檔頁面中保留更詳細的視覺信息。每個模型接收頁面圖像,并通過其特定的視覺編碼器進行處理。PaliGemma-3B骨干網絡使ColPali能夠處理圖像,而ColFlor使用其DaViT視覺編碼器實現更高效的圖像處理。編碼過程生成豐富的、具有上下文的嵌入向量,捕獲每個頁面的文本和視覺信息。

為了提高存儲效率,兩個模型都將其嵌入向量投影為更緊湊的表示:ColPali處理的每個文檔頁面會生成1024個向量,而ColFlor生成587個向量,這使得ColFlor更高效。系統將這些嵌入向量保存到Qdrant向量數據庫中,并進行優化索引,以實現有效的檢索。

實際檢索過程

一旦我們的CLT手冊被正確索引,我們就可以研究每個系統如何響應不同復雜程度的用戶查詢。我們將研究三個不同的問題,這些問題展示了建筑專業人員可能提出的不同復雜程度的問題。

  1. “CLT面板的最大尺寸是多少?”
  2. “CLT和混凝土在生產過程中的能源消耗方面如何比較?”
  3. “根據第15頁的標準服務等級圖表,在濕度較高的室內空間應使用哪種CLT服務等級?”

兩個系統在處理每個查詢時都使用相同的檢索順序:

  • 查詢文本編碼:查詢文本通過文本編碼,并使用模型的文本編碼器轉換到向量空間。

async def get_embedding(self, query_text: str):
    with torch.no_grad():
        batch_query = self.colpali_processor(
            text=[query_text],
            images=[Image.new("RGB", (448, 448), (255, 255, 255))],
            return_tensors="pt",
            truncatinotallow=True
        ).to(self.colpali_model.device)
        query_embedding = self.colpali_model(**batch_query)
        return query_embedding[0].cpu().float().numpy().tolist()
  • 搜索匹配嵌入向量:搜索文檔嵌入向量,找到相似度得分最高的匹配嵌入向量。

async def search(self, query_text: str, collection_name: str, top_k: int = 5):
    embedding = await self.get_embedding(query_text)
    query_hash = self._hash_embedding(embedding)
    cache_key = f"{collection_name}:{query_hash}"
    results = self.cache.get(cache_key)
    if results isNone:
        results = self.client.query_points(
            collection_name=collection_name,
            query=embedding,
            limit=top_k,
            timeout=120
        )
        self.cache[cache_key] = results
    return results
  • 獲取相關文檔頁面:獲取最相關的文檔頁面,在本場景中檢索限制為5。

def retrieve_top_document(
    query: str,
    document_embeddings: List[torch.Tensor],
    document_images: List[Image.Image]
) -> Tuple[str, Image.Image]:
    query_embeddings = []
    placeholder_image = Image.new("RGB", (448, 448), (255, 255, 255))
    with torch.no_grad():
        query_batch = process_queries(paligemma_processor, [query], placeholder_image)
        query_batch = {key: value.to(device) for key, value in query_batch.items()}
        query_embeddings_tensor = retrieval_model(**query_batch)
        query_embeddings = list(torch.unbind(query_embeddings_tensor.to("cpu")))
    evaluator = CustomEvaluator(is_multi_vector=True)
    similarity_scores = evaluator.evaluate(query_embeddings, document_embeddings)
    best_index = int(similarity_scores.argmax(axis=1).item())
    return document_images[best_index], best_index
  • 轉換文檔頁面格式:將檢索到的文檔頁面轉換回圖像格式。
  • 生成回復:GPT-4o(或任何其他有能力的VLM)在接收到原始查詢文本和檢索到的文檔圖像后生成回復。

content = [
    {"type": "text", "text": f"Query: {query_text}\n\nRelevant pages from reference regulatory documents:"}
]
content.extend([
    {"type": "image_url",
     "image_url": {"url": f"data:image/png;base64,{img['image']}"}}
    for img in retrieved_images[:5]
])
response = await openai_client.chat.completions.create(
    model="gpt-4o",
    messages=[
        {"role": "system", "content": system_prompt},
        {"role": "user", "content": content}
    ],
    max_tokens=4096,
    timeout=20
)

示例輸出

表1展示了ColPali和ColFlor RAG系統對三個提示問題的示例回復。

問題

ColPali回復

ColFlor回復

“CLT面板的最大尺寸是多少?”

具體回復內容1

具體回復內容2

“CLT和混凝土在生產過程中的能源消耗方面如何比較?”

具體回復內容3

具體回復內容4

“根據第15頁的標準服務等級圖表,在濕度較高的室內空間應使用哪種CLT服務等級?”

具體回復內容5

具體回復內容6

性能比較

對比測試顯示兩個系統之間存在顯著的性能差異:

  1. 查詢處理時間
  • ColFlor在查詢處理過程中的延遲幾乎降低了20倍,每個查詢只需3.54秒,而ColPali每個查詢需要69.41秒。
  • 在批量處理多個查詢時,ColFlor保持了其卓越的性能,在壓力條件下性能僅略有下降。
  1. 檢索準確率
  • ColPali在檢索關于面板尺寸和能源消耗的精確數值答案時表現出色,始終能夠準確找到文檔參考。
  • 在與標準服務等級圖表相關的分類分配查詢中,兩個模型都正確識別了服務等級,并且都將第15頁作為最相關的頁面檢索出來。
  1. 端到端響應質量
  • 兩個系統在檢索到正確的頁面后,都能讓GPT-4o生成詳細而精確的答案。
  • ColPali通過其全面的檢索方法,為復雜查詢提供了更完整的答案。
  • ColFlor縮短的檢索時間提供了更具響應性的用戶體驗,這對于交互式應用程序至關重要。

實際應用表明,ColPali和ColFlor都是有效的多模態RAG系統解決方案,理想的選擇取決于你對速度、準確性和資源效率的需求。作為一個基線比較,包含圖表和表格中重要視覺信息的建筑和建筑文檔領域,像ColPali和ColFlor這樣的多模態系統比基于文本的標準方法表現更好。

成本與準確性:文檔檢索的實際部署考慮因素

ColFlor為在生產環境中工作的數據科學家和機器學習工程師帶來了顯著的實際好處。ColFlor較少的參數導致推理成本降低和響應時間加快,這對于計算資源有限或對延遲要求較低的應用程序非常有利。其高效的架構使該模型可以部署在處理能力有限的硬件上。雖然ColPali需要配備大量內存的GPU機器,但ColFlor即使在僅使用CPU的情況下也能表現得相當不錯。

ColPali仍然是多語言應用程序和必須不惜一切代價追求最高準確性的場景的最佳選擇,但ColFlor在大多數實際文檔檢索任務中提供了卓越的性能效率。其精心設計的模型架構在保持足夠性能水平的同時降低了資源需求,這使得多模態檢索在更廣泛的應用中成為可能。

ColPali提供了卓越的功能,但與像ColFlor這樣的輕量級解決方案相比,它需要更多的計算能力。使用PaliGemma的30億個參數,與純文本方法相比,會導致推理過程更加耗費資源。當在建筑文檔搜索、施工文檔分析或法規合規決策支持等領域,從復雜的多模態文檔中進行精確檢索至關重要時,這種系統增加的計算成本就是合理的。

參考文獻

P., Adejumo, P., Thangaraj, S., Shankar, L., Dhingra, A., Aminorroaya & R. Khera (2024). Retrieval-augmented generation for extracting CHA?DS?-VASc risk factors from unstructured clinical notes in patients with atrial fibrillation. https://doi.org/10.1101/2024.09.19.24313992

M., Faysse, H., Sibille, T., Wu, B., Omrani, G., Viaud, C., Hudelot & P. Colombo (2025). ColPali: Efficient document retrieval with vision language models. Proceedings of the 13th International Conference on Learning Representations (ICLR) 2025, Singapore.

A., Masry & E. Hoque (2024). ColFlor: Towards BERT-Size Vision-Language Document Retrieval Models. The 38th Annual Conference on Neural Information Processing Systems (NeurIPS) 2024 Workshop MusIML Submission25, Vancouver, Canada.

本文轉載自???柏企閱文???,作者:柏企

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 久久久精彩视频 | 欧美无乱码久久久免费午夜一区 | 亚洲夜夜爽 | 成人午夜免费视频 | 久久在线| 国产精品18hdxxxⅹ在线 | 国产高清在线精品一区二区三区 | 日韩中文字幕在线播放 | 欧美视频一区 | 亚洲成人福利在线观看 | 午夜私人影院在线观看 | 在线观看中文字幕av | 天堂在线91| 精品欧美一区免费观看α√ | 色婷婷一区二区三区四区 | 午夜影院毛片 | 99视频在线免费观看 | 欧美亚洲一区二区三区 | 婷婷中文在线 | www.youjizz.com日韩 | 欧洲高清转码区一二区 | 最新中文字幕在线播放 | 九九九久久国产免费 | 一级片av | 国产精品视频导航 | a级大毛片 | 麻豆精品一区二区三区在线观看 | 欧美在线视频一区 | 日韩欧美三级电影在线观看 | 欧美一级片在线观看 | 操久久| 高清亚洲| 久久999| 日韩高清国产一区在线 | 在线观看视频91 | 91视频网| 欧美一区二区在线视频 | 久久一二| 天天干免费视频 | av日日操| 久久国产精品-久久精品 |