關于在RAG檢索增強中文檔處理的解決方案——針對中小企業原創

AI探索時代

發布于 2025-7-10 10:07

瀏覽

0收藏

“ RAG技術成本最低的方式就是把非結構化文檔轉換成markdown格式進行處理。”

在大模型應用領域中——RAG技術應該屬于一項基礎技術，不論做什么業務基本都離不開RAG的存在；但RAG技術屬于典型的入門五分鐘，想做好卻需要花費大量時間和精力，以及成本。

所以，今天我們就來討論一下RAG技術在企業應用中的解決方案，既要考慮技術問題，也要考慮成本問題。

關于在RAG檢索增強中文檔處理的解決方案——針對中小企業-AI.x社區

怎么做好RAG

RAG技術從整體上來說主要分為兩塊，一塊是文檔預處理，也就是把文檔處理成向量格式，但需要盡量保證文檔的語義完整性；其次，就是檢索召回，具體要求是能快速并準確地召回需要的數據。

但從實踐的角度來看，目前對RAG影響最大的是第一步——文檔預處理，文檔處理的質量越高，召回的精準度就越高。其實這一點也很好理解，在一個有完善管理系統的圖書館里找書，肯定會比在一堆沒人管理的書堆里找書要快，要好。

那在文檔預處理這塊，主要存在的難點是什么？

在文檔處理領域，主要存在兩種數據形式，結構化數據和非結構化數據；結構化數據主要以excel這種二維表的形式存在，其處理起來相對比較簡單；而非結構化數據的格式就比較多，并且比較混亂，比如說txt，word，pdf，markdown，ppt等多種形式。

結構化數據今天我們就不討論了，因為其比較簡單；所以，我們今天主要討論的是非結構化數據，就以word文檔為例。

由于大模型有窗口上下文長度限制，并且從成本的角度考慮；文檔處理首先需要進行文檔切分，把文檔按照長度，段落或其它方式拆分成多個小段。

但非結構化文檔拆分的難點是其文檔的結構，以word文檔為例；文檔內容可以是文字，圖片，表格，結構圖，架構圖等多種形式。由于其文檔的復雜性，就導致其文檔處理起來相對比較復雜。

原因就在于，對人類來說，文檔中的文字，圖片和表格很好區分，但對大模型來說怎么區分那些是文字，那些是圖片，那些是表格就有相當大的挑戰性。雖然說現在有了多模態模型的存在，可以部門解決這個問題，但不論從成本，還是處理速度，亦或者是效果來看，都有點差強人意。

關于在RAG檢索增強中文檔處理的解決方案——針對中小企業-AI.x社區

在文檔中文字和圖片需要分開進行處理，對長表格來說也需要保證表格的完整性；并且，要保證拆分之后的文檔存在一定的關聯性，否則很容易導致驢頭不對馬嘴。

舉例來說，一個技術文檔，一個運營文檔，可能都存在前言，介紹這種段落；而在文檔拆分之后，需要分清楚，那些段落是屬于技術文檔的，那些段落屬于運營文檔。

所以面對這種問題，目前比較好的解決方案是把這些文檔轉換成markdown格式；原因在于，雖然markdown文檔也是非結構化數據，但markdown又一套屬于自己的規范，比如說用一到多個#可以表示多個層級；也就是說markdown文檔屬于非結構化文檔中，相對比較結構化的文檔格式，這也是為什么目前各大模型廠商的前端展示格式主要以markdown為主。

關于在RAG檢索增強中文檔處理的解決方案——針對中小企業-AI.x社區