HtmlRAG:利用 HTML 結構化信息增強 RAG 系統的知識檢索能力和準確性 原創 精華
01、概述
在大型語言模型(LLM)逐漸普及的今天,檢索增強生成(Retrieval-augmented Generation,簡稱RAG)技術逐漸成為提高AI知識處理能力、減少模型幻覺(hallucination)的關鍵手段。通過將外部知識庫和生成模型相結合,RAG為如ChatGPT等多種商業應用提供了重要支持。然而,當前RAG的實現方式仍面臨一項根本性挑戰,即在知識處理過程中對HTML網頁結構與語義信息的損失。
對于復雜的網頁內容來說,將HTML文檔簡單地轉換為純文本輸入往往會破壞原始格式,導致重要的上下文信息丟失,特別是表格類內容。這一問題長期以來困擾著RAG系統的優化。為了解決這個難題,中國人民大學高瓴人工智能學院和百川智能科技的研究團隊提出了一種創新的解決方案——HtmlRAG,它通過HTML格式而非純文本的方式來傳遞和處理檢索到的知識,從而保留更豐富的語義和結構信息。
那么,HtmlRAG究竟是如何突破傳統RAG系統的局限性,并帶來顯著性能提升的呢?本文將為大家深入剖析。
02、為什么現有RAG系統在處理HTML時捉襟見肘?
在傳統的RAG實現中,開發者會使用多種方法優化內容流入模型的質量。例如,LangChain和LlamaIndex等框架中常用的查詢改寫、檢索器、重排序器、精煉器、讀取器等組件,能夠增強文本檢索的準確性。然而,這些方法在處理HTML內容時卻面臨諸多瓶頸:
- HTML結構的丟失:HTML具有豐富的結構化標簽,能夠傳遞表格、分區等語義信息,簡單轉換為純文本會破壞這些結構,使得模型在理解內容時喪失上下文。
- 現有精煉器的不足:當前的內容精煉方法主要依賴文本的分塊處理(chunking),在面對長HTML內容時顯得力不從心,且需要消耗大量計算資源,難以高效處理。
- 高昂的計算成本:長HTML內容需要大量的計算資源去精煉,而HTML中的CSS樣式、JavaScript代碼及注釋等非核心信息又會大大增加詞元數量,導致效率低下。
鑒于這些局限性,傳統RAG系統在面對復雜HTML內容時表現出明顯的不足。而HtmlRAG的創新之處在于,它不僅能夠保留HTML的原始語義和結構信息,還通過一套獨特的機制有效應對HTML文檔的高詞元負擔。
03、HtmlRAG的核心技術:從“純文本”到“HTML結構”的轉變
HtmlRAG的核心理念在于直接使用HTML格式作為知識檢索的輸入,以最大限度保留網頁內容的語義和結構細節。為了有效處理復雜的HTML文檔,研究團隊設計了一套創新的兩步式修剪機制,使系統能夠在不失去重要信息的前提下,將繁雜的HTML內容高效處理為適合模型使用的格式。
Step 1:HTML清洗與樹形結構轉換
首先,HtmlRAG將所有檢索到的HTML文檔進行整合,并通過Beautiful Soup解析為單一的DOM樹。與傳統的DOM樹結構相比,HtmlRAG采用了一種“塊樹”結構(block tree),通過maxWords參數控制粒度。這樣一來,系統能夠遞歸地將零碎的子節點合并為父節點,形成較大的信息塊,并嚴格遵循單詞數限制。通過這種方式,系統能夠有效減少節點數量,顯著降低了復雜HTML結構的處理難度。
Step 2:分步處理與語義精煉
在HTML文檔被清洗并轉換為塊樹結構后,系統會進入第二階段的處理。HtmlRAG首先利用嵌入模型對清洗后的HTML輸出進行處理,初步篩選出核心內容,接著通過生成模型對其進一步優化。這樣的分步處理方式既保留了HTML文檔的結構性信息,又能夠避免長文本造成的高計算消耗。
實驗數據:HtmlRAG在六個數據集上的表現勝出
在性能測試中,HtmlRAG表現出色,在六個數據集上全面超越了傳統的純文本處理方法。與常見的分塊精煉法(如LangChain的實現)相比,HtmlRAG在處理HTML文檔時顯得更加精準,同時顯著減少了對結構信息的損失。
研究表明,在重排序模塊中,基于嵌入的密集檢索器(dense retrievers)明顯優于稀疏檢索器BM25,尤其是基于編碼器的BGE表現尤為出色。相較之下,基于解碼器的e5-mistral效果則稍遜一籌。此外,傳統的精煉器在長HTML文檔的優化上存在明顯不足,尤其是像LongLLMLingua這樣的模型會在純文本轉換中丟失大量結構信息,而JinaAI-reader雖然可以從HTML輸入中生成Markdown,但在面對長序列時存在逐字解碼的計算瓶頸。
這些實驗數據驗證了HtmlRAG利用HTML格式進行知識處理的有效性,并表明了其在不同數據集上的廣泛適應性。
04、HtmlRAG的應用前景:引領RAG系統的新方向
HtmlRAG的成功不僅在于提升了RAG系統的知識處理能力,更開辟了基于HTML格式的知識檢索和處理的新方向。這一技術對于有復雜信息處理需求的應用場景尤為關鍵。例如:
高結構化內容的AI應用:HtmlRAG能夠保留并理解表格、列表、導航欄等高結構化信息,使其在財務數據分析、法律文件解析等領域有廣泛的應用潛力。
內容復雜的網頁數據處理:在新聞、學術、技術文檔等信息密集型領域,HtmlRAG可以更好地保留內容的語義與上下文,提供更可靠的回答。
長文本的計算成本優化:通過減少非必要信息的參與,HtmlRAG實現了高效的內容處理,為開發者在構建AI應用時節省了大量資源。
面向未來的潛力
作為一種開創性的RAG方法,HtmlRAG提供了一個切實可行的解決方案,展示了HTML在AI應用中的獨特優勢。研究團隊不僅證明了HTML格式在知識檢索和生成中的價值,還為未來基于HTML的知識處理方法指明了方向。借助HtmlRAG,我們可以想象,未來的RAG系統會逐步整合更多的HTML處理工具,進一步提升內容解析的精準性和效率。
05、結語
HtmlRAG的推出標志著RAG系統在知識檢索與處理上的一次重要突破。通過直接使用HTML格式,HtmlRAG在提升語義保真度和結構信息保留方面表現出色,有效克服了傳統純文本方法的諸多缺陷。對于需要復雜信息處理的企業來說,這一技術不僅提供了即時的解決方案,更為未來的知識處理方式開辟了全新路徑。
可以預見,隨著HtmlRAG這一技術的深入應用和推廣,RAG系統在各行業的AI應用中將展現出更強大的實力。在知識無比豐富的互聯網世界中,HtmlRAG將引領RAG技術的升級和進化,讓AI在理解和處理復雜信息時更上一層樓。
參考:
本文轉載自公眾號Halo咯咯 作者:基咯咯
原文鏈接:??https://mp.weixin.qq.com/s/0djvZL-T_rJI_QhH2q1ZkQ??
