VisRAG:清華大學&面壁智能提出了一種新的RAG思路,效果提升明顯
1.為啥要提出VisRAG?檢索增強生成(Retrievalaugmentedgeneration,RAG)已經成為解決LLM幻覺和知識更新的經典方案,典型的RAG流程是基于文本的(以下簡稱TextRAG),以分割后的文本作為檢索單元。但是在真實場景中,知識往往以多模態的形式出現,比如教科書、手冊等。這些文檔中的文本與圖像交織在一起。為了從這類數據源中提取文本,通常需要一個解析階段,這包括布局識別、光學字符識別(OCR)和文本合并等后處理步驟。雖然...