VisRAG:清華大學(xué)&面壁智能提出了一種新的RAG思路,效果提升明顯
1.為啥要提出VisRAG?檢索增強(qiáng)生成(Retrievalaugmentedgeneration,RAG)已經(jīng)成為解決LLM幻覺和知識(shí)更新的經(jīng)典方案,典型的RAG流程是基于文本的(以下簡(jiǎn)稱TextRAG),以分割后的文本作為檢索單元。但是在真實(shí)場(chǎng)景中,知識(shí)往往以多模態(tài)的形式出現(xiàn),比如教科書、手冊(cè)等。這些文檔中的文本與圖像交織在一起。為了從這類數(shù)據(jù)源中提取文本,通常需要一個(gè)解析階段,這包括布局識(shí)別、光學(xué)字符識(shí)別(OCR)和文本合并等后處理步驟。雖然...