UniversalRAG:跨多種模態(tài)和粒度語(yǔ)料庫(kù)的檢索增強(qiáng)生成 原創(chuàng)
摘要
檢索增強(qiáng)生成(RAG)通過(guò)將模型響應(yīng)與查詢(xún)相關(guān)的外部知識(shí)相結(jié)合,在提高事實(shí)準(zhǔn)確性方面展現(xiàn)出巨大潛力。然而,大多數(shù)現(xiàn)有的 RAG 方法僅限于純文本語(yǔ)料庫(kù)。盡管最近的研究努力將 RAG 擴(kuò)展到圖像和視頻等其他模態(tài),但它們通常僅在單一模態(tài)特定的語(yǔ)料庫(kù)上運(yùn)行。相比之下,現(xiàn)實(shí)世界中的查詢(xún)對(duì)知識(shí)類(lèi)型的需求差異很大,單一類(lèi)型的知識(shí)源無(wú)法滿足這些需求。為了解決這一問(wèn)題,我們引入了通用檢索增強(qiáng)生成(UniversalRAG),這是一種新穎的 RAG 框架,旨在從具有不同模態(tài)和粒度的異構(gòu)源中檢索和整合知識(shí)。具體而言,由于發(fā)現(xiàn)將所有模態(tài)強(qiáng)制納入從單個(gè)組合語(yǔ)料庫(kù)派生的統(tǒng)一表示空間會(huì)導(dǎo)致模態(tài)差距(即檢索傾向于選擇與查詢(xún)模態(tài)相同的項(xiàng)目),我們提出了一種模態(tài)感知路由機(jī)制,該機(jī)制可以動(dòng)態(tài)識(shí)別最合適的特定模態(tài)語(yǔ)料庫(kù),并在其中進(jìn)行有針對(duì)性的檢索。此外,除了模態(tài)之外,我們將每個(gè)模態(tài)組織成多個(gè)粒度級(jí)別,以便根據(jù)查詢(xún)的復(fù)雜性和范圍進(jìn)行微調(diào)檢索。我們?cè)诤w多種模態(tài)的 8 個(gè)基準(zhǔn)測(cè)試中驗(yàn)證了通用檢索增強(qiáng)生成(UniversalRAG)的有效性,結(jié)果表明它優(yōu)于特定模態(tài)和統(tǒng)一的基線方法。我們的項(xiàng)目頁(yè)面為??https://universalrag.github.io??。
1 引言
近年來(lái),大語(yǔ)言模型(LLMs)在諸如問(wèn)答(OpenAI 等人,2024;Anil 等人,2023)等各種任務(wù)中展現(xiàn)出卓越性能,并在 ChatGPT 等各種服務(wù)中得到廣泛應(yīng)用,為人們的日常生活提供幫助。然而,大語(yǔ)言模型(LLMs)經(jīng)常生成事實(shí)性錯(cuò)誤或誤導(dǎo)性信息,尤其是在其訓(xùn)練過(guò)程中較少接觸或未接觸過(guò)的主題(如近期事件)上(Zhang 等人,2023;Huang 等人,2025)。為了解決這一問(wèn)題,檢索增強(qiáng)生成(RAG)應(yīng)運(yùn)而生,它是一種很有前景的方法,能夠使模型的響應(yīng)基于從外部知識(shí)源檢索到的與查詢(xún)相關(guān)的知識(shí),從而提高事實(shí)準(zhǔn)確性(Lewis 等人,2020;Gao 等人,2024;Chen 等人,2024a)。
然而,盡管檢索增強(qiáng)生成(RAG)很有效,但現(xiàn)有的方法通常是為單一語(yǔ)料庫(kù)和模態(tài)設(shè)計(jì)的,這限制了它們處理需要不同類(lèi)型知識(shí)源的用戶查詢(xún)的能力。在實(shí)際應(yīng)用中,如圖 1 所示,用戶查詢(xún)對(duì)知識(shí)類(lèi)型的需求差異很大:有些查詢(xún)使用文本(如表面事實(shí)和定義)就能得到最佳解答;有些則需要從圖像中獲取視覺(jué)理解(如物體的空間關(guān)系);還有些需要視頻提供的時(shí)間推理支持(如具有動(dòng)態(tài)場(chǎng)景的分步指令)。相反,檢索增強(qiáng)生成(RAG)領(lǐng)域最初主要關(guān)注文本語(yǔ)料庫(kù)(Lewis 等人,2020;Jiang 等人,2023;Yan 等人,2024)。盡管最近的研究已將其擴(kuò)展到文本以外的模態(tài)(如圖像和視頻)(Abootorabi 等人,2025;Riedler 和 Langer,2024;Jeong 等人,2025),但現(xiàn)有的檢索增強(qiáng)生成(RAG)方法通常是特定于模態(tài)和語(yǔ)料庫(kù)的。因此,它們可能無(wú)法作為一個(gè)通用的、萬(wàn)能的框架,靈活處理知識(shí)需求各異的廣泛查詢(xún)。
在這項(xiàng)工作中,我們提出了通用檢索增強(qiáng)生成(UniversalRAG),這是一種新穎的檢索增強(qiáng)生成(RAG)框架,它整合了分布在多個(gè)特定模態(tài)語(yǔ)料庫(kù)(包括文本、圖像和視頻源)中的知識(shí),并利用這些知識(shí)在通用工作流程中生成針對(duì)查詢(xún)的有依據(jù)的響應(yīng)。為了實(shí)現(xiàn)這一點(diǎn),最直接的方法可能是匯總收集到的異構(gòu)知識(shí)語(yǔ)料庫(kù)中的所有條目,并使用多模態(tài)編碼器將它們嵌入到統(tǒng)一的表示空間中(如果不同模態(tài)的輸入在語(yǔ)義上相似,多模態(tài)編碼器通常經(jīng)過(guò)訓(xùn)練以對(duì)齊這些輸入)。然而,盡管進(jìn)行了這種對(duì)齊努力,我們發(fā)現(xiàn)這種策略存在模態(tài)差距,即輸入傾向于根據(jù)其模態(tài)而不是語(yǔ)義含義進(jìn)行聚類(lèi)(如圖 2 所示),在先前的不同研究中也觀察到了類(lèi)似現(xiàn)象(Zhang 等人,2025;Wei 等人,2024)。結(jié)果,檢索過(guò)程會(huì)偏向于與查詢(xún)模態(tài)相同的知識(shí)源,而忽略了其他模態(tài)的相關(guān)內(nèi)容。
圖1:現(xiàn)有檢索增強(qiáng)生成(RAG)方法的局限性(a, b)以及所提出的檢索增強(qiáng)生成(RAG)框架通用檢索增強(qiáng)生成(UniversalRAG)(c)的示意圖
圖2:統(tǒng)一嵌入空間的t-SNE可視化
圖3:基線模型和通用檢索增強(qiáng)生成(UniversalRAG)的平均得分
為了應(yīng)對(duì)這一挑戰(zhàn),我們沒(méi)有依賴(lài)于將所有模態(tài)強(qiáng)制納入共享表示的統(tǒng)一嵌入空間,而是采取了不同的方法:引入模態(tài)感知路由策略。具體而言,通用檢索增強(qiáng)生成(UniversalRAG)會(huì)根據(jù)給定查詢(xún)的模態(tài)需求,動(dòng)態(tài)確定最合適的知識(shí)源進(jìn)行檢索,然后將檢索過(guò)程路由到相應(yīng)的特定模態(tài)語(yǔ)料庫(kù)。值得注意的是,這種策略不僅通過(guò)避免直接的跨模態(tài)比較來(lái)規(guī)避模態(tài)差距,還通過(guò)擴(kuò)展路由邏輯實(shí)現(xiàn)了新模態(tài)的無(wú)縫集成,而無(wú)需修改現(xiàn)有的特定模態(tài)檢索器。
除了模態(tài)之外,另一個(gè)重要維度是數(shù)據(jù)粒度(語(yǔ)料庫(kù)中每個(gè)條目的大小或單位),它在檢索精度和生成質(zhì)量方面都起著關(guān)鍵作用(Chen 等人,2024b;Zhong 等人,2025)。因?yàn)榧词乖谕荒B(tài)內(nèi),不同的查詢(xún)也會(huì)從不同的粒度級(jí)別中受益。這是因?yàn)檫^(guò)細(xì)的粒度條目會(huì)稀釋上下文信息,而過(guò)粗的條目可能會(huì)將不相關(guān)的信息捆綁在一起。例如,一個(gè)復(fù)雜的分析性問(wèn)題可能需要長(zhǎng)篇文檔或完整視頻來(lái)獲取足夠的上下文信息,而一個(gè)簡(jiǎn)單的事實(shí)性問(wèn)題用單個(gè)段落或短視頻片段就能得到最佳解答 。
為了適應(yīng)這一方面,我們進(jìn)一步將每個(gè)模態(tài)細(xì)分為多個(gè)粒度級(jí)別,并將它們組織成不同的語(yǔ)料庫(kù):文本文檔會(huì)額外分割成段落,并存儲(chǔ)在段落級(jí)語(yǔ)料庫(kù)中;類(lèi)似地,完整長(zhǎng)度的視頻會(huì)被分割成短視頻片段并存儲(chǔ);而圖像由于本身就是碎片化的,所以保持不變。總體而言,通過(guò)這些考慮模態(tài)和粒度的語(yǔ)料庫(kù)(包括段落、文檔、圖像、片段和視頻),以及一個(gè)額外的 “無(wú)需檢索” 選項(xiàng)來(lái)高效處理簡(jiǎn)單查詢(xún)(即不需要外部知識(shí)的查詢(xún)),我們的通用檢索增強(qiáng)生成(UniversalRAG)會(huì)將每個(gè)查詢(xún)動(dòng)態(tài)路由到最相關(guān)的知識(shí)源,最終滿足現(xiàn)實(shí)世界用戶多樣化的信息需求。
我們?cè)?8 個(gè)具有不同模態(tài)的基準(zhǔn)測(cè)試中對(duì)通用檢索增強(qiáng)生成(UniversalRAG)進(jìn)行了驗(yàn)證(Hendrycks 等人,2021;Rajpurkar 等人,2016;Kwiatkowski 等人,2019;Yang 等人,2018;Chang 等人,2022;Wang 等人,2024a;Jeong 等人,2025)。通用檢索增強(qiáng)生成(UniversalRAG)在平均得分上超過(guò)了所有基線方法,表明其在各種查詢(xún)上都具有強(qiáng)大的性能。我們還通過(guò)實(shí)驗(yàn)結(jié)果研究了多模態(tài)和多粒度語(yǔ)料庫(kù)的有效性。
2 方法
在本節(jié)中,我們將介紹通用檢索增強(qiáng)生成(UniversalRAG),這是一種新穎的檢索增強(qiáng)生成(RAG)框架,它可以根據(jù)給定的查詢(xún),從跨越多種模態(tài)和粒度的不同語(yǔ)料庫(kù)中檢索知識(shí)。
2.1 預(yù)備知識(shí)
我們從預(yù)備知識(shí)開(kāi)始,正式介紹大型視覺(jué)語(yǔ)言模型(LVLMs)和檢索增強(qiáng)生成(RAG)。
?大型視覺(jué)語(yǔ)言模型:為了將大語(yǔ)言模型(LLMs)的強(qiáng)大能力擴(kuò)展到文本之外,并支持對(duì)圖像和視頻等視覺(jué)輸入的理解,最近引入了大型視覺(jué)語(yǔ)言模型(LVLMs)。它通過(guò)將視覺(jué)編碼器集成到大語(yǔ)言模型(LLMs)中,使其能夠處理文本和圖像、視頻等視覺(jué)輸入。形式上,大型視覺(jué)語(yǔ)言模型(LVLMs)將輸入序列x=[x_{1}, x_{2}, ..., x_{n}](其中可能包括文本和視覺(jué)標(biāo)記),并生成輸出標(biāo)記序列y=[y_{1}, y_{2}, ..., y_{m}],表示為:y=LVLM(x)。然而,盡管大型視覺(jué)語(yǔ)言模型(LVLMs)具有多模態(tài)能力,但它們?nèi)匀痪窒抻趨?shù)化知識(shí),并且在處理需要超出預(yù)訓(xùn)練時(shí)編碼信息的詳細(xì)或有依據(jù)的信息的查詢(xún)時(shí),往往會(huì)遇到困難。
?檢索增強(qiáng)生成:為了解決僅依賴(lài)參數(shù)化模型的上述局限性,檢索增強(qiáng)生成(RAG)從大型外部語(yǔ)料庫(kù)中檢索與查詢(xún)相關(guān)的信息,并將其整合到生成過(guò)程中。具體而言,在檢索步驟中,檢索器從語(yǔ)料庫(kù)C中選擇相關(guān)上下文c,形式化為c = Retriever(q; C),其中c \in C。在隨后的生成步驟中,大型視覺(jué)語(yǔ)言模型(LVLM)根據(jù)輸入查詢(xún)和檢索到的上下文生成響應(yīng)a,表示為a = LVLM(q, c)。然而,大多數(shù)現(xiàn)有的檢索增強(qiáng)生成(RAG)方法僅限于從單一模態(tài)(如僅圖像)的單個(gè)語(yǔ)料庫(kù)中進(jìn)行檢索,這限制了它們處理通常需要多模態(tài)信息的現(xiàn)實(shí)世界多樣化查詢(xún)的能力。
?統(tǒng)一檢索中的模態(tài)差距:鑒于現(xiàn)實(shí)場(chǎng)景中的外部知識(shí)通常涵蓋多種模態(tài),如文本、圖像和視頻,我們定義了三個(gè)特定模態(tài)的語(yǔ)料庫(kù):文本語(yǔ)料庫(kù)C_{text }={t_{1}, ..., t_{n}}、圖像語(yǔ)料庫(kù)C_{image }={i_{1}, ..., i_{m}}和視頻語(yǔ)料庫(kù)C_{video }={v_{1}, ..., v_{k}}。處理這種異構(gòu)數(shù)據(jù)的一種常見(jiàn)方法是使用多模態(tài)編碼器將所有項(xiàng)目統(tǒng)一到共享的嵌入空間中,從而得到統(tǒng)一語(yǔ)料庫(kù)C_{unified }=C_{text } \cup C_{image } \cup C_{video },其中每個(gè)項(xiàng)目都表示為共享空間中的向量(Zhang 等人,2025;Wei 等人,2024),然后進(jìn)行檢索c = Retriever(q; C_{unified })。然而,我們的實(shí)驗(yàn)揭示了這種統(tǒng)一空間中存在明顯的模態(tài)差距,如圖 2 所示,查詢(xún)本質(zhì)上是文本形式的,無(wú)論實(shí)際需要何種模態(tài),都傾向于與文本語(yǔ)料庫(kù)項(xiàng)目更緊密地對(duì)齊。結(jié)果,即使查詢(xún)需要視覺(jué)或時(shí)間理解,檢索器也會(huì)返回基于文本的內(nèi)容,導(dǎo)致次優(yōu)或不相關(guān)的響應(yīng)。這一觀察結(jié)果凸顯了統(tǒng)一檢索策略的基本局限性,并表明需要為不同模態(tài)維護(hù)單獨(dú)的特征空間。
2.2 通用檢索增強(qiáng)生成(UniversalRAG)
現(xiàn)在我們來(lái)介紹通用檢索增強(qiáng)生成(UniversalRAG),這是一個(gè)新穎的框架,它能動(dòng)態(tài)識(shí)別查詢(xún),并將其路由到最合適的知識(shí)模態(tài)和粒度進(jìn)行檢索。
?模態(tài)感知檢索:為了解決檢索中的模態(tài)差距問(wèn)題,我們?yōu)槊總€(gè)模態(tài)維護(hù)單獨(dú)的嵌入空間,將整體語(yǔ)料庫(kù)組織成三個(gè)不同的子語(yǔ)料庫(kù):C_{text }、C_{image }和C_{video },每個(gè)子語(yǔ)料庫(kù)都由特定模態(tài)的向量表示組成。然后,我們引入一個(gè)路由模塊 Router,它為每個(gè)查詢(xún)動(dòng)態(tài)選擇最合適的模態(tài)。具體來(lái)說(shuō),給定一個(gè)查詢(xún)q,Router 預(yù)測(cè)與查詢(xún)相關(guān)的模態(tài)r \in {'Text', 'Image', 'Video'},形式化為r = Router(q) 。一旦確定了模態(tài)r,特定模態(tài)的檢索器就會(huì)從相應(yīng)的語(yǔ)料庫(kù)C_{r}中選擇相關(guān)項(xiàng)目c,大型視覺(jué)語(yǔ)言模型(LVLM)會(huì)根據(jù)查詢(xún)和檢索到的內(nèi)容生成最終響應(yīng)。然而,雖然這種設(shè)計(jì)減輕了模態(tài)差距,但僅按模態(tài)分隔語(yǔ)料庫(kù)可能仍然不夠,因?yàn)椴煌牟樵?xún)可能需要不同的粒度級(jí)別,即使在同一模態(tài)內(nèi)也是如此。
?粒度感知檢索:為了靈活滿足不同查詢(xún)的信息需求,我們擴(kuò)展了通用檢索增強(qiáng)生成(UniversalRAG),使其能夠在每個(gè)模態(tài)內(nèi)的多個(gè)粒度級(jí)別上運(yùn)行,為文本和視頻模態(tài)構(gòu)建了兩個(gè)語(yǔ)料庫(kù)級(jí)別:細(xì)粒度和粗粒度。具體來(lái)說(shuō),文本語(yǔ)料庫(kù)最初是在段落級(jí)別組織的,每個(gè)項(xiàng)目通常包含關(guān)于單個(gè)實(shí)體的知識(shí),但一些復(fù)雜查詢(xún)需要跨多個(gè)段落進(jìn)行推理。為了解決這個(gè)問(wèn)題,我們構(gòu)建了一個(gè)文檔級(jí)語(yǔ)料庫(kù)C_{document }={d_{1}, ..., d_{l}},其中每個(gè)d是通過(guò)連接多個(gè)段落并對(duì)結(jié)果文本進(jìn)行編碼得到的文檔的向量表示。另一方面,原始視頻語(yǔ)料庫(kù)由完整長(zhǎng)度的視頻組成,這些視頻的時(shí)長(zhǎng)通常超過(guò)一小時(shí),當(dāng)某些問(wèn)題僅用短視頻片段就能回答時(shí),檢索整個(gè)視頻的效率很低。因此,我們將每個(gè)完整長(zhǎng)度的視頻分割成多個(gè)固定時(shí)長(zhǎng)的片段,構(gòu)建了一個(gè)片段級(jí)語(yǔ)料庫(kù)C_{clip }={k_{1}, ..., k_{p}},其中每個(gè)k表示從原始完整視頻中提取的修剪后視頻片段的表示。請(qǐng)注意,由于圖像本身就是細(xì)粒度的,我們不對(duì)圖像語(yǔ)料庫(kù)進(jìn)行額外分割,保持其原樣。為此,Router 做出的路由決策r分為六類(lèi)之一:{'None', 'Paragraph', 'Document', 'Image', 'Clip', 'Video'},檢索過(guò)程形式化如下:
最后,大型視覺(jué)語(yǔ)言模型(LVLM)根據(jù)檢索到的內(nèi)容c生成最終響應(yīng)a,這反映了為給定查詢(xún)q確定的最合適的模態(tài)和粒度。此外,如果不需要檢索(即c = None),大型視覺(jué)語(yǔ)言模型(LVLM)僅根據(jù)q直接生成響應(yīng),無(wú)需任何額外上下文。
2.3 通用檢索增強(qiáng)生成(UniversalRAG)中的路由設(shè)計(jì)
在這里,我們探討路由的兩種設(shè)計(jì),它負(fù)責(zé)根據(jù)查詢(xún)動(dòng)態(tài)選擇檢索模態(tài)和粒度。
?無(wú)訓(xùn)練路由:無(wú)訓(xùn)練路由利用預(yù)訓(xùn)練大語(yǔ)言模型(LLM)的固有知識(shí)和推理能力,將查詢(xún)分類(lèi)為合適的檢索類(lèi)型,而無(wú)需額外訓(xùn)練。具體來(lái)說(shuō),給定一個(gè)查詢(xún)q,向大語(yǔ)言模型(LLM)提供描述路由任務(wù)的詳細(xì)指令,并附帶幾個(gè)上下文示例,然后從一組六個(gè)預(yù)定義選項(xiàng)中預(yù)測(cè)最合適的檢索類(lèi)型。
?訓(xùn)練路由:我們進(jìn)一步探索訓(xùn)練路由模塊,以實(shí)現(xiàn)更準(zhǔn)確的路由決策。然而,這種策略的一個(gè)關(guān)鍵挑戰(zhàn)是缺乏用于選擇最優(yōu)語(yǔ)料庫(kù)的真實(shí)查詢(xún) - 標(biāo)簽對(duì)。為了解決這個(gè)問(wèn)題,我們利用現(xiàn)有基準(zhǔn)測(cè)試的特定模態(tài)歸納偏差來(lái)構(gòu)建路由的訓(xùn)練數(shù)據(jù)集,即我們假設(shè)每個(gè)基準(zhǔn)測(cè)試主要與特定的模態(tài)和檢索粒度相關(guān)聯(lián)。具體來(lái)說(shuō),對(duì)于文本問(wèn)答基準(zhǔn)測(cè)試,僅基于模型參數(shù)知識(shí)就能回答的數(shù)據(jù)集查詢(xún)標(biāo)記為 “None”,單跳檢索增強(qiáng)生成(RAG)基準(zhǔn)測(cè)試的查詢(xún)標(biāo)記為 “Paragraph”,多跳檢索增強(qiáng)生成(RAG)基準(zhǔn)測(cè)試的查詢(xún)標(biāo)記為 “Document”。類(lèi)似地,基于圖像的檢索增強(qiáng)生成(RAG)基準(zhǔn)測(cè)試的查詢(xún)標(biāo)記為 “Image”。對(duì)于視頻問(wèn)答基準(zhǔn)測(cè)試,關(guān)注視頻中局部事件或特定時(shí)刻的查詢(xún),如識(shí)別特定時(shí)間戳的動(dòng)作,標(biāo)記為 “Clip”,而需要理解完整故事情節(jié)或更廣泛時(shí)間上下文的查詢(xún)標(biāo)記為 “Video”。使用這個(gè)構(gòu)建的數(shù)據(jù)集,我們訓(xùn)練路由在推理時(shí)預(yù)測(cè)給定查詢(xún)的適當(dāng)檢索類(lèi)型。
3 實(shí)驗(yàn)設(shè)置
在本節(jié)中,我們將解釋實(shí)驗(yàn)設(shè)置,包括數(shù)據(jù)集、模型、評(píng)估指標(biāo)和實(shí)現(xiàn)細(xì)節(jié)。
3.1 數(shù)據(jù)集
為了評(píng)估我們的框架在不同模態(tài)下的性能,我們編制了一個(gè)全面的問(wèn)答基準(zhǔn)測(cè)試,涵蓋六種不同的檢索設(shè)置:無(wú)檢索、段落、文檔、圖像、片段和視頻。
?問(wèn)答數(shù)據(jù)集:對(duì)于無(wú)檢索設(shè)置,我們使用 MMLU(Hendrycks 等人,2021),它在不需要外部知識(shí)源的情況下評(píng)估模型的知識(shí)。對(duì)于文本檢索設(shè)置,我們納入了三個(gè)基準(zhǔn)測(cè)試:SQuAD(Rajpurkar 等人,2016)和自然問(wèn)題(NQ)(Kwiatkowski 等人,2019)作為單跳檢索增強(qiáng)生成(RAG)基準(zhǔn)測(cè)試,其中檢索單元是段落;而 HotpotQA(Yang 等人,2018)作為多跳檢索增強(qiáng)生成(RAG)基準(zhǔn)測(cè)試,其中檢索單元是文檔。對(duì)于圖像檢索設(shè)置,我們使用 WebQA(Chang 等人,2022)的一個(gè)子集,該子集包含需要外部圖像支持的查詢(xún)。最后,對(duì)于視頻檢索設(shè)置,我們使用來(lái)自 LVBench(Wang 等人,2024a)、VideoRAG-Wiki(Jeong 等人,2025)和 VideoRAG-Synth(Jeong 等人,2025)的查詢(xún)。其中,針對(duì)短視頻片段或局部?jī)?nèi)容的查詢(xún)被歸類(lèi)為片段級(jí)查詢(xún),而需要理解長(zhǎng)視頻或整個(gè)視頻的查詢(xún)被視為視頻級(jí)查詢(xún)。
?檢索語(yǔ)料庫(kù):為了支持跨模態(tài)和粒度的檢索,我們?yōu)槊總€(gè)模態(tài)和粒度構(gòu)建了特定的檢索語(yǔ)料庫(kù)。對(duì)于段落級(jí)檢索,我們使用從 SQuAD 和自然問(wèn)題(NQ)派生的維基百科段落語(yǔ)料庫(kù)(Karpukhin 等人,2020)。在文檔級(jí)檢索的情況下,我們遵循 LongRAG(Jiang 等人,2024)的構(gòu)建方法,構(gòu)建一個(gè)聚合的維基百科文章語(yǔ)料庫(kù)。在圖像檢索方面,我們使用的檢索語(yǔ)料庫(kù)由WebQA數(shù)據(jù)集中的圖像構(gòu)成。對(duì)于與視頻相關(guān)的檢索,我們定義了兩個(gè)單獨(dú)的語(yǔ)料庫(kù):視頻檢索語(yǔ)料庫(kù)由來(lái)自LVBench和VideoRAG的完整YouTube視頻組成,而片段級(jí)檢索語(yǔ)料庫(kù)則包含從相同視頻中提取的剪輯片段。附錄A中提供了有關(guān)數(shù)據(jù)集構(gòu)建的更多詳細(xì)信息。
3.2 模型
我們將 UniversalRAG 與八種不同的基線模型進(jìn)行比較,具體如下:1)Na?ve 模型在回答查詢(xún)時(shí)不檢索外部知識(shí)。2)Paragraph、3)Document、4)Image、5)Clip 和 6)Video 模型僅從各自特定模態(tài)的語(yǔ)料庫(kù)中檢索信息。7)Unified 模型使用多模態(tài)編碼器 InternVideo2(Wang 等人,2024b)在不同語(yǔ)料庫(kù)的所有數(shù)據(jù)的單一統(tǒng)一嵌入空間中檢索信息,類(lèi)似于(Zhang 等人,2025;Wei 等人,2024)。8)Random 模型隨機(jī)選擇一個(gè)特定模態(tài)的語(yǔ)料庫(kù)進(jìn)行檢索。我們還實(shí)現(xiàn)了 UniversalRAG 的三個(gè)變體,其檢索器組件有所不同。9)GPT-4o 采用 GPT-4o(OpenAI 等人,2024)作為無(wú)訓(xùn)練的路由器。10)DistilBERT 和 11)T5-Large 分別使用 DistilBERT(Sanh 等人,2019)和 T5-Large(Raffel 等人,2020),并在路由數(shù)據(jù)集上進(jìn)行訓(xùn)練。12)Oracle 是我們的理想設(shè)置,其中每個(gè)查詢(xún)都被路由到最合適的特定模態(tài)語(yǔ)料庫(kù),模擬完美的路由。
3.3 評(píng)估指標(biāo)
我們使用以下指標(biāo)評(píng)估 UniversalRAG 和基線模型的性能。對(duì)于多項(xiàng)選擇題的基準(zhǔn)測(cè)試,我們使用 Top1 準(zhǔn)確率(Acc),它表示正確回答的問(wèn)題數(shù)量。對(duì)于答案較短的基準(zhǔn)測(cè)試,我們使用精確匹配(EM),用于檢查預(yù)測(cè)響應(yīng)是否與正確答案完全匹配;以及 F1 分?jǐn)?shù)(F1),用于衡量響應(yīng)與參考答案在單詞級(jí)別的重疊程度。最后,對(duì)于答案較長(zhǎng)的基準(zhǔn)測(cè)試,我們使用 ROUGE-L,它捕捉預(yù)測(cè)答案與正確答案之間最長(zhǎng)的匹配序列(Lin,2004);以及 BERTScore,它使用上下文嵌入來(lái)衡量響應(yīng)與注釋之間的語(yǔ)義相似度(Zhang 等人,2020)。
3.4 實(shí)現(xiàn)細(xì)節(jié)
為了有效地從不同模態(tài)中檢索信息,我們利用特定模態(tài)的編碼器:bge-large-en-v1.5(Xiao 等人,2024)作為文本編碼器,InternVideo2(Wang 等人,2024b)作為視覺(jué)編碼器。對(duì)于響應(yīng)生成,我們使用多種大型視覺(jué)語(yǔ)言模型(LVLMs),包括 InternVL2.5-8B(Chen 等人,2025)、Qwen2.5-VL7B-Instruct(Bai 等人,2025)和 Phi-3.5-Vision-Instruct(Abdin 等人,2024)。對(duì)于路由器模塊,可訓(xùn)練的路由器以 2e-5 的學(xué)習(xí)率訓(xùn)練 5 個(gè) epoch,并根據(jù)驗(yàn)證準(zhǔn)確率選擇最佳的檢查點(diǎn)。在無(wú)訓(xùn)練設(shè)置中,通過(guò)圖 6 所示的提示實(shí)例化 GPT-4o(OpenAI 等人,2024)。附錄 B 中提供了更多詳細(xì)信息。
4 實(shí)驗(yàn)結(jié)果與分析
現(xiàn)在我們展示結(jié)果并進(jìn)行深入分析。
4.1 主要結(jié)果
這里,我們展示了跨多種模態(tài)和粒度級(jí)別的不同檢索場(chǎng)景的整體結(jié)果。
?整體結(jié)果:首先,圖 3 展示了 UniversalRAG 和基線模型在八個(gè)多模態(tài)基準(zhǔn)測(cè)試中的平均得分,表 1 提供了結(jié)果的詳細(xì)細(xì)分。UniversalRAG 在平均得分上始終優(yōu)于所有基線模型,證明了通過(guò)自適應(yīng)語(yǔ)料庫(kù)選擇利用多種模態(tài)的有效性。與提供有限信息的單模態(tài)語(yǔ)料庫(kù)不同,UniversalRAG 為每個(gè)查詢(xún)動(dòng)態(tài)選擇最相關(guān)的模態(tài),實(shí)現(xiàn)更準(zhǔn)確的檢索和生成。有趣的是,UniversalRAG 顯著優(yōu)于 Unified 基線模型,突出了我們的路由策略在現(xiàn)實(shí)多模態(tài)設(shè)置中的有效性。具體而言,Unified 基線模型由于其統(tǒng)一嵌入空間中的模態(tài)差距而表現(xiàn)不佳,常常默認(rèn)僅檢索文本數(shù)據(jù),從而導(dǎo)致性能下降。UniversalRAG 通過(guò)使用路由器選擇單個(gè)特定模態(tài)語(yǔ)料庫(kù)進(jìn)行檢索來(lái)緩解此問(wèn)題,有效地解決了模態(tài)差距。鑒于在構(gòu)建跨模態(tài)統(tǒng)一嵌入空間時(shí)避免模態(tài)差距存在固有的挑戰(zhàn),我們基于路由器的策略為解決這一問(wèn)題提供了一個(gè)有前景的方向。
表1:不同檢索增強(qiáng)生成(RAG)變體,包括通用檢索增強(qiáng)生成(UniversalRAG)和基線模型,在特定模態(tài)基準(zhǔn)測(cè)試上的結(jié)果。我們的方法通用檢索增強(qiáng)生成(UniversalRAG),以彩色單元格表示,包括針對(duì)DistilBERT和T5-Large的訓(xùn)練方法,而GPT-4o以無(wú)訓(xùn)練方式運(yùn)行。加粗表示每個(gè)指標(biāo)的最佳性能;下劃線表示通用檢索增強(qiáng)生成(UniversalRAG)方法中的第二好性能。R-L和BERT分別指ROUGE-L和BERTScore。
?路由器的有效性:在 UniversalRAG 模型中,經(jīng)過(guò)訓(xùn)練的路由器模型在所有使用不同大型視覺(jué)語(yǔ)言模型(LVLMs)的實(shí)驗(yàn)中均比無(wú)訓(xùn)練的路由器模型取得更好的結(jié)果。這種改進(jìn)是由于經(jīng)過(guò)訓(xùn)練的路由器在訓(xùn)練過(guò)程中針對(duì)路由任務(wù)進(jìn)行了明確的優(yōu)化,從而帶來(lái)了卓越的路由性能。因此,具有訓(xùn)練路由器的 UniversalRAG 模型更擅長(zhǎng)識(shí)別最優(yōu)數(shù)據(jù)源并生成更準(zhǔn)確的答案。盡管如此,無(wú)訓(xùn)練的路由器仍然優(yōu)于包括隨機(jī)路由器在內(nèi)的其他基線方法,表明在我們的框架中零樣本路由仍然有效。為了進(jìn)一步了解路由對(duì)整體系統(tǒng)性能的影響,我們分析了每個(gè)路由器模型的準(zhǔn)確率和相應(yīng)的整體得分。圖 4 展示了零樣本和訓(xùn)練路由器模型的混淆矩陣。雖然兩種路由器通常都能成功將輸入導(dǎo)向適當(dāng)?shù)哪B(tài),但訓(xùn)練路由器的準(zhǔn)確率明顯高于無(wú)訓(xùn)練的模型。值得注意的是,對(duì)于 Clip 和 Video 模態(tài),存在一些誤路由的查詢(xún),主要是由于區(qū)分兩種不同粒度的模糊性。盡管如此,輸入仍然被正確路由到視頻模態(tài),突出了路由機(jī)制的穩(wěn)健性。如表 2 所示,我們的路由方法在路由準(zhǔn)確率方面顯著優(yōu)于隨機(jī)和統(tǒng)一基線模型。這種準(zhǔn)確率的提高直接轉(zhuǎn)化為更好的整體性能,證明了準(zhǔn)確路由與端到端有效性之間的強(qiáng)相關(guān)性。這些結(jié)果強(qiáng)調(diào)了將查詢(xún)正確路由到適當(dāng)模態(tài)語(yǔ)料庫(kù)的重要性,證明了在多模態(tài)檢索增強(qiáng)生成(RAG)場(chǎng)景中可靠路由器的必要性。
圖4:不同模型在域內(nèi)和域外查詢(xún)上的路由器預(yù)測(cè)混淆矩陣
表2:不同檢索方法在域內(nèi)和域外數(shù)據(jù)集上的路由器準(zhǔn)確率和生成性能
?多粒度的有效性:為了進(jìn)一步研究納入多個(gè)粒度級(jí)別的有效性,我們?cè)诖至6群图?xì)粒度檢索設(shè)置下評(píng)估 UniversalRAG。在無(wú)粒度(粗粒度)設(shè)置中,路由器將查詢(xún)分類(lèi)為四個(gè)主要模態(tài):無(wú)、文本、圖像或視頻。在有粒度(細(xì)粒度)設(shè)置中,我們進(jìn)一步細(xì)分模態(tài)以進(jìn)行更精確的檢索:文本分為段落和文檔級(jí)別,而視頻分為片段和完整視頻。在基準(zhǔn)測(cè)試中,我們使用 HotpotQA 評(píng)估跨多個(gè)實(shí)體的文檔級(jí)推理,使用 LVBench 評(píng)估片段級(jí)任務(wù),因?yàn)槠鋯?wèn)題通常可以使用短視頻片段回答。如表 3 所示,在所有路由器模型下,具有粒度的 UniversalRAG 在兩個(gè)基準(zhǔn)測(cè)試上始終優(yōu)于無(wú)粒度的模型。這突出了在文本和視頻語(yǔ)料庫(kù)中支持不同粒度級(jí)別可以通過(guò)使模型能夠根據(jù)每個(gè)查詢(xún)檢索適量的信息來(lái)提高 UniversalRAG 的性能。相比之下,沒(méi)有粒度控制的模型對(duì)所有查詢(xún)應(yīng)用相同的粒度級(jí)別,這可能導(dǎo)致信息檢索不足或過(guò)多。因此,支持多個(gè)粒度級(jí)別對(duì)于自適應(yīng)處理廣泛的用戶查詢(xún)至關(guān)重要。
表3:粒度對(duì)三個(gè)模型在兩個(gè)基準(zhǔn)測(cè)試上性能的影響。Gn表示粒度
4.2 分析與討論
這里,我們對(duì)性能改進(jìn)進(jìn)行詳細(xì)分析。
?域外數(shù)據(jù)集上的結(jié)果:為了研究我們方法的泛化能力,我們?cè)谖鍌€(gè)未見(jiàn)數(shù)據(jù)集上評(píng)估 UniversalRAG,附錄 A.2 中提供了每個(gè)基準(zhǔn)測(cè)試的詳細(xì)描述。如表 2 所示,GPT-4o 實(shí)現(xiàn)了最高的路由準(zhǔn)確率,甚至超過(guò)了其在域內(nèi)的性能,展示了強(qiáng)大的泛化能力。然而,訓(xùn)練后的路由器在域外數(shù)據(jù)上表現(xiàn)不佳,表明路由器對(duì)訓(xùn)練數(shù)據(jù)過(guò)擬合,這主要是由于訓(xùn)練數(shù)據(jù)中查詢(xún)的多樣性不足。圖 4 進(jìn)一步突出了域內(nèi)和域外數(shù)據(jù)集之間的性能權(quán)衡。受益于其穩(wěn)健的路由,GPT-4o 還實(shí)現(xiàn)了最高的平均問(wèn)答得分,優(yōu)于訓(xùn)練后的路由器和基線模型。作為解決兩種設(shè)置之間性能權(quán)衡的一種方法,我們引入了一種使用訓(xùn)練和無(wú)訓(xùn)練路由器的集成路由器。具體而言,如果訓(xùn)練路由器的路由結(jié)果置信度足夠高,則選擇該結(jié)果;否則,使用無(wú)訓(xùn)練路由器的響應(yīng)。這種策略使得在處理與域內(nèi)數(shù)據(jù)集特征相似的查詢(xún)時(shí)利用訓(xùn)練路由器,而對(duì)于不熟悉或域外的查詢(xún)則依賴(lài)無(wú)訓(xùn)練路由器的泛化路由能力。如表 2 所示,具有集成路由器的 UniversalRAG 在域內(nèi)和域外基準(zhǔn)測(cè)試中均表現(xiàn)出更好的性能。
?路由器大小的分析:為了評(píng)估路由器大小對(duì)路由準(zhǔn)確率的影響,我們使用不同模型大小的訓(xùn)練路由器評(píng)估 UniversalRAG。具體而言,我們訓(xùn)練了四個(gè)不同參數(shù)數(shù)量的 T5 模型變體,并使用 InternVL2.5 作為生成器來(lái)測(cè)量路由器準(zhǔn)確率。如表 4 所示,路由器準(zhǔn)確率隨模型大小變化很大,表明較大的模型在跨模態(tài)和粒度進(jìn)行準(zhǔn)確路由決策方面更有效。
表4:不同路由器模型大小下的路由器準(zhǔn)確率
?不同模型大小的分析:為了了解 UniversalRAG 的性能如何隨大型視覺(jué)語(yǔ)言模型(LVLM)大小擴(kuò)展,我們使用不同大小的 InternVL2.5 模型評(píng)估我們的模型和基線模型,如圖 5 所示。在所有模型大小下,UniversalRAG 的得分持續(xù)提高并優(yōu)于其他基線模型。這表明 UniversalRAG 具有可擴(kuò)展性,并意味著通過(guò)使用更大的大型視覺(jué)語(yǔ)言模型(LVLMs)可以提高其性能。
?案例研究:我們?cè)诟戒?D 中展示了 UniversalRAG 的案例研究。
圖5:不同生成模型(InternVL2.5)大小下的生成性能
5 相關(guān)工作
5.1 大型視覺(jué)語(yǔ)言模型
基于大語(yǔ)言模型(LLMs)的強(qiáng)大性能,研究人員致力于使大語(yǔ)言模型(LLMs)能夠理解視覺(jué)信息。Liu 等人(2023)率先引入了大型視覺(jué)語(yǔ)言模型(LVLMs),通過(guò)采用基于 CLIP(Radford 等人,2021)的圖像編碼器,使語(yǔ)言模型能夠在其文本特征空間中理解輸入圖像。此后,各種圖像理解語(yǔ)言模型相繼推出,它們?cè)诖笳Z(yǔ)言模型(LLMs)上使用不同的視覺(jué)編碼器(Bai 等人,2023;Chen 等人,2024c;Liu 等人,2024)。隨著圖像理解性能的提升,一些研究將這些方法擴(kuò)展到視頻數(shù)據(jù),視頻可視為圖像幀的序列(Li 等人,2024a;Chen 等人,2025;Bai 等人,2025)。由于更大的訓(xùn)練數(shù)據(jù)集和改進(jìn)的模型結(jié)構(gòu),當(dāng)前的大型視覺(jué)語(yǔ)言模型(LVLMs)在多個(gè)基準(zhǔn)測(cè)試評(píng)估中顯示出強(qiáng)大的圖像和視頻理解能力(Yue 等人,2024;Mathew 等人,2021;Li 等人,2024b;Fu 等人,2024)。然而,獨(dú)立的大型視覺(jué)語(yǔ)言模型(LVLMs)經(jīng)常受到幻覺(jué)的困擾,這主要是由于其基礎(chǔ)語(yǔ)言模型繼承的有限知識(shí)邊界。
5.2 檢索增強(qiáng)生成
檢索增強(qiáng)生成(RAG)可以通過(guò)在生成答案時(shí)納入外部知識(shí)來(lái)解決上述挑戰(zhàn);然而,傳統(tǒng)的檢索增強(qiáng)生成(RAG)方法僅依賴(lài)文本數(shù)據(jù),而最近的研究開(kāi)始探索跨多種多模態(tài)語(yǔ)料庫(kù)的檢索增強(qiáng)生成(RAG),凸顯了其在純文本設(shè)置之外的巨大潛力。具體而言,基于圖像的檢索增強(qiáng)生成(RAG)(Chen 等人,2022;Riedler 和 Langer,2024)是多模態(tài)檢索增強(qiáng)生成(RAG)的首次嘗試,它檢索并使用視覺(jué)信息來(lái)回答查詢(xún)。此外,Jeong 等人(2025)最近將檢索增強(qiáng)生成(RAG)擴(kuò)展到視頻,捕捉視覺(jué)和時(shí)間元素以回答與過(guò)程相關(guān)的問(wèn)題。盡管取得了這些進(jìn)展,但大多數(shù)現(xiàn)有方法僅考慮單模態(tài)語(yǔ)料庫(kù),鑒于現(xiàn)實(shí)世界的查詢(xún)可能需要任何模態(tài)的信息,這并不實(shí)際。因此,利用所有可用數(shù)據(jù)來(lái)生成最佳答案至關(guān)重要,而不是將模型限制在有限的模態(tài)中。最近的方法(Cui 等人,2024;Liu 等人,2025a)支持從多模態(tài)語(yǔ)料庫(kù)中檢索,但通常從所有可用模態(tài)中檢索,并且僅在檢索后甚至生成后才決定使用哪些信息,這效率低下且無(wú)法使檢索適應(yīng)查詢(xún)的特定需求。
處理多樣化的查詢(xún)需要一種能夠適應(yīng)特定上下文和查詢(xún)的檢索增強(qiáng)生成(RAG)方法,而不是使用單一固定的方法。一種有前景的方法是根據(jù)預(yù)定義的復(fù)雜度級(jí)別對(duì)查詢(xún)進(jìn)行路由(Jeong 等人,2024;Tang 等人,2025;Islam 等人,2024),將它們分類(lèi)為不需要檢索、單步檢索或多步檢索,以平衡性能和延遲。另一種策略利用模型置信度(Ding 等人,2024;Yao 等人,2024),僅在模型置信度較低時(shí)檢索外部信息,從而有效地將資源分配給具有挑戰(zhàn)性的查詢(xún)。盡管自適應(yīng)檢索已成為檢索增強(qiáng)生成(RAG)的核心,但現(xiàn)有基準(zhǔn)測(cè)試(Zhang 等人,2024;Li 等人,2024c)主要評(píng)估純文本系統(tǒng),如何在多模態(tài)中進(jìn)行自適應(yīng)檢索仍是一個(gè)開(kāi)放問(wèn)題。在現(xiàn)實(shí)世界場(chǎng)景中,查詢(xún)從不同的數(shù)據(jù)類(lèi)型中受益,因此在混合模態(tài)語(yǔ)料庫(kù)中識(shí)別最適合檢索的模態(tài)至關(guān)重要。
5.3 檢索粒度
語(yǔ)料庫(kù)索引的大小,即檢索粒度,是檢索中的一個(gè)關(guān)鍵設(shè)計(jì)選擇,因?yàn)樗@著影響檢索增強(qiáng)生成(RAG)的性能和效率。Chen 等人(2024b)發(fā)現(xiàn),從以命題為索引的語(yǔ)料庫(kù)中檢索優(yōu)于句子或段落級(jí)別的檢索性能。最近的研究(Liu 等人,2025b;Zhong 等人,2025)也表明,考慮多個(gè)粒度可以實(shí)現(xiàn)更好的檢索性能。同樣,研究了粒度感知的文本到視頻檢索,以從視頻語(yǔ)料庫(kù)中找到與查詢(xún)相關(guān)的特定片段,而不僅僅是完整視頻(Chen 等人,2023)。因此,在多模態(tài)語(yǔ)料庫(kù)中,僅選擇合適的模態(tài)是不夠的;系統(tǒng)還應(yīng)確定最佳的檢索粒度級(jí)別。
6 結(jié)論
在本文中,我們提出了 UniversalRAG,這是一種新穎的檢索增強(qiáng)生成(RAG)框架,旨在從具有不同模態(tài)和粒度的語(yǔ)料庫(kù)中進(jìn)行檢索。通過(guò)模態(tài)和粒度感知的路由機(jī)制,UniversalRAG 為每個(gè)查詢(xún)動(dòng)態(tài)選擇最合適的知識(shí)源,有效地解決了模態(tài)差距和固定粒度檢索帶來(lái)的限制。在 8 個(gè)基準(zhǔn)測(cè)試中的廣泛評(píng)估表明,UniversalRAG 始終優(yōu)于特定模態(tài)和統(tǒng)一的基線模型,展示了在不同模態(tài)下的強(qiáng)大性能。此外,我們的分析強(qiáng)調(diào)了細(xì)粒度檢索的重要性以及無(wú)訓(xùn)練和訓(xùn)練路由器的互補(bǔ)優(yōu)勢(shì)。這些發(fā)現(xiàn)展示了 UniversalRAG 作為一種自適應(yīng)解決方案的潛力,用于將大型視覺(jué)語(yǔ)言模型(LVLMs)與異構(gòu)外部知識(shí)相結(jié)合,為更可靠的多模態(tài)推理和模態(tài)感知信息集成開(kāi)辟了新的方向。
本文轉(zhuǎn)載自?AIRoobt?? ,作者:Yunxin Li等
