顛覆傳統(tǒng)RAG，創(chuàng)新大模型檢索增強(qiáng)—Insight-RAG

作者：AIGC開放社區(qū) 2025-04-29 09:15:49

Megagon實(shí)驗(yàn)室的研究人員提出了一種創(chuàng)新框架Insight-RAG，從而更好地捕捉任務(wù)特定的細(xì)微信息，整合的數(shù)據(jù)質(zhì)量也更高。

RAG已經(jīng)成為大模型的標(biāo)題，但傳統(tǒng)方法存在檢索深度不足、難以整合多源信息等弊端，例如，傳統(tǒng) RAG 依賴表面相關(guān)性檢索文檔，容易忽略單個(gè)文檔內(nèi)深埋的信息。在法律協(xié)議中，會(huì)忽略微妙的合同條款；在商業(yè)報(bào)告里，錯(cuò)過隱藏的數(shù)據(jù)趨勢(shì)。

所以，Megagon實(shí)驗(yàn)室的研究人員提出了一種創(chuàng)新框架Insight-RAG，從而更好地捕捉任務(wù)特定的細(xì)微信息，整合的數(shù)據(jù)質(zhì)量也更高。

洞察力識(shí)別器是Insight-RAG框架的第一步，其核心任務(wù)是從輸入查詢中提取關(guān)鍵的信息需求。通過分析輸入的查詢和任務(wù)背景，識(shí)別出完成任務(wù)所需的核心信息。

例如，如果任務(wù)是回答一個(gè)關(guān)于特定科學(xué)概念的問題，洞察力識(shí)別器會(huì)提取出問題中涉及的關(guān)鍵實(shí)體和關(guān)系，并將其轉(zhuǎn)化為一個(gè)可以被后續(xù)模塊理解的“洞察力”。

洞察力識(shí)別器會(huì)將輸入的查詢轉(zhuǎn)化為一個(gè)句子片段，這個(gè)句子片段是一個(gè)未完成的句子，需要后續(xù)模塊來補(bǔ)充完整。例如，對(duì)于問題“Person X的出生地是哪里？”洞察力識(shí)別器會(huì)提取出“Person X was born in”這樣的句子片段。該格式不僅簡(jiǎn)化了問題的表達(dá)，還為后續(xù)模塊提供了明確的檢索方向。

此外，洞察力識(shí)別器還會(huì)判斷問題的答案是否為多個(gè)。例如，如果問題是“加利福尼亞有哪些城市？”由于問題中使用了復(fù)數(shù)形式的名詞，因此答案應(yīng)該是多個(gè)城市。這一判斷將作為后續(xù)模塊處理問題的依據(jù)。

洞察力挖掘器是Insight-RAG框架的第二步，其任務(wù)是根據(jù)洞察力識(shí)別器提取的句子片段，從文檔數(shù)據(jù)庫(kù)中檢索出與之高度相關(guān)的具體內(nèi)容。這一模塊的核心是一個(gè)經(jīng)過專門訓(xùn)練的大型語(yǔ)言模型，該模型通過持續(xù)預(yù)訓(xùn)練的方式，學(xué)習(xí)如何從大量文檔中提取與任務(wù)相關(guān)的見解。

研究人員使用LLaMA-3.2 3B模型作為洞察力挖掘器，并對(duì)其進(jìn)行了持續(xù)預(yù)訓(xùn)練。

預(yù)訓(xùn)練過程中，模型不僅學(xué)習(xí)了原始文檔的內(nèi)容，還學(xué)習(xí)了從文檔中提取的三元組信息。這種雙重訓(xùn)練方式使得模型能夠更好地理解文檔中的語(yǔ)義關(guān)系，并能夠根據(jù)輸入的句子片段檢索出與之高度相關(guān)的具體內(nèi)容。

響應(yīng)生成器是Insight-RAG框架的最后一步，其任務(wù)是將原始查詢與洞察力挖掘器檢索到的具體內(nèi)容結(jié)合起來，生成一個(gè)上下文豐富且準(zhǔn)確的回答。這一模塊的核心是一個(gè)經(jīng)過微調(diào)的大型語(yǔ)言模型，通過整合原始查詢和檢索到的見解，生成一個(gè)完整的回答。

例如，如果原始問題是“Person X的出生地是哪里？”洞察力識(shí)別器提取出的句子片段是“Person X was born in”，而洞察力挖掘器檢索到的具體內(nèi)容是“New York”，那么響應(yīng)生成器將生成一個(gè)完整的回答：“Person X的出生地是紐約。”

響應(yīng)生成器的設(shè)計(jì)使得Insight-RAG框架能夠生成高質(zhì)量的回答，不僅考慮了文檔中的表面相關(guān)性，還深入挖掘了文檔中的語(yǔ)義信息。這種設(shè)計(jì)使得Insight-RAG框架在處理復(fù)雜任務(wù)時(shí)表現(xiàn)得更加出色。

為了評(píng)估Insight-RAG框架的性能，研究人員使用了AAN和OC兩個(gè)科學(xué)論文數(shù)據(jù)集進(jìn)行了綜合測(cè)試。

結(jié)果顯示，Insight-RAG框架在深層信息檢索任務(wù)中表現(xiàn)出色。與傳統(tǒng)的RAG方法相比，Insight-RAG在大多數(shù)情況下都能顯著提高準(zhǔn)確率。例如，在AAN數(shù)據(jù)集中，Insight-RAG的準(zhǔn)確率比傳統(tǒng)RAG方法提高了約60%。

Insight-RAG框架在多源信息聚合任務(wù)中同樣表現(xiàn)非常好。與傳統(tǒng)的RAG方法相比，Insight-RAG能夠更有效地聚合來自多個(gè)來源的信息，從而提高模型的性能。例如，在OC數(shù)據(jù)集中，Insight-RAG的準(zhǔn)確率比傳統(tǒng)RAG方法提高了約50%。

責(zé)任編輯：張燕妮來源： AIGC開放社區(qū)

AI 數(shù)據(jù)模型

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

顛覆傳統(tǒng)RAG，創(chuàng)新大模型檢索增強(qiáng)—Insight-RAG