成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

關于打造高質量RAG系統的問題記錄 原創

發布于 2025-4-14 08:26
瀏覽
0收藏

“ RAG的核心是怎么快速準確地召回數據,但RAG的難點還有文檔處理等問題。”

RAG技術是目前大模型應用的主要技術方向之一,常被應用于數據檢索,智能客服等應用場景;而最近在做一個問答系統的場景,使用到了RAG技術,因此今天再來記錄一下關于RAG在實際場景中所遇到的問題。

關于打造高質量RAG系統的問題記錄-AI.x社區

關于RAG的問題

關于RAG的整體流程這里就不多做介紹了,總而言之RAG的核心點有兩個,其一是檢索,其二是生成;生成這里就不多說了,生成的質量一靠大模型的能力,二靠提示詞的質量,三靠檢索回來的語料質量。

所以,我們今天主要討論的就是關于檢索的問題;RAG系統和訓練大模型一樣,都需要高質量的數據集;所以RAG在檢索方面的核心問題就是怎么打造一個高質量的檢索系統,其中包括各種文檔的加載,切分和嵌入(embedding),以及上下文的語義關系。

所以,RAG檢索模塊需要兩個核心工具,嵌入模型和向量數據庫。

嵌入模型的作用是把人類使用的文檔轉換成向量的一種工具,并盡可能保證文檔的上下文關系和語義關系;

關于打造高質量RAG系統的問題記錄-AI.x社區

而向量數據庫就是用來存儲嵌入模型處理之后的向量數據,其主要作用是用來進行語義檢索。

由于需要進行語義檢索,因此向量數據庫是其中必不可少的工具,當然在某些場景下可以使用精確檢索的方式,這時也可以不使用向量數據庫。

OK上面是關于RAG兩個主要工具的介紹,但我們今天討論的主要問題不在這兩個工具上;而是其前置處理和怎么提高檢索效果。

文檔處理

文檔處理技術目前來說不僅僅是RAG技術要面臨的問題,任何需要數據的領域都無法避免這個問題。

之所以文檔處理很困難,原因就在于文檔的多樣化和復雜化;文檔多樣我想很多人應該都深有體會,我們常見的office三件套,PPT,WORD和EXCEL,這還僅僅只是最常見的三種格式。

關于打造高質量RAG系統的問題記錄-AI.x社區

其它還有csv,txt,markdown以及不同操作系統下特有的文件格式;這里就是文檔的多樣化。

而至于文檔的復雜化就更難處理了,比如說企業需要統計一下員工的個人信息,列好的表格,都能被填的亂七八糟;再加上文檔本身就像一張紙一樣,你可以在上面寫字,也可以畫圖,還能畫一些表結構。

雖然這些不同形式的數據對人來說很容易判斷和識別,但對文檔處理來說其難度卻不是簡單的1+1等于2的問題。

以word來說,文檔中同時存在文字描述,圖片描述和結構化內容——表格,圖表等數據,我們在進行embedding之前需要對文檔進行拆分(由于embedding能力限制 長文本處理效果不理想 因此常見的解決方案是對文檔進行拆分)。而同時面臨著這幾種類型的數據,應該怎么拆分?

文字,圖片,圖表混合出現,以什么為標準進行拆分,圖片數據怎么拆分?而且怎么識別文檔中那些部分是文字,那些是圖片,那些又是圖表?

目前面臨這種問題,我們主要采用的方式就是使用OCR技術,也就是光學識別,把里面的內容全部讀成文字,然后再進行嵌入;但說實話效果并不怎么樣。

關于文檔處理,不同的場景,不同的要求會有不同的處理方式;而在具體的實施過程中,每家公司和技術可能采用的方式都不盡相同。

數據檢索

如果說文檔處理和拆分只是RAG的第一步,那么怎么把數據高效和精確的檢索出來更是我們需要思考的問題。

以目前互聯網技術的發展來看,數據的增長每天都呈指數增加,而且非結構化格式的數據占比越來越多。

而面臨著如此龐大的數據,怎么快速和高效的處理是所有技術人員都困惑的問題。

如果說數據庫(傳統數據庫和向量數據庫)的作用是來格式化存儲數據,那么檢索就是怎么快速地從不同的數據庫中高效檢索出相匹配的數據。

關于打造高質量RAG系統的問題記錄-AI.x社區

在傳統的檢索系統中,主要采用的是關系型數據庫的精確字符匹配或者采用簡單的分詞技術進行檢索。

但在人工智能時代,人們對檢索數據的質量有了更高的要求;那就是不僅僅只進行簡單的字符匹配,還需要進行語義檢索。

簡單來說就是,你不但要聽到我說的是什么,而且你還要懂得我說的是什么意思。

而目前關于高效檢索的方式,基本上有以下幾種方案;同時使用精確匹配和語義匹配的方式,比如說可以先根據種類,組織結構等篩選出相關的數據,然后再使用語義檢索出相似的數據。

以買東西為例,我要買一雙鞋,這時就可以使用精確匹配的方式先把所有關于鞋的數據都找出來,比如說男鞋,夏季等;而根據這個條件對數據篩選一遍之后,再使用語義檢索,比如說一雙好看的夏天穿的男鞋;這個“好看”怎么進行精確匹配?所以只能進行語義匹配?

而好看的語義有哪些? 

帥,漂亮,可愛等等一系列與之相關的數據。

關于打造高質量RAG系統的問題記錄-AI.x社區


因此,這種采用根據語義延伸出來的多種相似語義檢索;還有其它如多路召回的方式,通過多種不同的召回策略,使用不同的條件,從多個不同的維度來檢索數據的方式就叫做多路召回。

比如說,你去市場上買東西,你讓小王去看幾家主要看成色怎么樣;讓小李再去看幾家主要看價格怎么樣等等;這樣最后匯總之后,對比成色,質量,價格等多個方面,然后選擇最優的一個方案;而最后匯總和選擇的過程就叫做重排序。

當然,面臨著復雜的數據和業務場景,以上方式你也可以多做幾次,以此來提升召回質量。

總之,RAG技術是一門入門五分鐘,做好可能五年時間都不夠的技術,其中涉及到各種復雜的技術,并且要面對各種各樣的問題。


本文轉載自公眾號AI探索時代 作者:DFires

原文鏈接:??https://mp.weixin.qq.com/s/Mcp_1e0jenzQniKUbVVnLQ??


?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
已于2025-4-14 08:26:33修改
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 欧美在线综合 | 色精品视频 | 精品久久久久久 | 成人一区二区电影 | 午夜免费福利影院 | 男女激情网站免费 | 国产片侵犯亲女视频播放 | 久久久夜色精品亚洲 | 超碰97人人人人人蜜桃 | 久久r免费视频 | 中文字幕男人的天堂 | 精品无码久久久久久国产 | 一区二区三区亚洲 | 国产一区二区在线免费观看 | 国产精品视频网 | 国产欧美一区二区三区日本久久久 | 啪视频在线 | 日韩一区二区在线视频 | 一级a性色生活片久久毛片 一级特黄a大片 | 欧美精品一区二区三区在线 | 久久久久久久av | 91精品国产91久久综合桃花 | 欧美一区二区三区视频 | 男人天堂视频在线观看 | xxxxx免费视频 | 九九精品在线 | 午夜理伦三级理论三级在线观看 | 日韩久久在线 | 国产中的精品av涩差av | 一区二区三区亚洲 | 久久久91| 久久久久一区二区三区 | 欧美性生交大片免费 | 一区二区三区四区免费在线观看 | 亚洲精品无人区 | 日韩欧美一区二区三区四区 | 日日噜噜夜夜爽爽狠狠 | 天堂av影院| 一区二区av| 美女黄视频网站 | 精品在线免费观看视频 |