成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

RAG技術落地的兩個問題及應對策略

人工智能
在使用RAG技術落地智能問答助手過程中,不管是使用開源、商業平臺、還是自研,引入OCR的能力和智能分段都是重要和實用的功能。

什么是RAG?

RAG的全稱是檢索增強生成(Retrieval-Augmented Generation,簡稱RAG),它結合了檢索和和生成技術,通過整合檢索系統和生成模型的優勢,來提升模型生成文本的質量和上下文相關性。這種技術主要是為了解決生成式模型在面對需要具體、實時或領域專業知識時可能產生的準確性不足和上下文不敏感的問題。

即它先根據外部知識庫搜索到的信息來作為上下文,再來輔助模型回答問題,使得模型的回答更準確。

比如你想做一個智能助手,當用戶提出一個問題時,需要在你給的知識庫里面先搜索出文檔片段,然后再把文檔片段和用戶問題一起丟給大模型,讓模型去回答問題,這樣的話模型就可以回答的更有針對性和準確性。這一定程度上可以解決大模型幻覺的問題。在之前的文章介紹過用RAG的技術來做智能問答  使用Dify 構建國土空間規劃智能問答應用 

標準RAG流程主要由三部分組成:

索引(向量嵌入),通過嵌入模型實現文本塊的向量編碼,寫入向量數據庫。

檢索(相似查詢),通過嵌入模型服務實現問題查詢的向量編碼,使用相似性查詢檢索到相關片段。

生成,將檢索到的片段結果作為上下文和問題一起提交給大模型處理。

圖片圖片

我這次碰到的兩個問題是在向量嵌入之前,一是對PDF掃描件的處理,二是文本分段。

01 PDF掃描件處理問題

還是先拿dify知識庫來測試給大家看看

這是原文件,是一個掃描件

圖片圖片

上傳到dify,發現文本分段環節分不出來段落,失敗了,不支持PDF掃描件。

圖片圖片

于是對比測試下別的平臺

打開阿里云百煉,發現是可以正常分段的。

圖片圖片

試試 RAGFlow,也是可以的。

圖片圖片

這兩家知識庫系統都預置了OCR的功能,先用OCR做了提取處理,再執行分段、嵌入的過程。

上周階躍星辰開源了他們的OCR產品:GOT-OCR2_0,我們可以來試試,還是剛剛的文件,轉成圖片格式上傳。效果如下~

圖片圖片

在政府或者企業內部落地智能問答場景時,存在大量的PDF掃描件,當然我們可以先對掃描件做轉換處理,再上傳到知識庫中。但如果知識庫預置OCR功能,在上傳掃描件時可以直接進行處理,還是蠻實用的一個功能。

02 文本分段問題

事情的起因為某用戶在使用我們的智能問答產品時,問了一個問題

圖片圖片

下面是我們助手的回答

圖片圖片

下圖是正確的答案,可以看出明顯回答得不正確。

圖片圖片

于是去dify知識庫排查,發現知識庫中是有這個文件的,但就是問不出來。根據前面RAG的流程,猜測可能是分段導致的問題,一看果然是因為之前上傳該文件到知識庫,是機械的按照字數進行的分段,從而導致沒有召回相關的片段。

當然dify是提供了自定義選項的,但分段標識符還挺難設置的,常見的可能設置成句號、問號、感嘆號啥的,但文檔的自然分段多種多樣,如使用數字標識段落

  1. 段落一
  2. 段落二

使用章節標識符

  • 第1章:標題
  • 1.1 子標題
  • 1.1.1 段落

圖片

于是去扣子上搭建一個智能問答應用來做對比測試。

先創建知識庫,上傳基本農田政策文件《自然資源部關于做好占用永久基本農田重大建設項目用地預審的通知》,可以看到扣子知識庫對上傳的文件做了比較好的分段,即按照段落進行分段,更符合原文的意思,不會把一個段落內容機械的按照字數分割成不同的段落,從而造成檢索時檢索不全或者檢索不到的問題。

圖片圖片

回答效果還可以。

圖片圖片

阿里云百煉平臺對文檔切分提供智能切分和自定義切分兩種方式

圖片圖片

智能切分對文本分段的效果是非常好的,基本上實現了按原文段落進行分段。

圖片圖片

圖片圖片

百度千帆大模型平臺:

圖片圖片

罷了罷了,操作還是這么復雜,體驗還是這么糟糕,還是熟悉的百度。

圖片圖片

 RAGFlow:

圖片圖片

QAnything:

沒把分塊展示出來,上傳文件以后直接提問

圖片圖片

回答的內容重復了。

圖片圖片

測試對比了dify、扣子、阿里云百煉、百度千帆、RAGFlow、QAnything等知識庫產品,有開源的、有商業,有大廠的,有小廠的,總的來說阿里云百煉對分段處理得最好。

dify知識庫一些功能還是做得不錯的,比如引入混合檢索和重排序,要是引入OCR和智能分段,那就更好了。

最近Anthropic分享RAG最佳實踐,提到了一種新的文檔分塊的方式,因為傳統的RAG系統有一個顯著的限制:它們經常破壞上下文,就算是智能分段,有些信息還是需要結合上下文來理解才更準確。

現在通過在嵌入之前將塊特定的解釋性上下文附加到每個塊之前(“上下文嵌入”)和創建BM25索引(“上下文BM25”)來解決這個問題,再結合重排序來降低檢索的失敗率。大家有興趣可以看看他們的實驗。

標準RAG流程標準RAG流程

上下文嵌入+BM25索引+重排序上下文嵌入+BM25索引+重排序

小結:在使用RAG技術落地智能問答助手過程中,不管是使用開源、商業平臺、還是自研,引入OCR的能力和智能分段都是重要和實用的功能。

參考資料

引入混合檢索(Hybrid Search)和重排序(Rerank)改進 RAG 系統召回效果

Anthropic分享RAG最佳實踐:Contextual Retrieval!

登頂Hugging Face總榜,創始人Clem點贊轉發,OCR-2.0火了!

本文轉載自微信公眾號「AI 思與行」,可以通過以下二維碼關注。轉載本文請聯系AI 思與行公眾號。

責任編輯:武曉燕 來源: AI 思與行
相關推薦

2021-02-26 10:51:18

云安全云計算網絡安全

2013-11-19 15:48:34

電商安全網購安全

2013-11-11 11:24:35

2024-07-29 00:01:00

RabbitMQ消息堆積

2011-05-24 17:47:40

2014-01-16 09:56:26

IPv6商用部署策略

2017-04-27 20:45:48

爬蟲反爬蟲

2018-12-11 13:46:54

2010-09-27 13:33:26

JVM異常

2013-12-16 11:18:42

多核

2020-03-31 10:37:14

物聯網安全物聯網IOT

2010-11-29 10:11:05

Sybase數據庫死鎖

2024-07-01 09:00:16

2021-12-31 16:10:46

穩定幣數字貨幣貨幣

2009-11-23 12:08:26

2012-10-09 15:50:19

IPv6

2023-10-18 14:14:59

數字化轉型

2009-12-25 09:05:12

2024-01-29 10:34:37

Java編程

2018-10-24 19:12:18

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 免费观看一级特黄欧美大片 | 国产成人影院 | 久久久久黄色 | 成人在线免费观看视频 | 成人精品国产一区二区4080 | 国产欧美日韩综合精品一区二区 | 99爱在线免费观看 | 观看av | 国产精品成人一区二区三区 | 欧洲妇女成人淫片aaa视频 | 日韩av成人在线 | 免费一区二区在线观看 | 国产一区二区三区网站 | 欧美一区二区三区四区五区无卡码 | 国产激情视频在线观看 | 日本一区二区影视 | 久久精品屋 | 天天草天天操 | 日本一区二区影视 | 麻豆视频在线免费看 | 亚洲手机视频在线 | 五月婷婷激情网 | 国产一区二区三区在线视频 | 视频第一区| 国产高清在线精品一区二区三区 | 五月综合色啪 | 在线久草| 亚洲精品福利视频 | 一道本在线 | 中文字幕动漫成人 | 欧美日韩久久 | 国产精品免费大片 | 黄视频网址 | 一级特黄在线 | 爱综合| 成人免费xxxxx在线视频 | 91在线看视频| 日本小视频网站 | 日韩成人在线视频 | 91视频在线 | 午夜久久久久久久久久一区二区 |