成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<table id="0gwyg"><small id="0gwyg"></small></table>

<rt id="0gwyg"></rt>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

再談大模型長文本分塊，以及分塊在RAG中的作用？原創

發布于 2024-12-19 14:39

瀏覽

0收藏

“ 向量數據庫的檢索原理，就是存儲不同數據之間的向量關系，在檢索時通過向量關系查詢相關數據 ”

文本分塊也就是chunk技術是大模型領域中非常重要的一項技術，原因就在于大模型眾所周知的問題，上下文窗口限制；雖然說現在大模型的窗口經過幾次擴容之后已經達到了一個非?？捎^的長度，但依然還存在很多問題。

比如說，長文本導致的模型幻覺問題；中間丟失現象等多種性能問題；而且，在RAG技術中，長文本也是一個亟待解決的問題。

而現在業內普遍的處理方式就是文本分塊，把一段長文本根據某種方式拆分成多種小的文本塊；這樣就有助于大模型進行處理，也能間接降低大模型的幻覺等問題。

文本分塊

在大模型上下文窗口中文本分塊就比較好理解，這就類似于我們平常看一本很厚的書；我們無法做到一次就給全部看完，因此常見的做法就是今天看一點，明天看一點，然后一段時間之后就看完了。

而我們在看書的過程中，比如昨天看了一部分停了下來；今天接著看，但可能我們一時想不起來昨天看到哪里了；因此就會找到昨天看的大概位置再往前一點，這樣有助于我們回憶昨天看的內容；也有助于上下文的連貫性。

而大模型長文本處理有一種方式也是采用類似的方式，那就是把文本按照chunk_size進行分塊；然后使用chunk_overlap重疊一部分內容。而chunk_overlap重疊的部分就相當于我們看書時往前看的一部分，這樣有助于上下文的連貫性，特別是對大模型這種沒有記憶能力的系統來說。

而在代碼方面具體的表現就如下所示，加載文檔之后使用分詞工具根據不同的長度進行分詞，分詞的長度和重疊部分就是由chunk_size和chunk_overlap來指定，之后再轉化為向量。

"""
加載文檔
"""
def load_documents(directory=dir_path):
    loader = DirectoryLoader(directory)
    documents = loader.load()


    # for document in documents:
    #     print(document)
    # 文檔分割
    text_spliter = CharacterTextSplitter(chunk_size=256, chunk_overlap=10)
    spliter_docs = text_spliter.split_documents(documents)


    return spliter_docs

當然，在一些沒有語義相關的上下文中，也可以不使用chunk_overlap參數；只根據chunk_size或其它方式進行分塊。比如說，今天工作日我在上班；今天天氣不錯；這兩句話從語義上來說沒有任何相關性，因此可以進行完全分塊。

雖然說文本分塊是大模型技術中很常見的一種處理方式，但現在有一個疑問就是；在大模型上下文窗口中這樣的使用方式很容易理解；但在RAG中就存在一個問題。

RAG中一般使用向量數據庫作為數據的存儲方式，原因就在于向量數據庫能很好的保證文本之間的語義關系(也有圖像關系，混合關系等多種情況)。

但長文本被分塊之后，在向量數據庫中的表現形式也是一條一條的記錄；如果說一條語義相關的長文本被拆分成多個小塊，然后存儲在向量數據庫的不同位置。

再談大模型長文本分塊，以及分塊在RAG中的作用？-AI.x社區

這時在進行向量檢索時，向量數據庫是怎么保證檢索內容的相關性的？

難道是因為具有語義相關的內容被保存在相近距離的向量空間中？比如歐氏距離就是通過計算不同向量之間的距離來表示其相關性。

但如果面對著百億級以上的向量存儲需求，向量數據庫怎么保證快速且準確高效的檢索到相關數據？

個人猜測，長文本被拆分之后，為了保證語義相關性，因此采用了chun_overlap的方式來讓拆分的文本有重疊的內容；根據這些重疊的內容，在進行向量計算的時候會把這相關的數據放到一塊；或者能夠通過一種方式進行快速檢索。

如下圖所示，文本被拆分之后，因為有chunk_overlap參數關聯文本的語義關系；那么，在向量數據庫中就會把語義相關的內容記錄到更近的位置；這樣在檢索的時候，就可以根據向量之間的關系獲取相關的數據。

再談大模型長文本分塊，以及分塊在RAG中的作用？-AI.x社區

這就類似于傳統SQL語句的like功能，可以根據某個字段或語句查詢到多條記錄；然后再從這多條記錄中篩選出語義相關性最高的數據。

但這同樣有新的問題，那就是chunk_overlap只是文檔拆分的一種方式；還有很多其它的方式可以拆分；那么這就說明一件事，chunk_overlap只是一種表象，核心在于怎么保證上下文語義的相關性；如果不使用chunk_overlap的方式，或者不使用歐式距離的計算方式，那么怎么才能保證文本上下文的相關性呢？

而且，我們都知道大模型是經過訓練和微調的方式，通過不斷調整神經網絡的參數值來“學習”不同文本(多模態)數據之間的關系，那這個學習的過程是不是就是在不斷的計算向量之間的關系？

本文轉載自公眾號AI探索時代作者：DFires

原文鏈接：??https://mp.weixin.qq.com/s/VL10Snh_jqbtGLR38vOXMQ??

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

贊

收藏

回復

舉報

回復

相關推薦

文本分塊哪家強？LumberChunker、語義分塊、段落級、循環分塊、HyDE、命題級

PaperAgent ? 4172瀏覽 ? 0回復
檢索生成(RAG) vs 長文本大模型：實際應用中如何選擇？

Baihai_IDP ? 3147瀏覽 ? 0回復
RAG技術性能提升之文檔分塊策略方案

AIGC觀察者 ? 5358瀏覽 ? 0回復
Unstructured專家分享RAG應用中文檔分塊（Chunking）的最佳實踐

Syrupup ? 5091瀏覽 ? 0回復
NeedleBench 超長文本評測基準：大語言模型能否在 1000K 長度上檢索推理？

戀戀青鳥 ? 3029瀏覽 ? 0回復
清華大學揭露RAG的雙面性：全面分析揭示大模型中RAG噪聲的作用

AI論文解讀 ? 4672瀏覽 ? 0回復
AI存儲：存儲系統在優化AI訓練中的關鍵作用

chengganfei ? 5326瀏覽 ? 0回復
再談大模型檢索增強生成——RAG

AI探索時代 ? 2268瀏覽 ? 0回復
大模型技術的重點與難點，以及在實際操作中需要注意的事項

AI探索時代 ? 5627瀏覽 ? 0回復
大模型長文本所面臨的主要問題

AI探索時代 ? 3181瀏覽 ? 0回復
為什么分塊在RAG技術中很重要？但又很沒有存在感？

AI探索時代 ? 2175瀏覽 ? 0回復
如何優化大型語言模型（LLM）的分塊策略

51CTO內容精選 ? 2756瀏覽 ? 0回復
提升RAG性能：分塊后，Chunk Enrichment的2個關鍵優化步驟不可錯過

凝固的雨_1 ? 2783瀏覽 ? 0回復
Kimi的長文本能力：為何優于其他大模型

風云2002_1 ? 2585瀏覽 ? 0回復
RAG常見13種分塊策略大總結（一覽表）

大模型自然語言處理 ? 2339瀏覽 ? 0回復
RAG分塊優化之語義分塊方法CrossFormer模型技術思路

大模型自然語言處理 ? 1843瀏覽 ? 0回復
基于文本結構分塊 - 文本分塊（Text Splitting），RAG不可缺失的重要環節

AI取經路 ? 1254瀏覽 ? 0回復
拋棄 OCR，拋棄文本提取，拋棄分塊！提升RAG性能的新方法！

Syrupup ? 1228瀏覽 ? 0回復
文本分塊（Text Splitting），RAG不可缺失的重要環節

AI取經路 ? 1194瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇：什么是相似性搜索？大模型的底座技術

下一篇：影響RAG檢索效果的原因有那些？

社區精華內容

目錄

主站蜘蛛池模板：少妇特黄a一区二区三区88av | 精品一区二区三区在线观看国产 | 粉嫩一区二区三区性色av | 国产91视频播放 | 久草综合在线视频 | 综合第一页 | 在线看一区二区 | 久久久精品网站 | 精品毛片在线观看 | 国产精品国产成人国产三级 | 日韩成年人视频在线 | 伊人春色成人 | 久久久久资源 | 91在线视频观看 | 成年人在线观看视频 | 国产一区二区三区亚洲 | 亚州午夜精品 | 视频一二三区 | 亚洲成人999 | www.亚洲 | 狠狠操你 | 亚洲精品视频在线观看视频 | 国产精品资源在线观看 | 精品国产欧美一区二区 | 一级黄色生活视频 | 中文字幕日韩欧美一区二区三区 | 精精精精xxxx免费视频 | 国产精品久久久久久久久久久久 | 中文精品视频 | v亚洲 | 成人国产精品久久久 | 久久99网 | 中文在线一区二区 | 日韩欧美三级 | 国产精品久久久久永久免费观看 | 亚洲成人精品免费 | 亚洲国产一 | 日韩精品免费视频 | 在线视频一区二区三区 | 欧美日韩亚洲在线 | 精品国产乱码久久久久久蜜退臀 |

<delect id="a4i86"><blockquote id="a4i86"></blockquote></delect>

<menu id="a4i86"><strong id="a4i86"></strong></menu>

<noscript id="a4i86"><small id="a4i86"></small></noscript>

<noscript id="a4i86"><pre id="a4i86"></pre></noscript>