成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<center id="io4u4"><tbody id="io4u4"></tbody></center>

<li id="io4u4"></li>

<input id="io4u4"><del id="io4u4"></del></input>

<option id="io4u4"><tr id="io4u4"></tr></option>

<input id="io4u4"><s id="io4u4"></s></input>

<sup id="io4u4"><input id="io4u4"></input></sup><li id="io4u4"></li>

<samp id="io4u4"><optgroup id="io4u4"></optgroup></samp>

<center id="io4u4"><source id="io4u4"></source></center>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

文本分塊哪家強？LumberChunker、語義分塊、段落級、循環分塊、HyDE、命題級

發布于 2024-6-28 14:09

瀏覽

0收藏

檢索增強生成（RAG）系統通過將模型生成與上下文相關文檔相結合來提高信息的準確性，文本內容如何分割成“塊（chunk）”對檢索質量有顯著影響。

用于問答實驗的RAG Pipeline，一些tricks，混合檢索：BM25-Top3、密集檢索-Top15，BM25的Top1排在前面，Top2-3排在最后；大模型重排序：如果上下文包含六個或更多塊，從中間點開始反轉塊的順序。

文本分塊哪家強？LumberChunker、語義分塊、段落級、循環分塊、HyDE、命題級-AI.x社區

LumberChunker方法利用LLM動態地將文檔分割成語義獨立的塊。這種方法基于一個前提：當內容塊的大小可以變化時，檢索效率會提高，因為這樣可以更好地捕捉內容的語義獨立性。LumberChunker通過迭代地提示LLM，在一系列連續段落中識別內容開始轉變的點，從而確保每個塊在上下文中是連貫的，但與相鄰塊有所區別。

LumberChunker遵循一個三步流程。首先，按段落對文檔進行分割。其次，通過追加連續的塊，創建一個組（Gi），直到超過預定義的標記計數θ。最后，將Gi作為上下文輸入到Gemini，Gemini確定顯著內容轉變開始出現的ID，從而定義了Gi+1的開始和當前塊的結束。這個過程在整個文檔中循環重復。

文本分塊哪家強？LumberChunker、語義分塊、段落級、循環分塊、HyDE、命題級-AI.x社區

實驗結果表明，LumberChunker在檢索性能上優于其他競爭性基線，特別是在DCG@20指標上，比最接近的競爭者（循環分塊：Recursive Chunking）高出7.37%；其它的競爭者分別是：語義分塊：Semantic Chunking、段落級：Paragraph-Level、HyDE、命題級：Proposition-Level。

在GutenQA（3000個QA）上使用不同粒度的問題和檢索語料庫段落的段落檢索性能（DCG@k和Recall@k）。每列中的最佳得分以粗體突出顯示。

文本分塊哪家強？LumberChunker、語義分塊、段落級、循環分塊、HyDE、命題級-AI.x社區

當LumberChunker集成到RAG流程中時，它被證明比其他分割方法和競爭性基線更有效。

文本分塊哪家強？LumberChunker、語義分塊、段落級、循環分塊、HyDE、命題級-AI.x社區

LumberChunker不足：

盡管它在性能上優于所有基線，但它需要使用LLM，這使得它在成本和速度上比傳統方法更高、更慢。

文本分塊哪家強？LumberChunker、語義分塊、段落級、循環分塊、HyDE、命題級-AI.x社區

LumberChunker專門設計用于敘事文本，對于高度結構化的文本，可能不是最優解決方案。

附錄：

LumberChunker Gemini Prompt示例，用于書籍《小熊維尼》由A. A.米爾恩著

文本分塊哪家強？LumberChunker、語義分塊、段落級、循環分塊、HyDE、命題級-AI.x社區

與表2中的例子不同，表3段落中的代詞“He”不能被準確共指，導致命題(propositions)有些模糊。因此，如果用戶問到“埃隆·馬斯克家族中誰曾經做過牛仔表演者？”這樣的問題，一個僅使用命題作為檢索單元的模型將無法提供準確的回答。

文本分塊哪家強？LumberChunker、語義分塊、段落級、循環分塊、HyDE、命題級-AI.x社區

在整個RAG流程中，除了Chunking，還涉及Embedding、Indexing等等，PaperAgent團隊RAG專欄進行過詳細的歸納總結：高級RAG之36技（術），可私信留言試看：RAG專欄。

https://github.com/joaodsmarques/LumberChunker
https://arxiv.org/pdf/2406.17526
LumberChunker: Long-Form Narrative Document Segmentation

本文轉載自??PaperAgent??

標簽

贊

收藏

回復

舉報

回復

相關推薦

微軟炸裂級單圖生數字人，Sora同款思路，“比AI劉強東還真”

Crystalcxt ? 3758瀏覽 ? 0回復
三萬字長文帶你揭開神秘面紗（數據級、模型級和系統級）

angel ? 1.3w瀏覽 ? 0回復
ICRA 2024：基于語義增強和動作分塊實現的樣本高效機械臂操作——RoboAgent

AIGC最前線 ? 3897瀏覽 ? 0回復
SIGGRAPH`24 | 毫米級接近真實動作生成！LGTM：文本驅動！(深大&快手&字節)

angel ? 3878瀏覽 ? 0回復
信息抽取哪家強？ChatGLM3、Qwen、Baichuan2、ChatGPT

PaperAgent ? 6074瀏覽 ? 0回復
RAG技術性能提升之文檔分塊策略方案

AIGC觀察者 ? 5373瀏覽 ? 0回復
Unstructured專家分享RAG應用中文檔分塊（Chunking）的最佳實踐

Syrupup ? 5106瀏覽 ? 0回復
為什么分塊在RAG技術中很重要？但又很沒有存在感？

AI探索時代 ? 2186瀏覽 ? 0回復
再談大模型長文本分塊，以及分塊在RAG中的作用？

AI探索時代 ? 3679瀏覽 ? 0回復
如何優化大型語言模型（LLM）的分塊策略

51CTO內容精選 ? 2762瀏覽 ? 0回復
提升RAG性能：分塊后，Chunk Enrichment的2個關鍵優化步驟不可錯過

凝固的雨_1 ? 2794瀏覽 ? 0回復
DeepSeek大模型一體機哪家強？

數字化助推器 ? 4205瀏覽 ? 0回復
傳統分塊已死？Agentic Chunking拯救語義斷裂，實測RAG準確率飆升40%，LLM開發者必看！

AI博物院 ? 3402瀏覽 ? 0回復
RAG常見13種分塊策略大總結（一覽表）

大模型自然語言處理 ? 2339瀏覽 ? 0回復
RAG分塊優化之語義分塊方法CrossFormer模型技術思路

大模型自然語言處理 ? 1843瀏覽 ? 0回復
基于文本結構分塊 - 文本分塊（Text Splitting），RAG不可缺失的重要環節

AI取經路 ? 1272瀏覽 ? 0回復
實測AI大模型：騰訊混元T1 vs DeepSeek 哪家強？

云中江樹 ? 1785瀏覽 ? 0回復
拋棄 OCR，拋棄文本提取，拋棄分塊！提升RAG性能的新方法！

Syrupup ? 1236瀏覽 ? 0回復
文本分塊（Text Splitting），RAG不可缺失的重要環節

AI取經路 ? 1223瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

Doc2X：為知識庫RAG接上高精度文檔解析的“智能引擎” 2天前發布
RAG-Anything：全面的一體化多模態文檔處理 RAG 系統 2天前發布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇： RAG生成任務：Base LLM竟然比Instruct LLM高出20%

下一篇： LazyLLM：低代碼構建多Agent大模型應用的開源項目

社區精華內容

目錄

主站蜘蛛池模板：毛片高清| 亚洲aⅴ一区二区 | 欧美综合久久 | 99在线免费观看视频 | 精品婷婷 | www.国产精 | 中文字幕在线二区 | 亚洲精品一区二区三区 | 免费一区二区三区 | 国产视频1区2区 | 伊人手机在线视频 | 久久久久久高潮国产精品视 | 91精品国产色综合久久不卡98口 | 黄色大片免费网站 | 中文字幕在线欧美 | 少妇黄色 | 国产精品国产精品国产专区不卡 | 视频一区二区在线观看 | 国产视频久久久 | 国产成人精品一区二区三区四区 | 午夜视频免费在线 | 酒色成人网 | 日韩区| caoporn免费在线视频 | 91精品国产综合久久久久久漫画 | 久久久国产一区二区三区四区小说 | 五月激情综合网 | 亚洲精品99 | 日韩在线播放一区 | 97久久精品午夜一区二区 | 男人的天堂久久 | 欧美一级视频 | 成年精品| 一二区成人影院电影网 | 欧美成人一区二区 | 日操操| 污视频免费在线观看 | 播放一级黄色片 | 国产精品无码久久久久 | 青青久在线视频 | 中日av|

<option id="2sko2"></option>

<button id="2sko2"><tbody id="2sko2"></tbody></button>