成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<center id="6wqua"><acronym id="6wqua"></acronym></center>

<abbr id="6wqua"></abbr>

<li id="6wqua"><source id="6wqua"></source></li>

<cite id="6wqua"></cite>

<rt id="6wqua"><tr id="6wqua"></tr></rt>

<center id="6wqua"><acronym id="6wqua"></acronym></center><center id="6wqua"></center>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

RAG文本切分LV3：輕松定制Markdown切分原創

發布于 2024-9-18 14:55

瀏覽

0收藏

上篇文章我們介紹了借助LLM和OCR將文檔轉換成markdown的方法：??顛覆傳統OCR輕松搞定復雜PDF的工具??。本篇文章將介紹如何對markdown進行有效切分。

之前介紹了文本切分五個層級，本文方法是第三個層次：

Level 1: Character Splitting - 簡單的字符長度切分

Level 2: Recursive Character Text Splitting - 通過分隔符切分，然后遞歸合并

Level 3: Document Specific Splitting - 針對不同文檔格式切分 (PDF, Python, Markdown)

Level 4: Semantic Splitting - 語義切分

Level 5: Agentic Splitting-使用代理實現自動切分

基本概念和環境

分塊通常旨在將具有共同上下文的文本放在一起?？紤]到這一點，我們可能希望特別尊重文檔本身的結構。例如，markdown 文件按標題組織。在特定標題組中創建塊是一種直觀的想法。為了解決這一挑戰，我們可以使用MarkdownHeaderTextSplitter。這將按指定的一組標題拆分 markdown 文件。

本文用到的安裝包如下：

pip install langchain-text-splitters

切分實現

我們可以指定要拆分的標題headers_to_split_on，切分之后內容按標題分組：

markdown_document = "# Foo\n\n    ## Bar\n\nHi this is Jim\n\nHi this is Joe\n\n ### Boo \n\n Hi this is Lance \n\n ## Baz\n\n Hi this is Molly"

headers_to_split_on = [
    ("#", "Header 1"),
    ("##", "Header 2"),
    ("###", "Header 3"),
]

markdown_splitter = MarkdownHeaderTextSplitter(
  headers_to_split_on)
md_header_splits = markdown_splitter.split_text(
  markdown_document)
print(md_header_splits)

結果如下：

[Document(page_content='Hi this is Jim  \nHi this is Joe', metadata={'Header 1': 'Foo', 'Header 2': 'Bar'}),
Document(page_content='Hi this is Lance', metadata={'Header 1': 'Foo', 'Header 2': 'Bar', 'Header 3': 'Boo'}),
Document(page_content='Hi this is Molly', metadata={'Header 1': 'Foo', 'Header 2': 'Baz'})]

默認情況下，MarkdownHeaderTextSplitter從輸出塊的內容中剝離被分割的標頭?？梢酝ㄟ^設置strip_headers = False來禁用此功能。

markdown_splitter = MarkdownHeaderTextSplitter(
headers_to_split_on,
strip_headers=False)
md_header_splits = markdown_splitter.split_text(
markdown_document)
print(md_header_splits)

可以看到，標題添加到內容中了

[Document(page_content='# Foo  \n## Bar  \nHi this is Jim  \nHi this is Joe', metadata={'Header 1': 'Foo', 'Header 2': 'Bar'}),
Document(page_content='### Boo  \nHi this is Lance', metadata={'Header 1': 'Foo', 'Header 2': 'Bar', 'Header 3': 'Boo'}),
Document(page_content='## Baz  \nHi this is Molly', metadata={'Header 1': 'Foo', 'Header 2': 'Baz'})]

如何將 Markdown 行返回為單獨的文檔

默認情況下，MarkdownHeaderTextSplitter根據headers_to_split_on中指定的標題聚合行。我們可以通過指定return_each_line來禁用此功能，使得一行就是一條內容：

markdown_splitter = MarkdownHeaderTextSplitter(
headers_to_split_on,
return_each_line=True,
)
md_header_splits = markdown_splitter.split_text(markdown_document)
print(md_header_splits)

[Document(page_content='Hi this is Jim', metadata={'Header 1': 'Foo', 'Header 2': 'Bar'}),
Document(page_content='Hi this is Joe', metadata={'Header 1': 'Foo', 'Header 2': 'Bar'}),
Document(page_content='Hi this is Lance', metadata={'Header 1': 'Foo', 'Header 2': 'Bar', 'Header 3': 'Boo'}),
Document(page_content='Hi this is Molly', metadata={'Header 1': 'Foo', 'Header 2': 'Baz'})]

如何限制塊大?。?/h4>

然后，我們可以在每個 markdown 組中應用任何我們想要的文本分割器，例如RecursiveCharacterTextSplitter，它允許進一步控制塊大小。


markdown_document = "# Intro \n\n    ## History \n\n Markdown[9] is a lightweight markup language for creating formatted text using a plain-text editor. John Gruber created Markdown in 2004 as a markup language that is appealing to human readers in its source code form.[9] \n\n Markdown is widely used in blogging, instant messaging, online forums, collaborative software, documentation pages, and readme files. \n\n ## Rise and divergence \n\n As Markdown popularity grew rapidly, many Markdown implementations appeared, driven mostly by the need for \n\n additional features such as tables, footnotes, definition lists,[note 1] and Markdown inside HTML blocks. \n\n #### Standardization \n\n From 2012, a group of people, including Jeff Atwood and John MacFarlane, launched what Atwood characterised as a standardisation effort. \n\n ## Implementations \n\n Implementations of Markdown are available for over a dozen programming languages."

headers_to_split_on = [
    ("#", "Header 1"),
    ("##", "Header 2"),
]

# MD splits
markdown_splitter = MarkdownHeaderTextSplitter(
    headers_to_split_on=headers_to_split_on, strip_headers=False
)
md_header_splits = markdown_splitter.split_text(markdown_document)

# Char-level splits
from langchain_text_splitters import RecursiveCharacterTextSplitter

chunk_size = 250
chunk_overlap = 30
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=chunk_size, chunk_overlap=chunk_overlap
)

# Split
splits = text_splitter.split_documents(md_header_splits)
splits

本文轉載自公眾號哎呀AIYA

原文鏈接：??https://mp.weixin.qq.com/s/58OJQoi-xuxdFhU02Q6uZg???

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

贊

收藏

回復

舉報

回復

相關推薦

如何在淘寶人生2一鍵定制你的專屬3D數字人

pangguiyu ? 5530瀏覽 ? 0回復
浙大、螞蟻集團推出MaPa：文本生成超真實3D模型

Aceryt ? 3229瀏覽 ? 0回復
無需定制視頻數據，DeepMind讓文生定制視頻變得簡單！

angel ? 2694瀏覽 ? 0回復
華科、華南理工發布Mini-Monkey，專治「切分增大分辨率」后遺癥

duhorse ? 2266瀏覽 ? 0回復
無需定制視頻數據，DeepMind讓文生定制視頻變得簡單！

angel ? 2404瀏覽 ? 0回復
一個開源、清晰、強大且可定制的RAG UI

PaperAgent ? 3320瀏覽 ? 0回復
如何利用RAG+Agent輕松解決企業復雜問題？

玄姐聊AGI ? 2913瀏覽 ? 0回復
輕松解析本地PDF表格，基于LlamaIndex和UnstructuredIO打造RAG

小虎哦哦 ? 5491瀏覽 ? 0回復
優化文本嵌入，大幅提升RAG檢索速度

小虎哦哦 ? 4276瀏覽 ? 0回復
AI自動寫書神器，3個ChatGPT插件讓你輕松賺錢！

ermulong ? 2671瀏覽 ? 0回復
一個輕量級RAG文本切塊項目Chonkie

PaperAgent ? 2955瀏覽 ? 0回復
3D任意部位分割：FIND 3D模型實現零樣本開放世界文本查詢分割

AIGC最前線 ? 2305瀏覽 ? 0回復
Meta開源多模式模型，輕松混合文本和語音

Aceryt ? 1972瀏覽 ? 0回復
CAG 通過鍵值緩存讓 RAG 輕松上手

凝固的雨_1 ? 3414瀏覽 ? 0回復
如何高效轉換PDF為Markdown：構建優質Graph RAG的第一步

Halo咯咯 ? 2411瀏覽 ? 0回復
HtmlRAG：RAG系統中，HTML比純文本效果更好

大模型自然語言處理 ? 1985瀏覽 ? 0回復
Markdown + AI = 效率神器：10分鐘就能學會的大模型文本格式！

九歌AI大模型 ? 4274瀏覽 ? 0回復
RAG項目必備！文檔解析神器MinerU：2.5萬星標！支持GPU加速，輕松應對復雜文檔

AI博物院 ? 6909瀏覽 ? 0回復
RAG只能應用于文本檢索嗎？關于大模型應用之RAG——檢索增強的思考

AI探索時代 ? 1450瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

最新總結，不同抽取任務哪個模型最能打 2025-05-22 06:12:50發布
MCP協議：AI工具交互新標準，最新綜述 2025-05-22 06:12:30發布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇：顛覆傳統OCR輕松搞定復雜PDF的工具

下一篇： RAG高級優化：檢索策略探討Fusion, HyDE安排上(含代碼)

社區精華內容

目錄

主站蜘蛛池模板：久久在线 | 久久丁香 | 亚洲精品视频在线看 | 天天看天天爽 | 日韩高清中文字幕 | 一级日韩| 日韩一区二区av | 亚洲欧美日韩在线不卡 | 国产精品免费一区二区三区 | 日韩精品在线播放 | 成人欧美一区二区 | 黄色成人av | 羞羞的视频免费看 | 欧美不卡一区二区 | 欧美黄色网 | 中文字幕一区二区三区四区不卡 | 日本精品一区 | 国产精品中文字幕一区二区三区 | 国产成人a亚洲精品 | 国产精品91视频 | 国产精品成人一区 | 日本免费一区二区三区四区 | 国产精品一区二区三区在线播放 | 极情综合网 | 福利网址| 2018天天干天天操 | 成人二区 | 日本在线观看视频 | 亚洲第一免费播放区 | 中文字幕在线视频免费视频 | 国产成人精品999在线观看 | 久久久久久黄 | 国产在视频一区二区三区吞精 | 欧美日韩国产高清 | 国产精品国产精品国产专区不蜜 | 日韩欧美精品一区 | 国产91精品久久久久久久网曝门 | 欧美日产国产成人免费图片 | 97色在线观看免费视频 | 精品婷婷 | 免费黄色a视频 |

<center id="08ee0"><acronym id="08ee0"></acronym></center>

<button id="08ee0"></button>

<button id="08ee0"></button>

<code id="08ee0"></code>

<li id="08ee0"></li>

<noscript id="08ee0"><object id="08ee0"></object></noscript>

<button id="08ee0"></button>