成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<button id="e6k6m"></button>

<button id="e6k6m"><tbody id="e6k6m"></tbody></button>

<object id="e6k6m"><rt id="e6k6m"></rt></object>

<option id="e6k6m"><cite id="e6k6m"></cite></option>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質的IT技術網(wǎng)站

51CTO博客

專業(yè)IT技術創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

大模型數(shù)據(jù)預處理——關于復雜文檔在大模型應用中的解決方案原創(chuàng)

發(fā)布于 2025-4-23 06:40

瀏覽

0收藏

“ 復雜文檔的處理是人工智能應用的基礎，但同時也是一個門檻?！?/strong>

在這里先思考一個問題，哪種文檔格式最復雜？

以我們經常使用的文檔為例，不同系統(tǒng)下有不同格式的文檔；不論是文本，圖片，還是視頻都有很多種格式；但要說比較復雜的還是文本類文檔。

因為文本類文檔中包含著多種其它格式的文檔；以作者個人為例，我認為最復雜的文檔就是常用的word/pdf這種格式。

原因就在于這種格式的文檔就像一張白紙，我們可以在上面寫畫任何我們想要的東西；而其它格式的文檔多多少少都會有一些固定的格式，而固定的格式就意味著數(shù)據(jù)是有格式的，而現(xiàn)在的計算機系統(tǒng)中，最復雜的不是格式化數(shù)據(jù)而是非格式化數(shù)據(jù)。

復雜文檔的處理

作者目前主要從事的是RAG方面的應用，而RAG除了高效檢索之外，另一個比較復雜的方面就是前期各種文檔的處理。

比如說word，excel，markdown，html等等；而其中比較棘手的主要就是word和pdf。

原因就在于word和pdf中的文檔格式比較復雜，因為它不僅僅只有純文本，里面同時還存在圖片和表格和結構圖。

特別是一些流程圖，架構圖，甚至很多內容都是截圖放在里面；在這種情況下，直接交給大模型處理是一件非常困難的事；特別是一些大模型只是純文本模型，無法處理這種復雜的數(shù)據(jù)格式。

因此，一種比較常見的做法就是使用OCR技術，把word/pdf等文檔中的圖片識別成文字進行處理。

但說句實話，效果真的不咋地；比如說圖片中如果是文本數(shù)據(jù)倒還好，如果是一些非文本數(shù)據(jù)，OCR識別也沒太大作用。

而如果是一些流程圖或架構圖這種，識別出來也沒太大意義，原因就在于識別出來的數(shù)據(jù)失去了原有的邏輯關系。

所以，面對這種問題應該怎么解決？

說句實話，受限于技術問題，面對這種問題目前業(yè)界并沒有什么特別好的處理辦法，只能盡可能的保證文檔的完整性和連貫性。

面對這種問題一般有兩個解決思路，第一使用一些工具對文檔進行預處理，比如把文檔中文字，圖片和表格分別提取出來；以保證分割數(shù)據(jù)的完整性。

常見的是不同語音提供的一些工具包，比如場景的python提供的各種文檔處理工具。

核心做法

將 Word / PPT / PDF 等不同類型的文檔，統(tǒng)一轉成 HTML 或者 Markdown 格式。

基于統(tǒng)一后的格式，從文檔中分離出文本內容、圖片（含圖表截圖）、表格。

對拆分出來的圖片和表格做進一步的 OCR / 表格解析等處理，將其轉換為文本（或結構化數(shù)據(jù)），最后與原有的文本合并或建立關聯(lián)。

優(yōu)點

保留文檔內容結構：因為先轉為 HTML 或 Markdown，可以較好地保留文檔的層級結構、段落、樣式等。

靈活處理：可以針對文字、圖片、表格分別采取適合的處理方式。例如：

文本直接拿來做 NLP 預處理；

圖片和圖表用專門的 OCR 或結構化表格提取工具。

精細度較高：文字和圖表一分為二，可以更精細地進行后續(xù)處理，便于標注、檢索或微調（Finetune / RAG）。

缺點

開發(fā)成本相對較高：要編寫或調用各種解析、轉換腳本（doc -> html，pdf -> html 等），還要對拆出來的圖片、表格做分別提取。

依賴工具鏈：對于 PPT 等復雜文檔，直接轉 HTML/Markdown 可能并非一帆風順，需依賴商業(yè)或開源工具，可能會遇到兼容性問題。

圖片+表格的后處理：對圖表進行 OCR 或表格解析，需要依賴額外的處理模塊，處理效果也取決于 OCR / 表格解析工具的準確率。

適用場景

需要保留文檔原有的層級結構、目錄、章節(jié)等信息，并對文本和圖表進行精細化處理的場景。

數(shù)據(jù)源多樣（Word、PPT、PDF、掃描件），且對最終提取精度要求較高。

團隊可以投入一些時間精力，編寫、整合比較完整的抽取工具鏈。

第二種就是使用更先進的多模態(tài)模型，多模態(tài)模型能夠同時處理多種不同的數(shù)據(jù)格式；并且能夠盡可能的保證不同格式數(shù)據(jù)之間的相關性。

通過多模態(tài)模型對復雜文檔數(shù)據(jù)進行抽取，然后再進行下一步的加工處理。

總之，復雜格式數(shù)據(jù)的處理是一項技術難度大，處理流程復雜的工程；但核心要點只有一個，那就是盡可能的保證文檔數(shù)據(jù)的完整性，這里包括數(shù)據(jù)的完整和語義的完整。

本文轉載自公眾號AI探索時代作者：DFires

原文鏈接：??https://mp.weixin.qq.com/s/muWyMmYNd52srX7zwjrtuQ??

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽
大模型應用
RAG
文檔預處理

已于2025-4-23 06:40:34修改

贊

收藏

回復

分享

微博

QQ

微信

舉報
舉報

微信掃碼分享

刪除帖子
刪除取消

回復

相關推薦

大語言模型在不同自然語言處理任務中的提示工程方法綜述

sbf_2000 ? 3548瀏覽 ? 0回復
RAG 開發(fā)四大痛點及解決方案

玄姐聊AGI ? 3130瀏覽 ? 0回復
大模型的核心之一——大模型預訓練之數(shù)據(jù)預處理

AI探索時代 ? 5077瀏覽 ? 0回復
關于大模型在企業(yè)生產環(huán)境中的獨立部署問題

AI探索時代 ? 2981瀏覽 ? 0回復
關于大模型在企業(yè)級應用中的選擇問題疑問回復

AI探索時代 ? 2067瀏覽 ? 0回復
大模型部署解決方案之TorchServe+vLLM

夜行神魚 ? 2762瀏覽 ? 0回復
AI大模型在GIS中的應用

zhishan15 ? 4852瀏覽 ? 0回復
一文讀懂Agent的治理難題與解決方案 | 4000份AI數(shù)據(jù)集大揭秘：訓練數(shù)據(jù)的來源、版權與地域差異

sbf_2000 ? 2471瀏覽 ? 0回復
TAG：定義自然語言查詢的高效解決方案

51CTO內容精選 ? 3271瀏覽 ? 0回復
大模型在零樣本面部情緒標注中的突破與應用

xuxiangda ? 2781瀏覽 ? 0回復
文檔解析神器MinerU：2.5萬星標！支持GPU加速，輕松應對復雜文檔

AI博物院 ? 6864瀏覽 ? 0回復
模型訓練前置處理之——數(shù)據(jù)預處理

AI探索時代 ? 2122瀏覽 ? 0回復
在自然語言處理(NLP)任務中，怎么處理數(shù)據(jù)——即怎么把文字輸入到模型中進行處理？

AI探索時代 ? 1984瀏覽 ? 0回復
大模型面經：RAG與Long context“相愛相殺”背景下，如何設計最優(yōu)解決方案？

shizhi02 ? 1616瀏覽 ? 0回復
人工智能中的數(shù)據(jù)重要性與數(shù)據(jù)預處理

parson2000 ? 1425瀏覽 ? 0回復
關于個人的創(chuàng)業(yè)想法——基于人工智能技術在垂直領域解決方案的探索

AI探索時代 ? 951瀏覽 ? 0回復
關于基于RAG技術的智能客服系統(tǒng)解決方案

AI探索時代 ? 1565瀏覽 ? 0回復
關于大模型應用過程中的記憶功能管理問題，以及解決方案

AI探索時代 ? 765瀏覽 ? 0回復
AI 應用推理架構中五大關鍵問題的解決方案

玄姐聊AGI ? 1234瀏覽 ? 0回復

AI探索時代

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

關于ChatGPT和DeepSeek模型在使用上的感受——ChatGPT更像一個人，而DeepSeek更像一個機器 1天前發(fā)布
大模型才是智能體的核心，智能體的所有操作都是基于大模型完成的——智能體的執(zhí)行過程 4天前發(fā)布

熱門推薦

AI Agents開源工具棧全解析~ 1回復
從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數(shù)也沒問題 0回復
Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復
本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復
DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇：提示詞工程對大模型應用的重要性

下一篇：關于大模型應用協(xié)議的發(fā)布——MCP和A2A協(xié)議的出現(xiàn)意味著什么？

社區(qū)精華內容

目錄

Copyright ? 2005-2025 51CTO.COM 京ICP證060544版權所有未經許可請勿轉載

客服

感谢您访问我们的网站，您可能还对以下资源感兴趣：
成人免费xxxxx在线视频软件|久久精品久久久|亚洲国产精品久久久|天天色天天色|亚洲人成一区|欧美一级欧美三级在线观看

主站蜘蛛池模板：精品99在线 | 日韩毛片网 | 精品久久久久久久久久久久 | 日一区二区 | 羞羞视频网页 | 久久成人av | 国产1页| 国产精品久久精品 | 日韩第一夜 | 欧美aⅴ | 欧美黄片免费观看 | 亚洲欧洲视频 | 国产精品毛片一区二区三区 | 国产99小视频 | 日韩精品一区二区三区中文字幕 | av一区在线观看 | 99精品视频一区二区三区 | 欧美精产国品一二三区 | 操操操日日日 | 色综合天天综合网国产成人网 | 亚洲午夜精品视频 | 久久久久99 | 欧美综合国产精品久久丁香 | h网站在线观看 | 成人福利网| av网站免费在线观看 | 91成人精品 | 成人免费大片黄在线播放 | 欧美亚洲视频 | 91久久北条麻妃一区二区三区 | 日本精品一区二区三区视频 | 亚洲精品自在在线观看 | 久久久性色精品国产免费观看 | 中国黄色毛片视频 | 精品一区二区三区四区视频 | 99精品国产一区二区青青牛奶 | 久久久久久中文字幕 | 爱爱免费视频 | 欧美v免费 | 日本成人三级电影 | 91素人|