成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<pre id="qksga"></pre>

<noscript id="qksga"><tr id="qksga"></tr></noscript>

<abbr id="qksga"><del id="qksga"></del></abbr>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

多模態大模型在表格解析任務上效果如何？親身經歷全是淚！

發布于 2025-1-14 12:31

瀏覽

0收藏

大家好，我是劉聰NLP。

前段時間一直都在嘗試用多模態大模型進行落地應用，除了問答之外，那么最容易想到的就是文檔解析了。一來多模態大模型本身就有強大的OCR功能，二來知識加工對于大模型落地來說也是重中之重，三來現在很多文檔拆解的API或者項目，效果都沒有那么理想吧，比如：夾雜公式的文本、復雜表格等。

思路是不是很正，于是乎我就嘗試用多模態大模型進行表格解析的任務了。結果就是：全是眼淚！痛，太痛了！

今天此貼主要是分享一下個人的慘痛經歷，還有一些實測結果。

懶人版：

多模態大模型做表格解析任務，對于簡單表格效果很好，但對于帶合并單元格的表格和長表，效果很差；
即使是現在頂尖的閉源模型GPT4-o、Claude3.5的效果也不是好，不可用；
多模態大模型對于表格復雜程度的定義，與傳統方法對復雜的定義不同；
多模態大模型輸出md格式要比html更好，但復雜表格md根本展現不出來；
訓練了10B以下的VLM，效果提升不明顯，對于復雜表格效果依舊亂七八糟，也許是2w數據（機器有限）不夠？

下面詳細介紹測試結果（附各種模型的測試）、個人測試方法說明和一些亂七八糟想說的。

先疊甲，做的時間不是很長，訓練也嘗試過，效果不理想，也歡迎大家評論區討論，或給予指點。言外之意，不喜勿噴?。?！

各種裸模的測試效果

私下測試的模型和數據比較多，這里主要展示GPT4-o、Claude-3.5、Qwen2-VL-7B、MiniCPM2.6-V、InternVL-2.5-8B、Qwen2-VL-72B。

個人覺得GPT4-o、Claude-3.5可能是閉源上限，而Qwen2-VL-7B、MiniCPM2.6-V、InternVL-2.5-8B是在可本地化部署范圍內的模型（雖然依舊很重，但還可以接受），Qwen2-VL-72B是開源模型的上限。

測試1：

多模態大模型在表格解析任務上效果如何？親身經歷全是淚！-AI.x社區圖片

你覺得這個表格難嗎？從直觀感覺上來看，其實是不難的，內容不多，表格規則，主要難點在于有合并單元格。我測試過一些開源的傳統模型，有的是可以識別對的，但是在大模型這邊，總是有瑕疵。只有Claude3.5-sonnet對了，GPT4-o也沒對，7B級別開源模型更是一塌糊涂。

多模態大模型在表格解析任務上效果如何？親身經歷全是淚！-AI.x社區圖片

測試2：

多模態大模型在表格解析任務上效果如何？親身經歷全是淚！-AI.x社區圖片

這個比上一個有一些難度，主要是字多了一點，然后合并單元的不錯有交錯（6、7行的2、4列），多模態大模型們全軍覆沒。

多模態大模型在表格解析任務上效果如何？親身經歷全是淚！-AI.x社區

測試3：

多模態大模型在表格解析任務上效果如何？親身經歷全是淚！-AI.x社區圖片

這個確實有點難了，我看著都有點眼暈了，依舊全軍覆沒。

多模態大模型在表格解析任務上效果如何？親身經歷全是淚！-AI.x社區圖片

我這里并不是為了證明多模態大模型的效果有多差，而故意貼的效果很差的圖，而是在復雜表格和長表上真的很差，我整體測下來，估計也就是20-30%的水平，離可用還有一段距離。

即使是訓練了，也不行，當然可能是訓練數據不夠，也可能是訓練的模型不夠大，但總之我敗了。如果有做過相關任務的同學，歡迎評論區討論，也可以說出你們的看法。

注意：這里說的是合并單元格以及長表，簡單表格，短表前面已經說了，多模態效果很不錯，但問題是傳統方法也很不錯呀，從性價比考慮，多模態大模型還是虧得。

測試細節說明

測試的提示詞用的都是相同的提示詞，其實也調了比較多，但改善效果并不明顯，也歡迎大家嘗試修改，有更好的可以留言告訴我。

## Role
你是一位有多年經驗的OCR表格識別專家。
 
## Goals
需要通過給定的圖片，識別表格里的內容，并以html表格結果格式輸出結果。
 
## Constrains
- 需要認識識別圖片中的內容，將每個表格單元格中的內容完整的識別出來，并填入html表格結構中；
- 圖片中的表格單元格中可能存在一些占位符需要識別出來，例如"-"、"—"、"/"等；
- 輸出表格結構一定遵循圖片中的結構，表格結構完全一致；
- 特別注意圖片中存在合并單元格的情況，結構不要出錯；
- 對于內容較多的圖片，一定要輸出完整的結果，不要斷章取義，更不要隨意編造；
- 最終輸出結果需要是html格式的表格內容。

## Initialization
請仔細思考后，輸出html表格結果。

GPT4-o、Claude-3.5、Qwen2-VL-72B是直接用API測試的，就不多說了，反正就按照文檔調用就行，都大差不差。Qwen2-VL-7B、MiniCPM2.6-V、InternVL-2.5-8B等模型，直接在國信超雄上租的4090利用vllm進行推理測試的。

??https://www.superti-cloud.com/home??

多模態大模型在表格解析任務上效果如何？親身經歷全是淚！-AI.x社區

上面4090價格還可以，1.98元/時，沖得多還可以進一步打折。因為是個新平臺，暫時只有4090，不過好在卡多，可以租到8卡的；最重要的是，新用戶送20代金券，我整個測試過程沒花錢，送的9小時，足夠，又白嫖了一波，白嫖使我快樂，哈哈哈哈。還有一點就是4090做推理卡的性價比還是挺高的。

問了客服，后續會增加更多的的卡，暫時推理來說4090性價比還是挺高的。不過，大家理性消費哈，可以白嫖先用用，用的舒服再說。

多模態大模型在表格解析任務上效果如何？親身經歷全是淚！-AI.x社區圖片

vllm我用的是0.6.3版本，雙卡推理（所以開的時候選兩張卡），由于需要torch2.4，但是平臺上現場的鏡像最高只有torch2.3，所以我又自己重新裝了一下torch2.4，裝包啥的這里就不說了，也不難，不會就去百度、Google吧。

多模態大模型在表格解析任務上效果如何？親身經歷全是淚！-AI.x社區圖片

服務器可以直接ssh鏈接，用mobax在平臺上上傳數據啥的就直接拖就行，操作都差不多，也不過多介紹了，也可以無卡操作，節省卡時。

多模態大模型在表格解析任務上效果如何？親身經歷全是淚！-AI.x社區圖片

用vllm測試的主要原因，就是簡單，接口就是openai接口，目前對各大模型適配的也很好，上手簡單，無腦執行命令就行。

以Qwen2-VL-7B為例，直接執行以下命令：

vllm serve  ./Qwen2-VL-7B-Instruct/ --served-model-name Qwen2-VL-7B-Instruct --port 54188 --host 0.0.0.0 --trust-remote-code --gpu-memory-utilization 0.98 --tensor-parallel-size 2

其中，./Qwen2-VL-7B-Instruct/是模型下載的本地路徑，也可以用HF的repo，但是會有網絡問題；served-model-name表示調用時使用的名稱；tensor-parallel-size是多卡并行，顯存不夠，顯卡來湊。

多模態大模型在表格解析任務上效果如何？親身經歷全是淚！-AI.x社區圖片

測試代碼：

from openai import OpenAI
import base64

api_key = "EMPTY"
base_url = "http://0.0.0.0:54188/v1"

client = OpenAI(
    api_key=api_key,
    base_url=base_url
)

image_path = "test.png"
with open(image_path, "rb") as image_file:
    encoded_string = base64.b64encode(image_file.read())
base64_image = encoded_string.decode('utf-8')

response = client.chat.completions.create(
    model="Qwen2-VL-7B-Instruct",
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {
                        "url": f"data:image/png;base64,{base64_image}"
                    }
                },
                {
                    "type": "text",
                    "text": """## Role
你是一位有多年經驗的OCR表格識別專家。

## Goals
需要通過給定的圖片，識別表格里的內容，并以html表格結果格式輸出結果。

## Constrains
- 需要認識識別圖片中的內容，將每個表格單元格中的內容完整的識別出來，并填入html表格結構中；
- 圖片中的表格單元格中可能存在一些占位符需要識別出來，例如"-"、"—"、"/"等；
- 輸出表格結構一定遵循圖片中的結構，表格結構完全一致；
- 特別注意圖片中存在合并單元格的情況，結構不要出錯；
- 對于內容較多的圖片，一定要輸出完整的結果，不要斷章取義，更不要隨意編造；
- 最終輸出結果需要是html格式的表格內容。

## Initialization
請仔細思考后，輸出html表格結果。
"""
                }
            ]
        }]
)

res = response.choices[0].message.content
print(res)

輸出結果，表格一般沒有格式，看起來可能不方便，可以額外增加下面代碼做展示。

<style>
    table {
        border-collapse: collapse;
        width: 40%;
        margin: 0 auto;
    }

    th,
    td {
        border: 1px solid black;
        padding: 8px;
        text-align: left;
    }
</style>

{生成的表格結果}

碎碎念

利用多模態大模型進行表格解析的出發點是因為在RAG場景上，很多是因為文檔解析錯誤導致的最終文檔效果不理想。當然很多人可能會覺得用多模態做表格解析是在用大炮打蚊子，但從我目前體驗來看，大炮還打不到蚊子。

從訓練過程上來看，模型在訓練的時候，收斂的很快，但效果依舊不理想；當時也有把一些特殊字符獨立化，或者loss計算的時候分區域設置權重等等等，而這些帶來了改善，但是效果依舊不明顯。但每一次都覺得魔改的思路很正，祈禱成功，哈哈哈哈。大模型時代，已經很少魔改了，要不無腦洗數據，要不無腦加數據，人都麻木了。

一直在思考，再分析，是不是VLM本身tokenizer切塊導致對合并單元格天生不敏感，是不是VLM本身基模不夠強，整體預訓練過程中表格數據不夠多，或者說網絡上復雜表格不夠多，感覺即使夠多也很難認真矯正數據的準確性。

并且這個任務多少數據可以達到一定的效果，已經超出了我對純文本LLM的認知，當然，也許其他任務的VLM也很文本差不多，但這個任務真的好奇怪。

然后也發現了一個多模態大模型做OCR的榜單-CC-OCR，確實在tabel上的效果，也不理想。但上面還是略高，估計并沒有區分表格的難度吧。

Title：CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy
Link：https://arxiv.org/abs/2412.02210

多模態大模型在表格解析任務上效果如何？親身經歷全是淚！-AI.x社區

寫在最后

不過有一說一，VLM最近出了很多模型，其他方面的能力較之前強太多了，這也是我嘗試用多模態大模型做一些子任務的根本。

但一個表格解析，讓我破了大防，理性探討，大家覺得多模態大模型做表格解析任務如何？

本文轉載自 ??NLP工作站??，作者：劉聰NLP

標簽

贊

收藏

回復

舉報

回復

相關推薦

超越GPT-4V，蘋果多模態大模型上新！

duhorse ? 2644瀏覽 ? 0回復
Flames 安全評測基準：大語言模型的對齊效果如何？

戀戀青鳥 ? 4060瀏覽 ? 0回復
綜述：大語言模型在信息抽取上的應用

xuxiangda ? 5410瀏覽 ? 0回復
AI大語言模型在高階心智理論任務上展現驚人表現

AI論文解讀 ? 3576瀏覽 ? 0回復
哪個中文開源大模型在信息抽取上效果最好？附：用于提取的提示詞

大語言模型論文跟蹤 ? 5649瀏覽 ? 0回復
超越CVPR 2024方法，DynRefer在區域級多模態識別任務上，多項SOTA

輕薄滴假象 ? 2401瀏覽 ? 0回復
阿里達摩院最新多模態大模型介紹，多項圖文任務取得SOTA效果

海因斯DK ? 2998瀏覽 ? 0回復
多模態RAG-VisRAG：基于視覺的檢索增強生成在多模態文檔上的應用

大模型自然語言處理 ? 3003瀏覽 ? 0回復
一次多模態大模型表格識別解析探索小實踐記錄

大模型自然語言處理 ? 2765瀏覽 ? 0回復
M3DocRAG：文檔問答用哪個多模態大模型效果最好？

大語言模型論文跟蹤 ? 3092瀏覽 ? 0回復
如何全面評估多模態大模型能力？MLLM評測任務與指標總結

shizhi02 ? 7791瀏覽 ? 0回復
在趨動云上使用xinference部署大模型

一起AI技術 ? 3973瀏覽 ? 0回復
MACT：如何用多Agent框架思路實現表格問答

大語言模型論文跟蹤 ? 2174瀏覽 ? 0回復
2025首篇關于多模態大模型在富文本圖像理解上的全面研究綜述

PaperAgent ? 4660瀏覽 ? 0回復
allenai開源多模態的文檔智能解析大模型（OLMOCR）方法、效果淺析

大模型自然語言處理 ? 3760瀏覽 ? 0回復
LuminaBrush 在圖像上繪制照明效果的構建交互式工具

AIGCStudio ? 1808瀏覽 ? 0回復
文心一言4.5和X1免費，馬上安排實測，來看看效果如何！

NLP工作站 ? 2613瀏覽 ? 0回復
Gemini2.5 Pro測試，代碼能力飆升，但多模態表格解析依舊不理想

NLP工作站 ? 2178瀏覽 ? 0回復
為什么大模型在 OCR 任務上表現不佳？

Baihai_IDP ? 1369瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

TransDiff--最簡潔的AR Transformer + Diffusion圖像生成方法 1天前發布
遲來！解讀Qwen開源的Embedding模型中的細節！附實測結果！ 2025-06-13 07:17:37發布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇：長文 | 大模型Post-Training總結

下一篇： Kimi發布最新模型k1.5，技術報告也干貨滿滿

社區精華內容

目錄

主站蜘蛛池模板：欧美a区| 欧美一二三四成人免费视频 | 偷拍亚洲色图 | 久久久久久久久久一区二区 | a爱视频| 欧美日韩91 | 夜夜艹天天干 | 日韩精品免费看 | 国产成人在线看 | 91精品久久久久久久久久入口 | 国产精品久久久一区二区三区 | 91精品在线播放 | 蜜月va乱码一区二区三区 | 高清视频一区二区三区 | 国产精品久久久久影院色老大 | 九九热在线观看视频 | 天天拍天天射 | 九色国产 | 国产成人亚洲精品 | 久久高清国产视频 | 成人在线激情 | 亚洲国产91 | 亚洲区一区二 | 久久久久久久国产精品影院 | 久久久精品一区二区 | 人人射人人草 | 成人一区二区三区在线观看 | 99国内精品久久久久久久 | 国产成人av一区二区三区 | 午夜精品福利视频 | 国产精品永久 | 97精品久久 | 福利网址 | 1204国产成人精品视频 | 亚洲综合二区 | 中文字幕一区二区三区四区五区 | 色综合网站 | 综合亚洲视频 | 日韩成人影院在线观看 | 成人亚洲视频 | 高清av一区|

<ul id="ayc0q"></ul>

<center id="ayc0q"><em id="ayc0q"></em></center>

<dl id="ayc0q"><nav id="ayc0q"></nav></dl>

<center id="ayc0q"><acronym id="ayc0q"></acronym></center>