成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

IBM提出多模式圖像文本到文本模型SmolDocling,可實現代碼 | 公示 | 圖表 | 表格 | 標題 高效轉換!

發布于 2025-3-25 01:06
瀏覽
0收藏

Docling團隊聯合IBM提出了一種多模式圖像文本到文本模型SmolDocling,旨在實現高效的文檔轉換。它保留了 Docling 最受歡迎的功能,同時通過無縫支持DoclingDocuments確保與 Docling 完全兼容。目前已經沖到了Huggingface 熱門榜單 Top 3!

IBM提出多模式圖像文本到文本模型SmolDocling,可實現代碼 | 公示 | 圖表 | 表格 | 標題 高效轉換!-AI.x社區

IBM提出多模式圖像文本到文本模型SmolDocling,可實現代碼 | 公示 | 圖表 | 表格 | 標題 高效轉換!-AI.x社區

IBM提出多模式圖像文本到文本模型SmolDocling,可實現代碼 | 公示 | 圖表 | 表格 | 標題 高效轉換!-AI.x社區




相關鏈接

  • 主頁:https://huggingface.co/ds4sd/SmolDocling-256M-preview
  • 論文:https://arxiv.org/abs/2503.11576

  • 試用:https://huggingface.co/spaces/ds4sd/SmolDocling-256M-Demo
  • IBM提出多模式圖像文本到文本模型SmolDocling,可實現代碼 | 公示 | 圖表 | 表格 | 標題 高效轉換!-AI.x社區

特點:

  • ???用于高效標記化的 DocTags - 引入了 DocTags,一種與DoclingDocuments完全兼容的高效且最小化的文檔表示。
  • ?? OCR(光學字符識別)——從圖像中準確提取文本。
  • ??布局和本地化——保留文檔結構和文檔元素邊界框。
  • ??代碼識別——檢測并格式化代碼塊(包括標識)。
  • ??公式識別——識別和處理數學表達式。
  • ??圖表識別——提取并解釋圖表數據。
  • ??表格識別——支持列和行標題以進行結構化表格提取。
  • ???圖形分類——區分圖形和圖形元素。
  • ??標題對應——將標題鏈接到相關圖像和圖形。
  • ??列表分組——正確組織和構造列表元素。
  • ??全頁轉換——處理整個頁面以進行全面的文檔轉換,包括所有頁面元素(代碼、公式、表格、圖表等)。
  • ??帶邊界框的 OCR——使用邊界框的 OCR 區域。
  • ??通用文檔處理——針對科學和非科學文檔進行訓練。
  • ??無縫 Docling 集成——導入Docling并以多種格式導出。
  • ??使用 VLLM 進行快速推理——A100 GPU 上每頁平均 0.35 秒。

即將推出!

  • ??更好的圖表識別???
  • ??一次性多頁推理??
  • ??化學識別
  • ??數據集

論文介紹

IBM提出多模式圖像文本到文本模型SmolDocling,可實現代碼 | 公示 | 圖表 | 表格 | 標題 高效轉換!-AI.x社區

SmolDocling是一種針對端到端文檔轉換的超緊湊視覺語言模型。該模型通過生成 DocTags 來全面處理整個頁面,DocTags 是一種新的通用標記格式,可以捕獲所有頁面元素及其位置的完整上下文。與依賴大型基礎模型的現有方法或依賴多個專門模型的手工管道的集成解決方案不同,SmolDocling 提供端到端轉換,可在 256M 參數視覺語言模型中準確捕獲文檔元素的內容、結構和空間位置。SmolDocling 在正確再現各種文檔類型(包括商業文檔、學術論文、技術報告、專利和表格)中的文檔特征(例如代碼列表、表格、方程式、圖表、列表等)方面表現出強大的性能——大大超出了通常關注的科學論文。

此外還為圖表、表格、方程式和代碼識別貢獻了新的公開來源數據集。實驗結果表明SmolDocling 可以與其他規模高達 27 倍的視覺語言模型相媲美,同時大幅降低計算要求。該模型目前可用,數據集將很快公開。

架構

IBM提出多模式圖像文本到文本模型SmolDocling,可實現代碼 | 公示 | 圖表 | 表格 | 標題 高效轉換!-AI.x社區

模型架構如上圖所示。SmolVLM-256M 依賴 SigLIP 基礎 patch-16/512 (93M) 作為視覺主干,與同一模型的 2.2B 版本相比,其訓練數據經過重新平衡,以強調文檔理解 (41%) 和圖像字幕 (14%),結合了 The Cauldron 、Docmatix 數據集并添加了 MathWriting。它使用 SmolLM-2 系列 (135M) 的輕量級變體作為語言主干,并采用激進的像素混洗方法,將每個 512x512 圖像塊壓縮為 64 個視覺標記。最后但并非最不重要的是,通過將像素與標記的比率增加到每個標記 4096 像素并為子圖像分隔符引入特殊標記,SmolVLM-256M 中的標記化效率也得到了提高。

IBM提出多模式圖像文本到文本模型SmolDocling,可實現代碼 | 公示 | 圖表 | 表格 | 標題 高效轉換!-AI.x社區

DocTags 創建一個清晰且結構化的標簽和規則系統,將文本與文檔結構分開。這減少了混淆,使圖像到序列模型的工作變得更容易。另一方面,直接轉換為 HTML 或 Markdown 等格式可能會很麻煩 - 它通常會丟失細節,無法清楚地顯示文檔的布局,并且會增加標記數量,從而降低處理效率。DocTags 與 Docling 集成,允許導出為 HTML、Markdown 和 JSON。這些導出可以卸載到 CPU,從而減少標記生成開銷并提高效率。

IBM提出多模式圖像文本到文本模型SmolDocling,可實現代碼 | 公示 | 圖表 | 表格 | 標題 高效轉換!-AI.x社區

IBM提出多模式圖像文本到文本模型SmolDocling,可實現代碼 | 公示 | 圖表 | 表格 | 標題 高效轉換!-AI.x社區

IBM提出多模式圖像文本到文本模型SmolDocling,可實現代碼 | 公示 | 圖表 | 表格 | 標題 高效轉換!-AI.x社區

IBM提出多模式圖像文本到文本模型SmolDocling,可實現代碼 | 公示 | 圖表 | 表格 | 標題 高效轉換!-AI.x社區

結論

SmolDocling是一種高效而緊湊的 VLM,針對文檔轉換進行了優化,同時提供了豐富的輸出表示。還提供了一套具有統一格式的新數據集用于文檔轉換,包括代碼列表轉錄的新任務。我們將頁面元素定位確定為需要進一步改進的關鍵領域,其中有針對性的技術將在未來迭代中顯著提高性能。我們的結果最終表明,具有統一、優化的輸出格式(例如 DocTags)的較小模型可以有效地與較大的模型競爭,為資源高效的多任務文檔理解模型建立了一條清晰的途徑。

本文轉載自??AIGC Studio??,作者:AIGC Studio

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 久久一区二区三区电影 | 黄色a级一级片 | 亚洲精品久久久久久首妖 | 国产91在线播放精品91 | 精品美女视频在免费观看 | 韩国久久| 一区二区在线 | 国产一区2区 | 99久久精品免费看国产小宝寻花 | 91亚洲精品久久久电影 | 色吧综合网 | 亚洲欧美日韩激情 | 精品一区二区在线观看 | 国产高清毛片 | 成人精品一区二区三区中文字幕 | 成人精品鲁一区一区二区 | 青青草原综合久久大伊人精品 | 精品一二区 | 狠狠干美女| 国产精品资源在线 | 欧美中文字幕一区二区三区亚洲 | 亚洲综合精品 | 成人黄视频在线观看 | 国产美女黄色 | 午夜日韩 | 国产成人免费网站 | 午夜在线免费观看视频 | 国产色片| 一色桃子av一区二区 | 日韩av一区二区在线观看 | 免费激情网站 | 久久久久久久国产精品视频 | 一区二区三区电影在线观看 | 国产有码 | av一区二区三区四区 | 在线免费视频一区 | 免费在线观看黄色av | 免费黄色特级片 | 国产精品99久久久精品免费观看 | 久久视频一区 | 亚洲一区二区三区免费在线观看 |