公式識別：利用分層且聚焦細節的網絡提升復雜公式識別能力原創

大模型自然語言處理

發布于 2025-4-2 07:35

瀏覽

0收藏

公式識別是文檔智能解析中的重要一環，本文筆者將介紹筆者自己的工作，供參考。

公式識別：利用分層且聚焦細節的網絡提升復雜公式識別能力-AI.x社區

問題陳述與動機

公式識別：利用分層且聚焦細節的網絡提升復雜公式識別能力-AI.x社區

核心問題：當前的數學表達式識別（MER）模型難以處理復雜公式中的層次結構和細粒度細節。

數學公式是邏輯的建筑藍圖——它們在求和符號中嵌套分數，在行文中堆疊矩陣，并分支為條件分段函數。然而，盡管數學公式具有復雜的結構，當前的數學表達式識別（MER）模型甚至難以可靠解析中等復雜度的表達式。試想：當公式的視覺密度增加時，其渲染圖像會擴大以保持清晰度。但問題在于——模型會將所有輸入嚴格調整為224×224像素等固定尺寸。圖1中的負號在原始高分辨率圖像中清晰可辨，但經過壓縮后，它會坍縮成一個與分數線模糊融合的兩像素污點。這種壓縮會引發連鎖故障：下標與基準字符粘連，括號等定界符失去方向感，層級關系消解為視覺噪聲。

數學表達式識別挑戰

復雜公式帶來了三個關鍵挑戰。首先，層次嵌套（如分數內的矩陣）需要精確解析。其次，不同LaTeX代碼可能渲染出相同圖像，導致歧義問題。第三，現有數據集規模小且缺乏結構多樣性。

為應對這些挑戰，我們提出三項貢獻，重新定義數學表達式識別領域：

HDR數據集——MER研究的重大突破。不同于局限于簡單方程的現有數據集，HDR包含超過10億個公式，精心組織為HDR-100M訓練集和覆蓋12個復雜度層級的專項測試集。從基礎分數到嵌套矩陣求和，再到多分支分段函數，該資源完整捕捉了真實科學符號的多樣性。每個公式包含多標簽注釋和替代性語法表示，使模型能夠學習不同LaTeX格式的等價表達。
HDNet架構——帶有顛覆性層次子公式模塊的編解碼架構。其動態裁剪機制可分離求和界限、矩陣括號、分數線等關鍵子組件，在分層融合特征前對每個組件進行最優分辨率處理。
公平評估協議——針對MER評估體系性缺陷的解決方案。現有指標將有效LaTeX變體誤判為錯誤，混淆語法偏好與真實錯誤。我們的評估協議為數學等價表達式建立等價類標準。

1. HDR數據集

公式識別：利用分層且聚焦細節的網絡提升復雜公式識別能力-AI.x社區

首先是HDR數據集。我們在表1中的分析展示了HDR-Test如何系統地按層次級別和線條數對公式進行分類。HDR數據集涵蓋八個類別的公式，其復雜度分別由層次級別和線條數計算得出。

分層如下：

0級：獨立字符

公式識別：利用分層且聚焦細節的網絡提升復雜公式識別能力-AI.x社區

1級：字符+位置關系

公式識別：利用分層且聚焦細節的網絡提升復雜公式識別能力-AI.x社區

2級：構造結構

公式識別：利用分層且聚焦細節的網絡提升復雜公式識別能力-AI.x社區

3級：多層

公式識別：利用分層且聚焦細節的網絡提升復雜公式識別能力-AI.x社區

首先是HDR數據集。為標準化公式復雜度的表示，我們在此解釋層次級別的含義：

在0級，我們定義原子元素——獨立字符如"a"或數字，它們是構成公式的基礎單元。當這些元素與上標、下標等操作符結合時，復雜度上升至1級。

2級引入結構性復雜度——分數、積分或求和符號。此時空間關系決定了語義。但真正的挑戰出現在更高層級，公式呈現俄羅斯套娃式嵌套結構：例如包裹矩陣的分段函數，這類表達式要求跨多層精確匹配開閉定界符。

通過在復雜度梯度上訓練模型，我們迫使它們掌握LaTeX的結構語法——不僅識別符號，更要理解其嵌套依賴關系。這種層次劃分不僅是理論概念，更是解析真實公式的關鍵。

HDR-1億數據集提供了前所未有的規模和多樣性，涵蓋了從數學到計算機科學領域的arXiv論文中的公式。HDR測試集包含多標簽注釋，以涵蓋有效的LaTeX變體。如圖3所示，HDR在復雜性方面超越了先前的數據集，能夠支持強大的模型訓練和評估。

公式識別：利用分層且聚焦細節的網絡提升復雜公式識別能力-AI.x社區

2. HDNet架構

公式識別：利用分層且聚焦細節的網絡提升復雜公式識別能力-AI.x社區

Encoder-Decoder: ViT encoder + Transformer decoder

HDNet將視覺Transformer編碼器與Transformer解碼器相結合。其關鍵創新點在于特征融合：將主公式的全局上下文信息與子公式的局部細節信息相融合。損失函數通過參數α來平衡主公式損失和子公式損失。這種雙重關注確保了對公式結構和細節的準確解析。

在訓練過程中，如圖2的左側所示，公式會根據其標簽進行分層解析。每個公式會被拆分、渲染并調整大小成為子公式。主公式也會進行渲染和調整大小。主公式和子公式都會被輸入到編碼器中以提取特征。然后，子公式的特征會通過加權聚合的方式與主公式的特征相融合，以提供額外的視覺細節信息。經過加權的特征會被傳遞到解碼器，以預測主公式的結果。此外，每個子公式的特征會被單獨傳遞到解碼器，以預測子公式的結果。該模型的優化目標包括主公式的損失以及子公式損失的總和。

loss如下：

公式識別：利用分層且聚焦細節的網絡提升復雜公式識別能力-AI.x社區

公平評估策略

評估的公平性至關重要。傳統的評估方法局限于字符層面，當數學公式圖像可以用多種有效方式進行解釋時，這些方法往往無法公平地評估模型。由于具有功能等效性的LaTeX命令，預測結果和真實標簽在字符層面可能會有所不同，但作為圖像渲染出來時卻是相同的。例如，一些LaTeX公式在功能上是相同的，但在文本表達上存在差異。

為了克服這一問題，如圖所示，我們提出了一種簡單而高效的評估策略，該策略考慮了功能等效表達式的所有有效解析選項。我們的方法在進行字符層面的評估之前，會用等效表達式來替換標簽和模型預測結果。

公式識別：利用分層且聚焦細節的網絡提升復雜公式識別能力-AI.x社區

這種方法能夠涵蓋更廣泛的有效表達式，確保在識別和解析復雜公式時，對模型性能進行更可靠、更公平的評估。通過處理基于LaTeX的公式生成過程中的可變性，我們的策略提高了字符層面評估的準確性和公平性。

評價指標：Edit distance, BLEU, character recall

實驗評測

我們將HDNet與一些基線模型進行了比較，結果見表。HDNet的表現優于所有基線模型，實現了最高的字符召回率（0.968）、最低的平均編輯距離，以及最高的BLEU分數。

公式識別：利用分層且聚焦細節的網絡提升復雜公式識別能力-AI.x社區

跨數據集泛化：

我們還對現有的公式識別數據集進行了比較，HDNet同樣取得了最佳結果。值得一提的是，HDNet在參數數量方面也具有優勢，如圖4所示，子公式模塊并未增加額外的參數。

公式識別：利用分層且聚焦細節的網絡提升復雜公式識別能力-AI.x社區

消融實驗

為了驗證我們的分層子公式模塊，我們進行了四種配置下的消融實驗：不裁剪、隨機裁剪、子公式裁剪，以及子公式和隨機裁剪相結合。

實驗結果總結在表IV中，結果表明“子公式 + 隨機裁剪”的配置取得了最佳性能，公平字符召回率（Fair-CR）得分達到了0.968。然而，僅使用子公式裁剪時，得分降至0.837。這是為什么呢？

公式識別：利用分層且聚焦細節的網絡提升復雜公式識別能力-AI.x社區

子公式裁剪在訓練過程中依賴標簽來提取子公式，但在測試階段這些標簽是不可用的。這就導致了訓練階段和測試階段之間的不匹配。通過將子公式裁剪與隨機裁剪相結合（在訓練和測試中都一致應用），我們消除了這種差距，確保了模型的穩健性能。

這個實驗強調了使訓練條件和推理條件保持一致的重要性，尤其是對于像數學表達式識別（MER）這樣對細節敏感的任務來說。

總結與展望

我們的工作解決了數學表達式識別（MER）領域的兩個根本性局限：一是缺乏能夠涵蓋復雜層次結構的數據集，二是現有模型無法解析復雜公式中的細粒度細節。

首先，HDR數據集為MER研究樹立了新的標桿。它擁有一億個訓練樣本，并且有一個涵蓋多個不同學科領域的多標簽測試集。這促使模型去處理嵌套結構、多行公式以及功能等效的解釋。通過納入從簡單字符到深度嵌套矩陣的不同層次，HDR彌合了理論研究與實際應用之間的差距。

其次，HDNet重新定義了模型處理復雜公式的方式。它的分層子公式模塊將表達式分解為高分辨率的子組件，從而實現對細節的精確識別。通過融合主公式及其子公式的特征，HDNet在面對尺度變化和復雜的符號排列時表現出很強的穩健性。雙重損失函數進一步確保了平衡優化，既重視全局結構，又注重局部的準確性。

我們的實驗表明，HDNet優于現有的MER模型，在編輯距離和字符召回率等指標上均取得了最佳性能。至關重要的是，我們引入了一個公平的評估框架，該框架考慮了公式的多種有效解釋，這是對以往嚴格的字符層面比較的一種范式轉變。

展望未來，我們設想HDNet將成為科學文獻分析、教育技術以及多語言公式識別的基礎工具。未來的工作將擴展HDR數據集，使其包含手寫表達式，并針對實時應用對HDNet進行優化。

總之，HDR數據集和HDNet架構解決了數學表達式識別（MER）領域的關鍵缺陷。未來的工作將包括將其擴展到手寫表達式識別以及多語言環境中。

公眾號大模型自然語言處理作者：余俊暉

原文鏈接：??https://mp.weixin.qq.com/s/jqanDf9Vk_IXJx5XEJkw3w??

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

多模態

文檔智能

已于2025-4-2 07:35:30修改

贊

回復

舉報

回復

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

公式識別：利用分層且聚焦細節的網絡提升復雜公式識別能力原創

問題陳述與動機

數學表達式識別挑戰

1. HDR數據集

2. HDNet架構

實驗評測

消融實驗

總結與展望

目錄

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

公式識別：利用分層且聚焦細節的網絡提升復雜公式識別能力 原創

問題陳述與動機

數學表達式識別挑戰

1. HDR數據集

2. HDNet架構

實驗評測

消融實驗

總結與展望

目錄

公式識別：利用分層且聚焦細節的網絡提升復雜公式識別能力原創