公式識別:利用分層且聚焦細節的網絡提升復雜公式識別能力 原創
公式識別是文檔智能解析中的重要一環,本文筆者將介紹筆者自己的工作,供參考。
問題陳述與動機
核心問題:當前的數學表達式識別(MER)模型難以處理復雜公式中的層次結構和細粒度細節。
數學公式是邏輯的建筑藍圖——它們在求和符號中嵌套分數,在行文中堆疊矩陣,并分支為條件分段函數。然而,盡管數學公式具有復雜的結構,當前的數學表達式識別(MER)模型甚至難以可靠解析中等復雜度的表達式。試想:當公式的視覺密度增加時,其渲染圖像會擴大以保持清晰度。但問題在于——模型會將所有輸入嚴格調整為224×224像素等固定尺寸。圖1中的負號在原始高分辨率圖像中清晰可辨,但經過壓縮后,它會坍縮成一個與分數線模糊融合的兩像素污點。這種壓縮會引發連鎖故障:下標與基準字符粘連,括號等定界符失去方向感,層級關系消解為視覺噪聲。
數學表達式識別挑戰
復雜公式帶來了三個關鍵挑戰。首先,層次嵌套(如分數內的矩陣)需要精確解析。其次,不同LaTeX代碼可能渲染出相同圖像,導致歧義問題。第三,現有數據集規模小且缺乏結構多樣性。
為應對這些挑戰,我們提出三項貢獻,重新定義數學表達式識別領域:
- HDR數據集——MER研究的重大突破。不同于局限于簡單方程的現有數據集,HDR包含超過10億個公式,精心組織為HDR-100M訓練集和覆蓋12個復雜度層級的專項測試集。從基礎分數到嵌套矩陣求和,再到多分支分段函數,該資源完整捕捉了真實科學符號的多樣性。每個公式包含多標簽注釋和替代性語法表示,使模型能夠學習不同LaTeX格式的等價表達。
- HDNet架構——帶有顛覆性層次子公式模塊的編解碼架構。其動態裁剪機制可分離求和界限、矩陣括號、分數線等關鍵子組件,在分層融合特征前對每個組件進行最優分辨率處理。
- 公平評估協議——針對MER評估體系性缺陷的解決方案。現有指標將有效LaTeX變體誤判為錯誤,混淆語法偏好與真實錯誤。我們的評估協議為數學等價表達式建立等價類標準。
1. HDR數據集
首先是HDR數據集。我們在表1中的分析展示了HDR-Test如何系統地按層次級別和線條數對公式進行分類。HDR數據集涵蓋八個類別的公式,其復雜度分別由層次級別和線條數計算得出。
分層如下:
- 0級:獨立字符
- 1級:字符+位置關系
- 2級:構造結構
- 3級:多層
首先是HDR數據集。為標準化公式復雜度的表示,我們在此解釋層次級別的含義:
在0級,我們定義原子元素——獨立字符如"a"或數字,它們是構成公式的基礎單元。當這些元素與上標、下標等操作符結合時,復雜度上升至1級。
2級引入結構性復雜度——分數、積分或求和符號。此時空間關系決定了語義。但真正的挑戰出現在更高層級,公式呈現俄羅斯套娃式嵌套結構:例如包裹矩陣的分段函數,這類表達式要求跨多層精確匹配開閉定界符。
通過在復雜度梯度上訓練模型,我們迫使它們掌握LaTeX的結構語法——不僅識別符號,更要理解其嵌套依賴關系。這種層次劃分不僅是理論概念,更是解析真實公式的關鍵。
HDR-1億數據集提供了前所未有的規模和多樣性,涵蓋了從數學到計算機科學領域的arXiv論文中的公式。HDR測試集包含多標簽注釋,以涵蓋有效的LaTeX變體。如圖3所示,HDR在復雜性方面超越了先前的數據集,能夠支持強大的模型訓練和評估。
2. HDNet架構
Encoder-Decoder: ViT encoder + Transformer decoder
HDNet將視覺Transformer編碼器與Transformer解碼器相結合。其關鍵創新點在于特征融合:將主公式的全局上下文信息與子公式的局部細節信息相融合。損失函數通過參數α來平衡主公式損失和子公式損失。這種雙重關注確保了對公式結構和細節的準確解析。
在訓練過程中,如圖2的左側所示,公式會根據其標簽進行分層解析。每個公式會被拆分、渲染并調整大小成為子公式。主公式也會進行渲染和調整大小。主公式和子公式都會被輸入到編碼器中以提取特征。然后,子公式的特征會通過加權聚合的方式與主公式的特征相融合,以提供額外的視覺細節信息。經過加權的特征會被傳遞到解碼器,以預測主公式的結果。此外,每個子公式的特征會被單獨傳遞到解碼器,以預測子公式的結果。該模型的優化目標包括主公式的損失以及子公式損失的總和。
loss如下:
公平評估策略
評估的公平性至關重要。傳統的評估方法局限于字符層面,當數學公式圖像可以用多種有效方式進行解釋時,這些方法往往無法公平地評估模型。由于具有功能等效性的LaTeX命令,預測結果和真實標簽在字符層面可能會有所不同,但作為圖像渲染出來時卻是相同的。例如,一些LaTeX公式在功能上是相同的,但在文本表達上存在差異。
為了克服這一問題,如圖所示,我們提出了一種簡單而高效的評估策略,該策略考慮了功能等效表達式的所有有效解析選項。我們的方法在進行字符層面的評估之前,會用等效表達式來替換標簽和模型預測結果。
這種方法能夠涵蓋更廣泛的有效表達式,確保在識別和解析復雜公式時,對模型性能進行更可靠、更公平的評估。通過處理基于LaTeX的公式生成過程中的可變性,我們的策略提高了字符層面評估的準確性和公平性。
評價指標:Edit distance, BLEU, character recall
實驗評測
我們將HDNet與一些基線模型進行了比較,結果見表。HDNet的表現優于所有基線模型,實現了最高的字符召回率(0.968)、最低的平均編輯距離,以及最高的BLEU分數。
跨數據集泛化:
我們還對現有的公式識別數據集進行了比較,HDNet同樣取得了最佳結果。值得一提的是,HDNet在參數數量方面也具有優勢,如圖4所示,子公式模塊并未增加額外的參數。
消融實驗
為了驗證我們的分層子公式模塊,我們進行了四種配置下的消融實驗:不裁剪、隨機裁剪、子公式裁剪,以及子公式和隨機裁剪相結合。
實驗結果總結在表IV中,結果表明“子公式 + 隨機裁剪”的配置取得了最佳性能,公平字符召回率(Fair-CR)得分達到了0.968。然而,僅使用子公式裁剪時,得分降至0.837。這是為什么呢?
子公式裁剪在訓練過程中依賴標簽來提取子公式,但在測試階段這些標簽是不可用的。這就導致了訓練階段和測試階段之間的不匹配。通過將子公式裁剪與隨機裁剪相結合(在訓練和測試中都一致應用),我們消除了這種差距,確保了模型的穩健性能。
這個實驗強調了使訓練條件和推理條件保持一致的重要性,尤其是對于像數學表達式識別(MER)這樣對細節敏感的任務來說。
總結與展望
我們的工作解決了數學表達式識別(MER)領域的兩個根本性局限:一是缺乏能夠涵蓋復雜層次結構的數據集,二是現有模型無法解析復雜公式中的細粒度細節。
首先,HDR數據集為MER研究樹立了新的標桿。它擁有一億個訓練樣本,并且有一個涵蓋多個不同學科領域的多標簽測試集。這促使模型去處理嵌套結構、多行公式以及功能等效的解釋。通過納入從簡單字符到深度嵌套矩陣的不同層次,HDR彌合了理論研究與實際應用之間的差距。
其次,HDNet重新定義了模型處理復雜公式的方式。它的分層子公式模塊將表達式分解為高分辨率的子組件,從而實現對細節的精確識別。通過融合主公式及其子公式的特征,HDNet在面對尺度變化和復雜的符號排列時表現出很強的穩健性。雙重損失函數進一步確保了平衡優化,既重視全局結構,又注重局部的準確性。
我們的實驗表明,HDNet優于現有的MER模型,在編輯距離和字符召回率等指標上均取得了最佳性能。至關重要的是,我們引入了一個公平的評估框架,該框架考慮了公式的多種有效解釋,這是對以往嚴格的字符層面比較的一種范式轉變。
展望未來,我們設想HDNet將成為科學文獻分析、教育技術以及多語言公式識別的基礎工具。未來的工作將擴展HDR數據集,使其包含手寫表達式,并針對實時應用對HDNet進行優化。
總之,HDR數據集和HDNet架構解決了數學表達式識別(MER)領域的關鍵缺陷。未來的工作將包括將其擴展到手寫表達式識別以及多語言環境中。
公眾號大模型自然語言處理 作者:余俊暉
