成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

公式識別:利用分層且聚焦細節的網絡提升復雜公式識別能力 原創

發布于 2025-4-2 07:35
瀏覽
0收藏

公式識別是文檔智能解析中的重要一環,本文筆者將介紹筆者自己的工作,供參考。

公式識別:利用分層且聚焦細節的網絡提升復雜公式識別能力-AI.x社區

問題陳述與動機

公式識別:利用分層且聚焦細節的網絡提升復雜公式識別能力-AI.x社區

核心問題:當前的數學表達式識別(MER)模型難以處理復雜公式中的層次結構和細粒度細節。

數學公式是邏輯的建筑藍圖——它們在求和符號中嵌套分數,在行文中堆疊矩陣,并分支為條件分段函數。然而,盡管數學公式具有復雜的結構,當前的數學表達式識別(MER)模型甚至難以可靠解析中等復雜度的表達式。試想:當公式的視覺密度增加時,其渲染圖像會擴大以保持清晰度。但問題在于——模型會將所有輸入嚴格調整為224×224像素等固定尺寸。圖1中的負號在原始高分辨率圖像中清晰可辨,但經過壓縮后,它會坍縮成一個與分數線模糊融合的兩像素污點。這種壓縮會引發連鎖故障:下標與基準字符粘連,括號等定界符失去方向感,層級關系消解為視覺噪聲。

數學表達式識別挑戰

復雜公式帶來了三個關鍵挑戰。首先,層次嵌套(如分數內的矩陣)需要精確解析。其次,不同LaTeX代碼可能渲染出相同圖像,導致歧義問題。第三,現有數據集規模小且缺乏結構多樣性。

為應對這些挑戰,我們提出三項貢獻,重新定義數學表達式識別領域:

  1. HDR數據集——MER研究的重大突破。不同于局限于簡單方程的現有數據集,HDR包含超過10億個公式,精心組織為HDR-100M訓練集和覆蓋12個復雜度層級的專項測試集。從基礎分數到嵌套矩陣求和,再到多分支分段函數,該資源完整捕捉了真實科學符號的多樣性。每個公式包含多標簽注釋和替代性語法表示,使模型能夠學習不同LaTeX格式的等價表達。
  2. HDNet架構——帶有顛覆性層次子公式模塊的編解碼架構。其動態裁剪機制可分離求和界限、矩陣括號、分數線等關鍵子組件,在分層融合特征前對每個組件進行最優分辨率處理。
  3. 公平評估協議——針對MER評估體系性缺陷的解決方案。現有指標將有效LaTeX變體誤判為錯誤,混淆語法偏好與真實錯誤。我們的評估協議為數學等價表達式建立等價類標準。

1. HDR數據集

公式識別:利用分層且聚焦細節的網絡提升復雜公式識別能力-AI.x社區

首先是HDR數據集。我們在表1中的分析展示了HDR-Test如何系統地按層次級別和線條數對公式進行分類。HDR數據集涵蓋八個類別的公式,其復雜度分別由層次級別和線條數計算得出。

分層如下:

  • 0級:獨立字符

公式識別:利用分層且聚焦細節的網絡提升復雜公式識別能力-AI.x社區

  • 1級:字符+位置關系
  • 公式識別:利用分層且聚焦細節的網絡提升復雜公式識別能力-AI.x社區

  • 2級:構造結構

公式識別:利用分層且聚焦細節的網絡提升復雜公式識別能力-AI.x社區

  • 3級:多層
  • 公式識別:利用分層且聚焦細節的網絡提升復雜公式識別能力-AI.x社區

首先是HDR數據集。為標準化公式復雜度的表示,我們在此解釋層次級別的含義:

在0級,我們定義原子元素——獨立字符如"a"或數字,它們是構成公式的基礎單元。當這些元素與上標、下標等操作符結合時,復雜度上升至1級。

2級引入結構性復雜度——分數、積分或求和符號。此時空間關系決定了語義。但真正的挑戰出現在更高層級,公式呈現俄羅斯套娃式嵌套結構:例如包裹矩陣的分段函數,這類表達式要求跨多層精確匹配開閉定界符。

通過在復雜度梯度上訓練模型,我們迫使它們掌握LaTeX的結構語法——不僅識別符號,更要理解其嵌套依賴關系。這種層次劃分不僅是理論概念,更是解析真實公式的關鍵。

HDR-1億數據集提供了前所未有的規模和多樣性,涵蓋了從數學到計算機科學領域的arXiv論文中的公式。HDR測試集包含多標簽注釋,以涵蓋有效的LaTeX變體。如圖3所示,HDR在復雜性方面超越了先前的數據集,能夠支持強大的模型訓練和評估。

公式識別:利用分層且聚焦細節的網絡提升復雜公式識別能力-AI.x社區

2. HDNet架構

公式識別:利用分層且聚焦細節的網絡提升復雜公式識別能力-AI.x社區

Encoder-Decoder: ViT encoder + Transformer decoder

HDNet將視覺Transformer編碼器與Transformer解碼器相結合。其關鍵創新點在于特征融合:將主公式的全局上下文信息與子公式的局部細節信息相融合。損失函數通過參數α來平衡主公式損失和子公式損失。這種雙重關注確保了對公式結構和細節的準確解析。

在訓練過程中,如圖2的左側所示,公式會根據其標簽進行分層解析。每個公式會被拆分、渲染并調整大小成為子公式。主公式也會進行渲染和調整大小。主公式和子公式都會被輸入到編碼器中以提取特征。然后,子公式的特征會通過加權聚合的方式與主公式的特征相融合,以提供額外的視覺細節信息。經過加權的特征會被傳遞到解碼器,以預測主公式的結果。此外,每個子公式的特征會被單獨傳遞到解碼器,以預測子公式的結果。該模型的優化目標包括主公式的損失以及子公式損失的總和。

loss如下:

公式識別:利用分層且聚焦細節的網絡提升復雜公式識別能力-AI.x社區

公平評估策略

評估的公平性至關重要。傳統的評估方法局限于字符層面,當數學公式圖像可以用多種有效方式進行解釋時,這些方法往往無法公平地評估模型。由于具有功能等效性的LaTeX命令,預測結果和真實標簽在字符層面可能會有所不同,但作為圖像渲染出來時卻是相同的。例如,一些LaTeX公式在功能上是相同的,但在文本表達上存在差異。

為了克服這一問題,如圖所示,我們提出了一種簡單而高效的評估策略,該策略考慮了功能等效表達式的所有有效解析選項。我們的方法在進行字符層面的評估之前,會用等效表達式來替換標簽和模型預測結果。

公式識別:利用分層且聚焦細節的網絡提升復雜公式識別能力-AI.x社區

這種方法能夠涵蓋更廣泛的有效表達式,確保在識別和解析復雜公式時,對模型性能進行更可靠、更公平的評估。通過處理基于LaTeX的公式生成過程中的可變性,我們的策略提高了字符層面評估的準確性和公平性。

評價指標:Edit distance, BLEU, character recall

實驗評測

我們將HDNet與一些基線模型進行了比較,結果見表。HDNet的表現優于所有基線模型,實現了最高的字符召回率(0.968)、最低的平均編輯距離,以及最高的BLEU分數。

公式識別:利用分層且聚焦細節的網絡提升復雜公式識別能力-AI.x社區

跨數據集泛化

我們還對現有的公式識別數據集進行了比較,HDNet同樣取得了最佳結果。值得一提的是,HDNet在參數數量方面也具有優勢,如圖4所示,子公式模塊并未增加額外的參數。

公式識別:利用分層且聚焦細節的網絡提升復雜公式識別能力-AI.x社區

公式識別:利用分層且聚焦細節的網絡提升復雜公式識別能力-AI.x社區

消融實驗

為了驗證我們的分層子公式模塊,我們進行了四種配置下的消融實驗:不裁剪、隨機裁剪、子公式裁剪,以及子公式和隨機裁剪相結合。

實驗結果總結在表IV中,結果表明“子公式 + 隨機裁剪”的配置取得了最佳性能,公平字符召回率(Fair-CR)得分達到了0.968。然而,僅使用子公式裁剪時,得分降至0.837。這是為什么呢?

公式識別:利用分層且聚焦細節的網絡提升復雜公式識別能力-AI.x社區

子公式裁剪在訓練過程中依賴標簽來提取子公式,但在測試階段這些標簽是不可用的。這就導致了訓練階段和測試階段之間的不匹配。通過將子公式裁剪與隨機裁剪相結合(在訓練和測試中都一致應用),我們消除了這種差距,確保了模型的穩健性能。

這個實驗強調了使訓練條件和推理條件保持一致的重要性,尤其是對于像數學表達式識別(MER)這樣對細節敏感的任務來說。

總結與展望

我們的工作解決了數學表達式識別(MER)領域的兩個根本性局限:一是缺乏能夠涵蓋復雜層次結構的數據集,二是現有模型無法解析復雜公式中的細粒度細節。

首先,HDR數據集為MER研究樹立了新的標桿。它擁有一億個訓練樣本,并且有一個涵蓋多個不同學科領域的多標簽測試集。這促使模型去處理嵌套結構、多行公式以及功能等效的解釋。通過納入從簡單字符到深度嵌套矩陣的不同層次,HDR彌合了理論研究與實際應用之間的差距。

其次,HDNet重新定義了模型處理復雜公式的方式。它的分層子公式模塊將表達式分解為高分辨率的子組件,從而實現對細節的精確識別。通過融合主公式及其子公式的特征,HDNet在面對尺度變化和復雜的符號排列時表現出很強的穩健性。雙重損失函數進一步確保了平衡優化,既重視全局結構,又注重局部的準確性。

我們的實驗表明,HDNet優于現有的MER模型,在編輯距離和字符召回率等指標上均取得了最佳性能。至關重要的是,我們引入了一個公平的評估框架,該框架考慮了公式的多種有效解釋,這是對以往嚴格的字符層面比較的一種范式轉變。

展望未來,我們設想HDNet將成為科學文獻分析、教育技術以及多語言公式識別的基礎工具。未來的工作將擴展HDR數據集,使其包含手寫表達式,并針對實時應用對HDNet進行優化。

總之,HDR數據集和HDNet架構解決了數學表達式識別(MER)領域的關鍵缺陷。未來的工作將包括將其擴展到手寫表達式識別以及多語言環境中。


公眾號大模型自然語言處理  作者:余俊暉

原文鏈接:??https://mp.weixin.qq.com/s/jqanDf9Vk_IXJx5XEJkw3w??

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
已于2025-4-2 07:35:30修改
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 日韩精品免费在线观看 | 国产精品久久久久无码av | 日韩在线精品强乱中文字幕 | 国产视频二区在线观看 | 国产成都精品91一区二区三 | 国产精品一区二区三 | 国产福利小视频 | 国产一区二区三区在线免费 | 日韩一区二区三区在线观看 | 伊人狠狠操 | 在线精品一区二区三区 | 天天操网| 国产一级视频在线播放 | 久久免费精品 | 国产精品a久久久久 | 亚洲精品第一 | 成年人在线观看 | 亚洲电影第1页 | 日韩欧美在线观看视频 | 亚洲国产精品人人爽夜夜爽 | 不卡视频一区 | 日本精品一区二区三区视频 | 久久久久久91 | 国产精品美女久久久久aⅴ国产馆 | 久久国产视频播放 | 久久99精品久久久97夜夜嗨 | 91福利网 | 亚洲伊人久久综合 | 久久91av | 中国91av | 美女黄18岁以下禁止观看 | 精品一区二区久久久久久久网精 | 日韩视频专区 | 久久91精品| 91精品国产91久久综合桃花 | 天堂亚洲 | 国产亚洲精品综合一区 | 免费成人在线网 | 色综合久久久 | 日日噜噜噜夜夜爽爽狠狠视频, | 成人国产精品色哟哟 |