哈工大提出創新迭代推理框架 DPE-MNER :充分發揮多模態表示潛力
該文章的作者團隊來與哈工大社會計算與信息檢索研究中心,作者團隊構成:鄭子豪、張梓涵、王澤鑫、付瑞吉、劉銘、王仲遠、秦兵。
多模態表示
多模態命名實體識別,作為構建多模態知識圖譜的一項基礎而關鍵任務,要求研究者整合多種模態信息以精準地從文本中提取命名實體。盡管以往的研究已經在不同層次上探索了多模態表示的整合方法,但在將這些多模態表示融合以提供豐富上下文信息、進而提升多模態命名實體識別的性能方面,它們仍顯不足。
本文,研究團隊提出了DPE-MNER,一個創新的迭代推理框架,它遵循“分解、優先、消除”的策略,動態地整合了多樣化的多模態表示。該框架巧妙地將多模態表示的融合分解為層次化且相互連接的融合層,極大地簡化了處理過程。在整合多模態信息時,該團隊特別強調了從“簡單到復雜”和“宏觀到微觀”的漸進式過渡。此外,通過顯式地建模跨模態的相關性,研究團隊有效地排除了那些可能對MNER預測造成誤導的不相關信息。通過在兩個公共數據集上進行的廣泛實驗,研究團隊的方法已被證實在提升多模態命名實體識別的準確性和效率方面具有顯著效果。本文為LREC-COLING 2024 1558篇錄用論文中的十篇最佳論文候選之一。
動機
多模態命名實體識別的一個實例。研究團隊展示了對于命名實體識別決策可能有用的多種多模態表示。人類通常在心中以迭代的方式處理這些信息。
為解決這一問題,研究團隊從復雜問題解決(Sternberg 和 Frensch,1992)這一領域中獲得靈感。該領域專注于研究人類和計算機在解決包含多個變量、不確定性和高復雜性的問題時所采用的方法和策略。首先他們認為,當面對復雜問題時,人類一般會采用迭代的處理方式,如圖所示,研究團隊在處理MNER時其實也是個迭代的過程。其次,人類會運用特定策略來簡化這些問題,比如分解、優先排序和排除不相關因素。
該研究團隊認為,將多模態命名實體識別(MNER)視為一個整合多模態信息的迭代過程,并運用這些策略,非常適合于MNER任務。與單一步驟的方法相比,多步驟的方法能夠在迭代優化命名實體識別(NER)結果的過程中,更全面地利用多樣化的多模態表示。
此外,這三種策略非常適合于多模態NER中多種表示的整合:
- 分解策略鼓勵我們將多模態表示的融合拆分為更小、更易于處理的單元,這些單元能夠在不同的粒度級別上探索多模態交互。
- 優先排序策略建議根據“由易到難”和“由粗到細”的順序來整合多模態信息;這種漸進式的整合有助于MNER預測的逐步優化。這使得模型能夠逐步將注意力從簡單但粗糙的信息轉移到復雜但精確的細節上。
- 不相關性消除策略啟發我們顯式地篩選并排除不同多模態表示中的無關信息;這可以消除那些可能影響MNER性能的無關信息。
方法
研究團隊設計了一個迭代的動態融合多種多模態特征的多模態實體抽取框架,其包含一個迭代過程以及預測網絡。
迭代建模MNER
研究團隊沿用擴散模型將物體識別,視覺對齊以及文本實體抽取建模為迭代的去噪過程的方式,同樣使用了擴散模型將多模態實體抽取建模為迭代過程。模型首先隨機初始化一系列的實體區間,基于一個預測網絡編碼多模態特征來在去噪過程中迭代地去噪得到文本中的正確實體區間
。
預測網絡
如圖所示,研究團隊共獲取了文本中的三種粒度的表示,圖片中的兩種粒度兩種難度(他們認為對齊的表示是簡單的表示,不對齊的是困難的表示)的表示
。該團隊的預測網絡AMRN包含一個編碼網絡(DMMF)以及解碼網絡(MER)。預測網絡的設計是基于前面所提到的三種策略。
如圖所示,編碼網絡是一個層次化的融合網絡,將多種多模態特征融合分解為了一個層次化的過程。自底向上是首先將相同粒度不同難度的圖片特征融合到每個粒度的文本特征中$x_i$, 將不同粒度的圖片特征$Y$融合到每個粒度的文本特征
,最后將不同粒度的圖片特征Y和文本特征X融合,得到最終的多模態表示。輸入到解碼網絡中進行解碼,解碼網絡得到新的區間,以及每個區間的實體類型。
底層融合。這一層研究團隊將某一個粒度的圖片特征融合到某一個粒度的文本特征中。根據擴散過程,研究團隊可以得到一個調度器,該調度器可以反映當前的迭代的狀態,也是引入優先級的關鍵。研究團隊基于該調度器將不同難度的圖片特征融合在一起得到與
相關性rel,用于消除其中的無關信息。最后結合該相關性使用了一個bottleneck transformer來進行
與
的融合,得到了某一粒度的多模態圖像文本融合表示
。
中層融合。這一層研究團隊將不同粒度的圖片特征融合到某一個粒度的文本特征中,即融合。這一層我們使用了調度器來對不同粒度的圖片特征進行動態融合,得到了某一粒度的多模態文本表示
。
頂層融合。這一層研究團隊將不同粒度的多模態文本表示融合到區間的表示中,得到總的多模態的文本表示
,輸入到解碼網絡中進行預測。
實驗結果
主實驗
作者團隊對比了MNER的一些典型的方法。實驗結果表明該方法在兩個常用的數據集上取得了最佳的性能。
消融實驗
研究者分別去除了我們論文中關于優先級、層次化、以及消除的設計,來觀察模型性能,結果表明移除各個設計均帶來了性能的下降。
與靜態特征融合方法的對比
他們對比了一些典型的靜態多模態融合方法,例如最大池化,平均池化,基于MLP以及MoE的方法,結果表明他們所提出的動態融合框架能達到最好的性能。
典型樣例分析
研究團隊選取了兩個有代表性的樣例來表明迭代過程。可以看到最開始的迭代步驟里,time square和cubs的類型被錯誤地預測了;然而根據圖片中的重要特征線索,迭代地修正為了正確的實體類型。
結論
本文旨在多模態命名實體識別(MNER)領域內,充分地發揮各種多模態表示的潛力,以期獲得卓越的識別效果。為此,作者們設計并提出了一種創新的迭代推理框架——DPE-MNER。DPE-MNER通過將MNER任務分解為多個階段,巧妙地簡化了對這些豐富多樣的多模態表示的整合過程。在這一迭代過程中,多模態表示依據“分解、優先排序和消除”的策略,實現了動態的融合與整合。通過一系列嚴謹的實驗驗證,研究團隊充分展示了DPE-MNER框架的顯著效果和優越性能。