中科大提出UniMEL框架 | 革新知識圖譜,引領多模態實體鏈接新紀元
多模態實體鏈接的重要性與挑戰
多模態實體鏈接(Multimodal Entity Linking, MEL)是知識圖譜領域中的一項基礎任務,旨在將文檔中的提及(mentions)鏈接到知識庫中的實體。隨著社交媒體和互聯網的發展,文本和視覺的多模態性成為數據任務中的重要媒介。同時,線上信息的質量參差不齊,許多提及本身含糊不清,上下文信息粗糙,僅依靠文本模態往往難以進行有效消歧。然而,文本和視覺模態的結合往往能更精確、更輕松地進行消歧。例如,提及“United States”可能指代不同的實體,如國家名稱、體育隊伍或船只,但當同時考慮文本和視覺信息時,可以更容易地將“United States”準確鏈接到“美國國家輪椅橄欖球隊”的實體。
盡管深度學習方法在MEL任務中取得了一定的成果,通過融合提及文本和圖像獲取提及表示、應用交叉注意力機制和編碼圖像提取特征等方法,但這些方法仍面臨多個挑戰:
- 實體描述冗余。通常,實體的描述過長,使得在消歧過程中難以聚焦于有效信息。
- 提及缺乏重要的語義信息。與實體不同,提及在包含的特征信息的上下文完整性上存在差異。
為了解決上述問題,我們引入了一個統一框架UniMEL,旨在使用大型語言模型處理MEL任務,充分融合多模態提及的圖像和上下文,并生成實體的新簡潔描述。據我們所知,這是首次在MEL任務中引入基于多模態大型語言模型(MLLMs)的方法。
論文概覽:標題、作者、會議和鏈接
標題: UniMEL: A Unified Framework for Multimodal Entity Linking with Large Language Models
作者: Qi Liu, Yongyi He, Defu Lian, Zhi Zheng, Tong Xu, Che Liu, Enhong Chen
會議: Proceedings of the 33nd ACM International Conference on Information and Knowledge Management (CIKM ’24
多模態實體鏈接的定義與應用場景
多模態實體鏈接(Multimodal Entity Linking, MEL)是一種在知識庫中將文本提及(mentions)與實體相鏈接的任務,這些提及不僅包含文本信息,還包括視覺信息。這種鏈接方式在許多自然語言處理(NLP)的下游應用中非常有用,例如問題回答和推薦系統。隨著社交媒體和互聯網的發展,文本和視覺的多模態性成為了數據任務的重要媒介。例如,提及“美國”可能指向不同的實體,如國家、體育隊伍或船只,但當同時考慮文本和視覺信息時,可以更準確地將其鏈接到“美國國家輪椅橄欖球隊”的實體。
UniMEL框架的核心組件與工作流程
1. LLMs-based Entity Augmentation
為了解決實體描述過長和信息冗余的問題,UniMEL框架使用大型語言模型(LLMs)來有效地摘要實體描述。通過向LLMs提供實體名稱和其原始描述,并設計特定指令來強調生成摘要的簡潔性和內容要求,LLMs能夠生成新的、簡潔的、信息豐富的實體描述摘要。
2. MLLMs-based Mention Augmentation
利用多模態大型語言模型(MLLMs)的強大視覺理解和指令遵循能力,UniMEL框架增強了提及的描述信息。通過將提及的圖像、名稱和文本上下文輸入MLLMs,并設計特定的任務指令來引導MLLMs專注于提及本身,從而生成高質量的文本描述,增強提及的信息。
3. Retrieval Augmentation
在選擇最佳匹配實體之前,通常需要縮小候選集并盡可能確保其準確性。通過增強的實體和提及信息,首先將實體名稱和新描述連接起來,并使用預訓練的嵌入模型獲取其嵌入表示。然后,計算提及嵌入與知識庫中每個實體嵌入的余弦相似度,檢索出相似度最高的K個實體。
4. Multi-choice Selection
在域特定任務和數據上微調LLMs可以增強其在處理特定任務中的能力。通過高質量的數據和小規模候選集,設計了一個用于LLM指令調整的提示模板。LLM根據給定的指令和文本輸入預測答案,從而選擇與提及最匹配的實體。
實驗設計與數據集介紹
1. 數據集介紹
在本研究中,我們使用了三個公開的多模態實體鏈接數據集:Wikidiverse、WikiMEL和Richpedia。這些數據集包含了從不同來源收集的多模態樣本,其中包括文本描述和相關圖像。
- Wikidiverse數據集來源于Wikinews,涵蓋了多種主題和13種實體類型(如人物、國家、組織、事件等),基于Wikipedia的知識庫,總共包含約1600萬個實體。
- WikiMEL包含超過22K個從Wikipedia和Wikidata抽取的多模態樣本。與Wikidiverse相比,WikiMEL中的大多數實體類型是人物。
- Richpedia數據集收集了大規模多模態知識圖譜Richpedia中的Wikidata實體索引,并從Wikipedia獲取了多模態信息。
這些數據集的統計信息如下表所示:
數據集 | 訓練集樣本數 | 驗證集樣本數 | 測試集樣本數 |
Wikidiverse | 12,800 | 1,600 | 1,600 |
WikiMEL | 15,400 | 2,200 | 4,400 |
Richpedia | 11,280 | 1,610 | 3,207 |
2. 實驗設置
我們的實驗設置遵循了之前的工作,數據集被劃分為訓練集、驗證集和測試集。我們使用Wikidata作為我們的知識庫,并移除了那些在Wikidata中找不到對應實體的提及。在Wikidiverse中,數據集被劃分為80%訓練集、10%驗證集和10%測試集。在WikiMEL和Richpedia中,數據集被劃分為70%訓練集、10%驗證集和20%測試集。
主要實驗結果與分析
1. 實驗結果
我們的UniMEL框架在三個數據集上的表現如下:
- Wikidiverse: Top-1準確率為92.9%,比之前的最佳方法提高了41.7%。
- WikiMEL: Top-1準確率為94.1%,比之前的最佳方法提高了21.3%。
- Richpedia: Top-1準確率為94.8%,比之前的最佳方法提高了22.3%。
這些結果表明,我們的UniMEL框架在多模態實體鏈接任務中具有顯著的優勢,并且能夠有效地處理不同的數據集和實體類型。
2. 結果分析
我們的UniMEL框架通過整合文本和視覺信息,并對實體描述進行精簡,有效地提高了實體鏈接的準確性。此外,我們還對模型進行了微調,僅調整了約0.26%的模型參數,這進一步提高了模型在特定領域任務上的表現。
通過對比不同的基線方法,我們發現即使是純文本方法(如BERT),也能在某些數據集上展現出不錯的性能。然而,結合視覺信息的方法(如我們的UniMEL)在處理含糊不清和質量較低的提及信息時,表現更為出色。
總體來說,這些實驗結果驗證了我們的UniMEL框架在多模態實體鏈接任務中的有效性和先進性。
模型的優勢與挑戰
1. 模型的優勢
UniMEL模型在多模態實體鏈接任務中展現出顯著的優勢。首先,該模型通過結合大型語言模型(LLMs)和多模態大型語言模型(MLLMs),有效地處理了文本和視覺信息的融合問題。例如,通過MLLMs對提及的圖像和文本上下文進行增強,使得模型能夠更深入地理解圖像與其上下文之間的語義關系。此外,UniMEL利用LLMs的總結能力,對實體描述進行精簡,從而提高了實體檢索的準確性和效率。
其次,UniMEL在候選實體集的縮減和重排方面也表現出色。通過嵌入模型對實體和提及的嵌入表示進行相似度計算,模型能夠有效地縮小候選實體范圍,并通過LLMs進行精確的多選匹配,從而提高了鏈接的準確性。
最后,實驗結果顯示,UniMEL在三個公開的多模態實體鏈接數據集上均達到了最佳性能,驗證了其在實際應用中的有效性和優越性。
2. 模型的挑戰
盡管UniMEL在多模態實體鏈接任務中表現出強大的能力,但仍面臨一些挑戰。首先,文本和視覺信息的有效融合仍是一個復雜的問題,尤其是在信息互補性不足的情況下,如何設計更有效的融合機制是提高模型性能的關鍵。
其次,盡管LLMs在處理文本信息方面表現出色,但它們在特定領域知識的應用上仍有限。如何讓LLMs更好地適應特定領域的知識,以提高模型在特定任務上的表現,是未來研究的一個重要方向。
最后,從實體描述中提取有效信息并進行高效處理的問題也是挑戰之一。當前模型雖然通過LLMs的總結能力對描述進行了精簡,但如何進一步優化信息提取和處理流程,以提高處理速度和準確性,仍需進一步探索。
結論與未來工作方向
UniMEL框架通過整合LLMs和MLLMs,有效地解決了多模態實體鏈接任務中的關鍵問題,如文本和視覺信息的融合、實體描述的精簡和候選實體集的高效處理等。實驗結果表明,UniMEL在多個公開數據集上均取得了優異的性能,驗證了其在實際應用中的有效性和前景。
未來的工作方向可以從以下幾個方面進行:
- 改進信息融合機制:探索更有效的文本和視覺信息融合技術,以處理更復雜的場景和信息互補性不足的問題。
- 領域適應性增強:研究如何讓LLMs更好地適應特定領域的知識,特別是在領域特定知識較為豐富的任務中,如何有效利用這些知識來提高模型的性能。
- 優化實體處理流程:進一步研究如何優化從實體描述中提取關鍵信息的方法,包括信息的提取、處理和表示,以提高模型在實體鏈接任務中的效率和準確性。
- 擴展模型應用場景:考慮將UniMEL框架應用于更多類型的NLP任務和其他需要處理多模態數據的領域,如圖像標注、視覺問答等,以全面提升模型的實用性和影響力。
本文轉載自 ??AI論文解讀??,作者:柏企
