關于時間知識圖譜問答的一篇綜述
前言
時間知識圖譜問答(TKGQA)是KBQA中一個關注時間問題的重要子任務。時間問題包含時間約束、需要時間標記的答案,反映了現實世界事件的動態和演變性質。
一、TKGQA
1.1 概述
- 時間知識圖譜(TKG):
- 通常表示為 G = (E, R, T, F),其中 E、R、T 和 F 分別代表實體(entities)、關系(relations)、時間戳(timestamps)和事實(facts)。
- 一個時態事實 f ∈ F 由一個或多個實體、關系和相關的時間戳組成。
- 時態事實可以以多種形式表示,包括復合值類型(Compound Value Types,簡稱 CVTs)、三元組、n-元組、五元組和四元組。
- 時態問題(Temporal Question):
時態問題至少包含一個時態約束或需要時間戳作為答案。
時態約束涉及時態表達式和時態詞的組合,為答案必須滿足的特定時間點或時間間隔設置條件(例如,“在1996年”)。
時態表達式指的是具有不同粒度級別的自然語言中的時間點或時間間隔(例如,“2024年5月11日”)。
時態詞表示時態表達式之間的時態關系,并作為觸發詞對答案施加約束(例如,“在”,“之后”或“期間”)。
時間知識圖譜問答(TKGQA)任務:
給定時態知識圖譜 G 和自然語言中的時態問題 q,TKGQA 任務的目標是使用 G 中的一組實體{ e | e ∈ E }或時間戳 {τ | τ ∈ T}來回答 q。
1.2 相關數據集
圖片
二、時間問題分類
作者們根據問題內容、答案類型和復雜性三個維度對時態問題進行了分類:
圖片
- 問題內容(Question Content):
時態粒度(Temporal Granularity):問題可以根據其時態表達式的粒度進行分類,常見的粒度包括“年”、“月”、“日”,其中“年”是最常見的。
時態表達式(Temporal Expression):
問題可以基于其時態表達式的性質被分類為顯式的或隱式的。顯式的時態表達式可以在不需要額外上下文的情況下標準化(例如,“2023年9月”可以標準化為2023-09)。而隱式的時態表達式,如事件名稱或具有時態范圍的短語(例如,“2024年巴黎奧運會”),需要上下文信息才能被標準化為特定的時間間隔。
時態約束(Temporal Constraints):
時態約束的類型反映了時態表達式之間的時態關系。作者簡化了 Allen 的內部代數用于時態推理,將其歸納為六種關系類型:Before/After(之前/之后)、Equal(相等)、Overlap(重疊)、During/Include(期間/包含)、Start/End(開始/結束)、Ordinal(序數)。
圖片
時態約束組合(Temporal Constraints Composition):
當一個問題中存在多個時態約束時,就會發生時態約束的組合。例如,“誰是2005年第一個要求與多哥會面的?”這個問題結合了 Equal 類型的約束“在2005年”和 Ordinal 類型的約束“第一個”,答案必須同時滿足這兩個約束。
- 答案類型(Answer Type):
時態問題可能需要的答案類型可以是實體的集合或時間戳的集合,時間戳的粒度會根據具體問題而變化。答案類型由問題詞引導,例如“誰”用于實體,“哪一年”用于時間戳。 - 復雜性(Complexity):
KBQA 任務中定義復雜問題為需要從多個事實中檢索答案的問題。受這些工作啟發,作者也根據復雜性對時態問題進行了分類,將時態問題分為簡單和復雜兩類。
簡單問題(Simple questions):簡單問題依賴于單一事實進行解答。例如,“2012年德國使用的貨幣是什么?”只需要檢索一個事實 <德國, 貨幣, 歐元, 2012>。
復雜問題(Complex questions):復雜問題需要整合多個事實。例如,“奧巴馬之前的美國總統是誰?”首先根據事實 <奧巴馬, 美國總統, 2009, 2017> 建立時間約束“2009年之前”,然后系統識別出立即之前的個人,通過事實 <喬治·W·布什, 美國總統, 2001, 2009> 確認為喬治·W·布什,這種多步驟推理過程展示了這類問題的復雜性。
相關數據集覆蓋情況
圖片
三、TKGQA方法
3.1 基于語義解析的方法(SP-based)
圖片
通常有四個步驟:
- 問題理解(Question Understanding):將自然語言問題轉換為編碼表示,以便于后續解析。例如,使用抽象意義表示(AMR)來捕捉時態詞匯和隱式的時態約束。
- 邏輯解析(Logical Parsing):將編碼的問題轉換為未實例化的邏輯形式。這可能涉及到使用預定義的規則或模板來解析問題。
圖片
- TKG 定位(TKG Grounding):通過TKG中的元素(實體、關系、時間戳)來定位未綁定的邏輯形式中的元素。
- 查詢執行(Query Execution):執行定位后的邏輯形式,以從TKG中檢索最終答案。一些方法在這一階段進行時態推理。
3.2 基于時態知識圖譜嵌入的方法(TKGE-based)
圖片
通常有三個步驟:
- TKG 嵌入(TKG Embedding):生成TKG元素(實體和時間戳)的嵌入表示,并創建候選答案池。
- 問題嵌入(Question Embedding):分析時態問題的語義,并整合與時間相關的信息,以嵌入問題。
- 答案排序(Answer Ranking):基于問題和候選答案的嵌入表示,對候選答案進行排序。
3.3 方法對比
下表探討了不同方法在處理簡單和復雜問題時的表現,以及它們在處理顯式和隱式時態表達、不同粒度的時態粒度、不同類型時態約束和組合時的能力。
圖片
四、Leaderboard
圖片
總結
該文章建立了一個關于時間問題分類體系,基于問題內容、答案類型和復雜性對問題進行分類。并現有方法分為兩類:基于語義解析的方法和基于時間知識圖譜嵌入的方法。
參考文獻
- Temporal Knowledge Graph Question Answering: A Survey,https://arxiv.org/pdf/2406.14191