行業規模的知識圖譜——經驗和挑戰
【引子】
本文是石頭兄弟推薦的一篇關于知識圖譜綜述性文章,老碼對去年ACM上的這篇“Industry-Scale Knowledge Graphs: Lessons and Challenges”,Communications of the ACM, August 2019, Vol. 62 No. 8, Pages 36-43, 10.1145/3331166 進行了翻譯整理。原文作者是Natasha Noy(Google), Yuqing Gao(MicroSoft), Anshu Jain(IBM), Anant Narayanan(Facebook), Alan Patterson(eBay)和Jamie Taylor(Google)。為了緩解閱讀的枯燥,點綴了一些風景圖片。
如今,知識圖譜對許多企業來說至關重要——它們提供了結構化數據和事實知識,以這些數據和知識驅動了許多產品,使它們更加智能化甚至“神奇”。
一般來說,知識圖譜描述了感興趣的對象和它們之間的聯系。例如,知識圖譜中可能包含電影節點、電影中的演員、導演等等。每個節點可能具有諸如參與者的名稱和年齡等屬性,可能存在涉及特定演員的多部電影的節點。然后,用戶可以遍歷知識圖表,收集演員出現的所有電影的信息,如果適用的話,也可以收集導演的信息。
許多知識圖譜的實際實現方案通過定義模式或本體對圖譜中的鏈接施加約束。例如,從電影到其導演的鏈接必須將 Movie 類型的對象連接到 Person 類型的對象。在某些情況下,鏈接本身可能具有自己的屬性,例如連接演員和電影的鏈接可能具有演員所扮演的特定角色的名稱。同樣,將政治家與政府中的特定角色聯系起來的鏈接可能包含政治家擔任這一角色的時間期限。
本文考察了五個不同的科技公司的知識圖譜,比較了他們各自建立圖譜和使用經驗的異同,并討論了當今所有知識驅動型企業面臨的挑戰。這里討論的知識圖譜集合涵蓋了從搜索、產品描述到社交網絡的廣泛應用:
- 微軟的 Bing 知識圖譜和 Google搜索引擎的知識圖譜都支持搜索并回答搜索中以及談話中的問題。從人、地點、事物和組織的描述和聯系開始,這些圖譜包括了關于世界的一般知識。
- Facebook 擁有世界上最大的社交圖譜,其中還包括音樂、電影、名人和 Facebook 用戶所關心的信息。
- eBay 目前正在開發的產品知識圖譜,將對產品、實體以及它們與外部世界之間關系的語義知識進行編碼。
- IBM Watson Discovery 產品的知識圖譜框架解決了兩個需求: 一個側重于發現不明顯信息的用例,另一個側重于提供“構建自己的知識圖譜”框架。
這里的目標不是詳盡地描述這些知識圖譜,而是利用作者在當今一些大型科技公司中構建知識圖譜的實踐經驗,作為任何企業級知識圖譜所面臨的挑戰以及需要進行一些創新研究的支點。
什么是知識圖譜? ——設計上的決策
讓我們從描述五個知識圖譜和每個設計中的決策開始,并確定每個圖譜的范圍。盡管許多挑戰是所有企業共同面臨的,但是,每個應用程序和產品目標的不同導致了不同的方法和系統架構,附表總結了這些知識圖譜的性質。
Microsoft
多年以來,微軟的工程師和科學家一直致力于大規模圖譜的研究。這項工作包括根據基礎研究來構建端到端系統,以及為數億用戶提供全球規模的服務。在整個公司,有幾個主要的圖譜系統,每一個都帶來了圍繞創建圖譜和最新的具體挑戰。許多不同的產品都可以使用知識圖譜為消費者帶來價值。以下是微軟的一些圖譜:
- 必應的知識圖譜包含了世界的信息和必應上的問答功能。它包含人、地點、事物、組織、位置等實體,以及用戶可能采取的操作(例如,播放視頻或購買歌曲)。這是微軟最大的知識圖譜,因為它的目標是包含關于整個世界的一般知識。
- 學術圖譜是人員、出版物、研究領域、會議和地點等實體的集合。它允許用戶看到研究人員和研究方向之間的聯系,否則可能很難確定。
- LinkedIn的知識圖譜包含人員、工作、技能、公司、地點等實體。LinkedIn 的經濟圖譜基于5.9億會員和3千萬家公司,用于尋找國家和地區的經濟層面的洞察力。
當必應搜索引擎在必應知識圖譜中有額外的有用信息時,顯示一個知識面板。例如,搜索電影導演詹姆斯 · 卡梅隆可以找到他的出生日期、身高、他導演的電影和電視節目、他以前的戀人、他做過的 TED 演講、 Reddit 上的“問我任何事”問題和答案等信息。搜索不同類型的實體會返回完全不同的信息,例如,搜索“ Woodblock 餐廳”會得到菜單摘要、專業評論和用戶評論,以及預訂表格選項。
所有這些圖譜系統以及任何一個大型知識圖譜系統,都可能會有關于質量和有用性的三個關鍵的決定因素:
完備性
圖譜是否包含了所有需要的信息?實際上,答案總是否定的,因為開發人員總是在尋找新的方法來為用戶提供價值和新的信息來源。
正確性
信息是否正確?如何知道兩個信息來源實際上是否關于同一事實,如果它們發生沖突,該怎么辦?回答這些問題本身就是一個巨大的研究和投資領域。
及時性
內容是最新的嗎?它可能曾經是正確的,但實際上已經過時了。對于那些幾乎不斷變化的東西(股票價格) ,與那些變化很少的東西(一個國家的首都)相比,及時性會有所不同,其間夾雜著許多不同類型的信息。
為了生成關于世界的知識,數據有多個來源,這可能是非常嘈雜和矛盾的,必須整理成一個單一、一致且準確的圖譜。用戶看到的最后一個事實只是冰山的一角,下面隱藏著大量的工作和復雜性。例如,僅在維基百科上就有200個威爾 · 史密斯,演員威爾 · 史密斯的必應知識結果是由41個網站上的108,000個事實組成的。
知識圖譜具備強大的高級人工智能,從搜索到對話,允許將單個查詢變成一個持續的對話。具體來說,這允許用戶與系統進行對話,并讓系統在對話的每一輪中維護上下文。例如,在未來的一個場景中,用戶可以對必應說,“給我看看世界上現在溫度超過華氏70度的所有國家。”一旦系統返回答案,用戶還可以說,“給我看看兩個小時飛行之內的那些國家。”
我們可以將同樣的想法進一步推廣,從而獲得完整的對話體驗。例如,用戶可以說,“我想在感恩節前兩天到紐約市旅行,并在那里停留一周” ,系統會使用基礎知識圖譜來理解查詢,然后請求那些缺失的信息片段。在這個例子中,系統需要知道“ NYC”可能意味著“ JFK 機場” ,而感恩節是11月22日。然后,它必須知道如何進行航班搜索,這需要一個起點和目的地位置。然后,系統必須知道對話的下一輪必須確定出發地點,所以它會說,“好的,預訂11月20日至27日飛往肯尼迪機場的航班。你從哪里飛過來? ”
Google的知識圖譜數據庫有超過700億的斷言描述了10億個實體,涵蓋了廣泛的主題,是十多年來不同個體數據活動貢獻的結果,他們中的大多數都從未有過知識管理系統的經驗。
或許,更重要的是,知識圖譜作為一個長期穩定的類和實體標識的來源,許多Google的產品和功能在幕后使用它。外部用戶和開發人員在使用 YouTube 和 Google Cloud api 等服務時可以觀察到這些特性。這種對身份的關注使得Google的搜索結果轉變為“事物而不是字符串”,知識圖譜不是簡單地返回傳統的“10個藍色鏈接” ,而是幫助谷歌產品將用戶的請求解釋為對用戶世界中概念的引用,并作出適當的響應。
Google的知識圖譜應用中可能最可見的是,當用戶發出關于實體的查詢時,搜索結果包括了知識圖譜服務中的一系列事實實體。例如,對“ I.M.Pei”的查詢會在搜索結果中產生一個小面板,其中有包含關于建筑師的教育、獎項和他設計的重要結構的信息。
知識圖譜還認識到,某些類型的交互可以發生在不同的實體上。對“ The Russian Tea Room”的查詢提供了一個按鈕來預訂,而對“ Rita Ora”的查詢則提供了各種音樂服務的鏈接。
在 Google知識圖譜的范圍內,一個人無法記住整個圖譜中使用的詳細結構,更不用說管理了。為了確保系統隨著時間的推移保持一致,Google根據一組基本的底層結構構建了自己的知識圖譜。它在不同的抽象層次上復制了相似的結構和推理機制,從概念上引導了許多基本斷言的結構。例如,為了檢查特定的不變式結構,Google 利用了“類型本身就是類型的實例”這一思想來引入元類型的概念。然后,它可以推理元類型,以驗證細粒度類型是否違反了它感興趣的不變量。證明了獨立于時間的恒等式不是結構的子類,而是依賴于時間的。因為這種可伸縮的抽象級別基于相同的低級附加,所以相對容易地以開箱即用的方式來添加。
這個元級別模式還允許大規模的驗證數據。例如,可以確認畫家在他們的藝術作品創作之前就已經存在,方法是將畫家確定為他們繪畫作品”產品”的”來源” ,并對這些元類之間的所有關系都可以進行一般性檢查。
在稍高的概念層面上,知識圖譜“理解”作者與他們的創造性作品是不同的,即使這些實體經常在口語表達中被混為一談。同樣,創造性作品可能有多種表達方式,而這些表達方式本身又是截然不同的。隨著圖譜的增長,這種本體論知識有助于維護實體的身份。
通過這些自描述層構建的知識圖譜,不僅簡化了機器的一致性檢查,而且使內部用戶更容易理解知識圖譜。一旦新的開發人員接受了知識圖譜組織的基礎知識培訓,他們就可以了解其結構清單的全部內容。類似地,通過將圖譜結構與一些核心原則綁定在一起,并在模式中明確地揭示元關系,為內部開發人員簡化了查找和理解新模式結構的過程。
Facebook 以擁有世界上最大的社交網絡而聞名。在過去的十年中,Facebook 的工程師們已經開發出了能夠實現人與人之間豐富聯系的技術。現在,他們正在應用同樣的技術,不僅對人們,而且對人們關心的事情建立了更深刻的理解。
通過以一種結構化的方式和規模來模擬世界,Facebook 的工程師們能夠解開社交圖譜本身無法滿足的用例。即使是看起來很簡單的事情,比如對音樂和歌詞的結構性理解,再加上能夠檢測人們何時在軟件中使用它們,能夠讓人們在個人之間產生有意外收獲的時刻。今天,Facebook 產品中的許多經驗,例如幫助人們在 Messenger 上規劃電影放映,都是由知識圖譜驅動的。
Facebook 知識圖譜關注的是最具社會相關性的實體,比如那些最常被用戶討論的實體: 名人、地點、電影和音樂。隨著 Facebook 知識圖譜的不斷增長,開發者們開始關注那些最有可能提供實用性和用戶體驗愉悅的領域。
覆蓋范圍、正確性、結構化和不斷的變化都驅動著 Facebook 知識圖譜的設計:
- 覆蓋范圍意味著在正在建模的領域中要面面俱到。默認的立場來自多個提供者,這意味著整個圖譜生成系統是在假設數據來自多個來源的基礎上構建的,所有這些來源都提供了關于重疊實體集的信息(有時是相互沖突的)。知識圖譜以兩種方式來處理這些相互沖突的信息: 如果信息被認為是足夠低的可信度,可以放棄; 或者通過保留出處和推斷出的關于斷言的可信度,將相互沖突的觀點合并到實體中。
- 正確性并不意味著知識圖譜總是知道屬性的“正確”值,而是它總是能夠解釋為什么做出某個斷言。因此,它保存從數據采集到服務層流經系統的所有數據起源。
- 結構化意味著知識圖譜必須是自描述的。如果一段數據不是強類型的,或者不符合描述實體的模式,那么圖譜會嘗試執行以下操作之一: 將數據轉換為預期的類型(例如,執行簡單的類型強制,處理格式不正確的日期) ; 在非結構化文本上提取與類型相匹配的結構化數據(例如,運行自然語言處理) ,例如將用戶評論轉換為類型的槽位; 或者將其完全刪除。
- 最后,Facebook 的知識圖譜是為不斷變化而設計的。圖譜不是數據庫中的單個表示形式,而是在接收到新信息時進行更新。取而代之的是,每天都要從頭開始構建圖譜,從源代碼開始,在最后由構建系統生成一個完整的知識圖譜。
對Facebook 知識圖譜而言,一個顯而易見的起點是 Facebook 頁面生態系統。企業和個人在 Facebook 上創建的頁面代表了各種各樣的想法和興趣。此外,讓實體的所有者對其進行斷言是一個有價值的數據源。然而,與任何來源廣泛的數據一樣,這也不是沒有挑戰的。
Facebook 頁面是非常公開的,每天都有數以百萬計的人與之互動。因此,頁面所有者的興趣并不總是與知識圖譜的需求保持一致。
最常見的是,頁面和實體沒有嚴格的1:1映射,因為頁面可以表示實體的集合(例如,電影特許經營權)。數據也可能是不完整的或非結構化的(文本塊) ,這使得它更難在知識圖譜的上下文中使用。
Facebook 最大的挑戰是利用其頁面上的數據,并將其與其他更加結構化的數據源結合起來,以實現一個干凈、結構化知識圖譜的目標。對于 Facebook 來說,一個有用的工具就是把圖譜看作一個模型,把 Facebook 頁面看作是圖譜中一個實體或一系列實體的視圖投影。
eBay
eBay 正在構建自己的產品知識圖譜,這個圖譜將對產品、實體及其相互關系和外部世界的語義知識進行編碼。這些知識對于理解賣家提供的產品和買家尋找的產品以及明智地將兩者聯系起來是非常關鍵的,而這正是 eBay 營銷技術的關鍵部分。
例如,eBay 的知識圖譜可以將產品與現實世界中的實體聯系起來,定義產品的身份以及為什么它對買家可能有價值。一件芝加哥公牛隊的籃球運動衫是一個產品,但如果它是由邁克爾喬丹簽過名,它就是一個非常不同的產品。1940年巴黎的明信片可能只是一張明信片; 但如果知道巴黎在法國,而1940年是二戰期間,就完全改變了產品性質。
知識圖譜中的實體也可以將產品相互關聯。如果用戶搜索梅西的紀念品,圖譜會顯示梅西效力于巴塞羅那足球俱樂部,那么,也許,該俱樂部的商品也很有意思。也許其他著名的巴塞羅那球員的紀念品會引起這位購物者的興趣。相關商品應該包括以足球為基礎的產品,如有簽名的襯衫、條帶、靴子和足球。這種思想可以從體育延伸到音樂、電影、文學、歷史事件等等。
與實體關系同樣重要的是了解產品本身及其關系。知道一個產品是 iPhone,另一個是 iPhone 的外殼顯然是很重要的。但是,這種情況下可能適合一些手機,而不是其他品類,所以eBay需要產品型號的零件和配件尺寸。了解產品的許多變體和關系也很重要: 哪些產品是一種產品的制造商變體?它們有不同的大小、容量或顏色嗎?哪些是相同的意思?是他們有相同的規格,但可能不同的品牌或顏色?該系統還需要了解那些組合在一起的產品,比如捆綁包、工具包,甚至是時裝。
與其他知識圖表一樣,eBay 必須處理規模性問題。在任何時候都可能有超過10億的活躍產品分布在成千上萬個類別中。這些列表可能包括數億個產品和為這些產品指定的數百億個屬性。
eBay 知識圖譜有幾個不同的用戶,這些用戶有非常不同的服務級別需求。當搜索服務需要理解用戶的查詢時,知識圖譜必須支持需要毫秒級的答案。而在規模化的另一端,大型圖譜的查詢可能需要數小時才能運行完。
為了應對這些挑戰,eBay 的工程師設計了一個架構,提供靈活性的同時確保數據的一致性。知識圖譜使用一個復制的日志對圖譜進行所有的寫入和編輯。日志提供了數據的一致有序視圖。此方法支持滿足不同用例的多個后端數據存儲。具體來說,有一個用于提供低延遲搜索查詢的扁平文檔存儲和一個用于進行長時間運行圖譜分析的圖存儲。這些存儲中的每一個都只是將其操作附加到寫日志中,并以保證的順序將添加和編輯添加到圖譜中。因此,每個商店將是一致的。
IBM
IBM 開發了知識圖譜框架,Watson Discovery Services 使用該框架并提供相關服務,這些服務已經部署在 IBM 以外的許多行業配置中。IBM Watson 以兩種不同的方式使用知識圖譜框架: 第一,該框架直接支持 Watson Discovery,它關注于使用結構化和非結構化的知識來發現新的、不明顯的信息,以及發現之上的相關垂直產品; 第二,該框架允許其他人以預先構建的知識圖譜為核心構建自己的知識圖譜。
Discovery 用例創建了領域文檔或數據源中不直接顯示的新知識。這種新知識可能是令人驚訝和反常的。雖然搜索和檢測工具可以獲取系統現有資源中已有的知識,但這些工具對于Discovery來說是必要的,但還不夠。不明顯的發現包括實體之間的新聯系(例如,藥物的新副作用、作為收購目標的新興公司或銷售線索)、領域中潛在新的重要實體(例如,顯示技術的新材料、特定投資領域的新投資者) ,或改變現有實體的重要性(投資者在一個組織中持有越來越多的股份,或在情報收集場景中增加利益相關者與某些犯罪分子之間的互動)。
考慮到 IBM 在各個領域應用認知技術中廣泛的企業客戶基礎,IBM 專注于為客戶和客戶團隊創建一個框架,以構建他們自己的知識圖譜。IBM 的行業團隊利用這個框架來構建特定領域的實例。客戶涉及多個領域,從以消費者為導向的銀行和金融、保險、 IT 服務、媒體和娛樂、零售和客戶服務,到幾乎完全專注于深度發現特別是科學領域的行業,如生命科學、石油和天然氣、化學品和石油、國防和太空探索。這種廣度要求框架具有客戶自己構建和管理知識圖所需的所有機制。框架中構建的一些關鍵技術包括文檔轉換、文檔提取、通道存儲和實體規范化。
以下是 IBM 工程師從為 Watson Discovery 構建知識圖譜和在其他行業系統部署中學到的一些重要見解和經驗教訓。
- IBM Watson 知識圖譜使用多態存儲,支持多個索引、數據庫結構、內存和圖存儲。這種體系結構將實際數據(通常是冗余的)分割為一個或多個存儲,允許每個存儲解決特定的需求和工作負載。IBM 的工程師和研究人員解決了一些挑戰,如保持這些多個商店同步,允許商店之間通過微服務通信,允許攝取新知識或重新處理原始數據的方式,而不需要重新加載或重建整個圖譜。
- 證據對系統來說必須是原始的。現實世界(開發人員經常嘗試對其建模)和保存所提取知識的數據結構之間的主要聯系是知識的“證據”。這種證據通常是原始文檔、數據庫、字典或圖像、文本和視頻文件,從中獲取知識。在發現過程中進行有針對性的、有用的上下文查詢時,元數據和其他相關信息往往在知識推理中起著重要作用。因此,關鍵是不要丟失存儲在圖譜中的關系和這些關系的來源之間的聯系。
- 通過上下文將實體解析推送到運行時。解決對部分名稱、表面形式或具有相同名稱的多個實體所引用的實體不明確引用是自然語言理解中的一個典型問題。然而,在知識發現領域,開發人員經常尋找一些不明顯的模式,其中一個實體的行為不是以其熟悉的形式或出現在一個新的上下文中。因此,在知識圖譜創建過程中過早地消除實體的歧義與發現的目標相沖突。最好是讓多個實體來解析這些話術或消除它們的歧義,然后在運行時使用查詢的上下文來解析實體名稱。
未來的挑戰
這里所討論的知識圖譜在需求、覆蓋范圍和體系結構上有很大的不同,但是大多數實現中的許多挑戰都是一致的。這些挑戰包括規模化、歧義消除、從異構和非結構化來源提取知識以及管理知識進化。多年來,這些挑戰一直處于研究的前沿,然而它們仍然困擾著行業的從業人員。其中一些挑戰存在于一些系統中,但在其他環境中可能不那么重要。
實體消歧和管理身份
雖然實體消歧和解析是語義網中一個活躍的研究領域,已經在知識圖譜中存在了好幾年,但幾乎令人驚訝的是,它仍然幾乎是整個行業的最大挑戰之一。最簡單形式的挑戰是給一個話語或一個提及的實體指定一個唯一的標準化身份和類型。許多自動提取的實體具有非常相似的表面形式,比如具有相同或相似名稱的人,或者具有相同或相似標題的電影、歌曲和書籍。名稱相似的兩個產品可能指的是不同的列表。如果沒有正確的鏈接和歧義消除,實體將與錯誤的事實相關聯,并導致不正確的推理。
雖然這些問題在較小的系統中可能看起來很明顯,但當身份管理必須在異構貢獻者基礎和規模上完成時,問題就變得更具挑戰性了。如何用不同團隊能夠達成一致并且知道其他團隊正在描述的方式來描述身份?開發者如何確保有足夠的人類可讀信息來裁決沖突?
類型成員和解析
多數現有的知識圖譜系統允許每個實體具有多種類型,特定的類型在不同的情況下可能很重要。例如,巴拉克 · 奧巴馬是一個人,但也是一個政治家和演員,一個受歡迎得多的政治家,而不是一個非常知名的演員。古巴可以是一個國家,也可以是一個政府。在某些情況下,知識圖系統將類型分配轉移到運行時: 每個實體描述其屬性,應用程序根據用戶任務來使用特定的類型和屬性集合。
雖然類成員關系的標準在早期可能很簡單,但隨著實例范圍的增長,在保持語義穩定性的同時強制執行這些標準變得具有挑戰性。例如,當谷歌在其知識圖譜中定義“體育”的類別時,電子競技并不存在。那么,谷歌如何在保持體育類別身份的同時還包括電子競技呢?
管理不斷變化的知識
有效的實體鏈接系統還需要根據其不斷變化的輸入數據有機地發展。例如,公司可能會合并或分拆,新的科學發現可能會將一個現有的實體分裂成多個實體。當一家公司收購另一家公司時,收購公司是否改變了身份?如果一個部門被分拆出去呢?身份是否伴隨著名稱變更而獲得呢?
雖然大多數知識圖譜框架在存儲知識圖譜的時間點版本,管理知識圖譜的瞬時變化,不斷演化圖譜正變得越來越有效,但在能夠管理圖譜中高度動態的知識方面還存在差距。此外,通過多個存儲(例如,IBM 的多態存儲)管理更新的能力是必要的。
關于更新過程的完整性、最終一致性、沖突的更新以及流暢的運行時性能,有很多需要考慮的因素。可能有機會考慮現有分布式數據存儲的不同變體,這些存儲設計用于處理增量的級聯更新。管理不斷變化的模式和類型系統,而不與系統中已有的知識產生不一致,也是至關重要的。例如,Google 通過將元模型層概念化成多個層來解決這個問題。較低的基本層保持相當穩定,較高的層次是通過元類型(實際上是類型的實例)的概念構建的,它可以用來類型豐富系統。
從多個結構化和非結構化數據源中抽取知識
盡管在自然語言理解方面取得了最新進展,結構化知識(包括實體、它們的類型、屬性和關系)的提取仍然是一個全面的挑戰。圖譜的大規模生長不僅需要人工方法,還需要在開放域中實現無監督和半監督的非結構化數據知識提取。
例如,在 eBay 的產品知識圖譜中,許多圖譜關系是從列表和賣家目錄中的非結構化文本中提取出來的; IBM 的Discovery知識圖譜依賴于文檔作為圖中表示的事實證據。傳統的有監督機器學習框架需要勞動密集型的人工注釋來訓練知識提取系統。采用完全無監督的方法(矢量表示的聚類)或半監督的方法(利用已有知識進行遠程監督、多實例學習、主動學習等)可以減少或消除這種高成本。實體識別、分類、文本和實體嵌入都被證明是有用的工具,可以將非結構化文本鏈接到我們所知道圖譜中的實體。
規模化管理
這里所描述的所有知識圖譜系統都面臨著大規模管理的挑戰,這可能并不令人驚訝。這個維度經常使得在行業設置中以多種形式已經被學術和研究團體所解決的問題(如消除歧義和非結構化數據提取)呈現出了新的挑戰。規模化管理是直接影響與性能和工作量相關的若干業務的根本挑戰。它還會間接地影響到其他業務,如管理大規模知識圖譜的快速增量更新(如 IBM) ,或管理不斷演變的大規模知識圖譜的一致性(如 Google)。
其他的關鍵挑戰
除了這些普遍存在的挑戰之外,對于本文中描述的工作,以下挑戰也是至關重要的。這些都是研究和學術團體感興趣且有趣的課題。
知識圖譜的語義嵌入
利用大規模的知識圖譜,開發人員可以構建實體和關系的高維表示。由此產生的嵌入將大大有益于許多機器學習、 NLP 和 AI 任務,因為它們是特性和約束的來源,并且可以為更復雜的推理和管理訓練數據的方法奠定基礎。深度學習技術可以應用于實體重復數據刪除和屬性推理的問題。
知識推理與驗證
在構建知識圖譜時,確保事實正確是一項核心任務,而且在規模龐大的情況下,手動驗證所有事實是根本不可能的。這就需要一種自動化的方法: 可以用先進的知識表示、概率圖模型和自然語言推斷來構建一個自動或半自動的系統,用于一致性檢查和事實驗證。
全球、特定領域和特定客戶知識的聯合
在類似于 IBM 客戶構建定制知識圖譜的情況下,客戶不需要告訴圖譜關于基本知識的信息。例如,一個癌癥研究人員不會提供給我們這樣的一個知識圖譜,即皮膚是一種組織形式。這就是所謂的“常識” ,在常識圖譜中捕獲。
下一個層次的信息是領域內任何人都知道的知識,例如,癌癥是一種病癥,或者 NHL 更經常代表非霍奇金氏淋巴瘤,而不是國家冰球聯盟。客戶應該只需要輸入私人和機密的知識或系統尚不知道的任何知識。基本層和領域層的隔離、聯合和在線更新是由于這個需求而出現的一些主要問題。
個性化設備上知識圖譜的安全性和隱私性
按照定義,知識圖譜是巨大的,因為它們渴望為世界上的每個名詞創建一個實體,因此只能合理地運行在云服務中。然而,實際上,大多數人并不關心世界上存在的所有實體,而是關心與他們個人相關的一小部分或子集。在為個人用戶個性化知識圖譜的方向有很多前景,甚至可以縮小到一個足夠小的尺寸,可以交付到移動設備上。這將允許開發人員通過在本地的小型知識圖譜實例上進行更多的設備學習和計算,以尊重隱私的方式繼續為用戶提供價值。
多語種知識系統
一個全面的知識圖譜必須涵蓋多種語言表達的事實,并將這些語言表達的概念合并為一個內聚的集合。除了從多語言資源中提取知識的挑戰之外,不同的文化可能以不同的微妙方式將世界概念化,這也對本體的設計提出了挑戰。
結論
我們在本文中討論的問題是,不同的知識圖譜是否有朝一日可以共享某些核心元素,如人、地點和類似實體的描述。分享這些描述的途徑之一是將它們作為一個共同的、多語言的核心貢獻給 Wikidata。
知識表示是一項在工作中很難學會的技能。發展的速度和知識表示的選擇對用戶和數據產生影響的程度,并不能促進理解和探索其原則和替代辦法的環境。知識表示在不同的行業環境中的重要性,正如本文的討論所證明的,應該強化這樣一種觀點,即知識表示應該是計算機科學課程的基本組成部分,就像數據結構和算法一樣基礎。
最后,人工智能系統將為組織在如何與客戶互動方面開啟新的機遇,在他們的領域提供獨特的價值,并改變他們的運作和勞動力。為了實現這個承諾,這些組織必須找出如何建立新的系統來解鎖知識,使他們成為真正的智能組織。
參考資料
H?ffner, K., Walter, S., Marx, E., Usbeck, R., Lehmann, J. and Ngonga Ngomo, A.C. Survey on challenges of question answering in the semantic Web. Semantic Web 8, 6 (2017), 895920.
Lin, Y., Liu, Z., Sun, M., Liu, Y. and Zhu, X. Learning entity and relation embeddings for knowledge graph completion. In Proceedings of the Assoc. Advancement of Artificial Intelligence 15, (2015), 21812187.
Nickel, M., Murphy, K., Tresp, V. and Gabrilovich, E. 2016. A review of relational machine learning for knowledge graphs. In Proceedings of the IEEE 104, 1 (2016), 1133.
Paulheim, H., Knowledge graph refinement: a survey of approaches and evaluation methods. Semantic Web 8, 3 (2017), 489508.