從語義網(wǎng)到知識(shí)圖譜

作者：老曹 2021-02-01 22:41:05

【引子】 “海內(nèi)存知己，天涯若比鄰”，這是石頭兄弟推薦給我的一篇關(guān)于語義網(wǎng)的綜述性文章，刊載于《美國計(jì)算機(jī)學(xué)會(huì)通訊》第64卷第2期——“A Review of the Semantic Web Field”(https://cacm.acm.org/magazines/2021/2/250085-a-review-of-the-semantic-web-field/fulltext)，作者是Pascal Hitzler。老碼農(nóng)認(rèn)真研讀，頗有收獲，編譯成文。

“語義網(wǎng)”(Semantic Web)和“人工智能”一樣，都指的是一個(gè)研究領(lǐng)域，而不是一個(gè)具體的產(chǎn)品。語義網(wǎng)是一個(gè)豐富的研究和應(yīng)用領(lǐng)域，借鑒了計(jì)算機(jī)科學(xué)內(nèi)部或鄰近的許多學(xué)科。有時(shí)候，人們使用“語義網(wǎng)技術(shù)”這個(gè)術(shù)語被用來描述這一領(lǐng)域中出現(xiàn)的一系列方法和工具，以避免術(shù)語上的混淆。語義網(wǎng)領(lǐng)域不僅在研究和應(yīng)用的方法和目標(biāo)方面非常不同，而且有許多不同但又相互關(guān)聯(lián)的次級(jí)社區(qū)，每個(gè)社區(qū)都可能對(duì)該領(lǐng)域的歷史和當(dāng)前狀況作出相當(dāng)不同的敘述。

那么，語義網(wǎng)是一個(gè)關(guān)于什么的研究領(lǐng)域呢?答案可能是主觀的，因?yàn)樵谶@個(gè)領(lǐng)域里沒有明確的共識(shí)。

一種觀點(diǎn)認(rèn)為，該領(lǐng)域的長(zhǎng)期目標(biāo)是創(chuàng)建語義網(wǎng)產(chǎn)品，以及創(chuàng)建、維護(hù)和應(yīng)用所需的所有必要工具和方法。相對(duì)于目前大多數(shù)主要面向人類消費(fèi)的網(wǎng)絡(luò)，這里的語義網(wǎng)通常被設(shè)想為機(jī)器可理解的信息以及利用這些信息的服務(wù)(智能代理)來增強(qiáng)當(dāng)前的互聯(lián)網(wǎng)。這種觀點(diǎn)可以追溯到2001年《科學(xué)美國人》的一篇文章，可以說標(biāo)志著這個(gè)領(lǐng)域的誕生。在這種情況下，提供機(jī)器可理解的信息是通過為數(shù)據(jù)賦予元數(shù)據(jù)來完成的。在語義網(wǎng)中，這些元數(shù)據(jù)通常采用本體論的形式，或者至少是一種具有基于邏輯語義的形式語言，允許對(duì)數(shù)據(jù)的意義進(jìn)行推理。如果再加上智能代理將利用這些信息的理解，會(huì)發(fā)現(xiàn)語義網(wǎng)領(lǐng)域與人工智能領(lǐng)域有著顯著的重疊。事實(shí)上，在過去大多數(shù)主要的人工智能會(huì)議上，都有明確的“語義網(wǎng)”的印記。

另一種更近期的觀點(diǎn)是，語義網(wǎng)領(lǐng)域的開發(fā)方法及工具與互聯(lián)網(wǎng)無關(guān)的應(yīng)用，即使不使用機(jī)器可理解的數(shù)據(jù)建立智能代理，這些應(yīng)用也能提供附加值。事實(shí)上，早期業(yè)界對(duì)這個(gè)領(lǐng)域的興趣，旨在將語義網(wǎng)技術(shù)應(yīng)用于信息集成和管理。從這個(gè)角度來看，可以說這個(gè)領(lǐng)域是關(guān)于建立高效的(即低成本的)數(shù)據(jù)共享、發(fā)現(xiàn)、集成和重用的方法和工具，而互聯(lián)網(wǎng)在這方面可能只是數(shù)據(jù)傳輸?shù)墓ぞ摺＿@種理解使它更接近數(shù)據(jù)庫，或者數(shù)據(jù)科學(xué)的數(shù)據(jù)管理部分。

通過將語義網(wǎng)描述為以 W3C 標(biāo)準(zhǔn) RDF、 OWL 和 SPARQL 為核心來研究本體論、關(guān)聯(lián)數(shù)據(jù)和知識(shí)圖譜的基礎(chǔ)和應(yīng)用，可以對(duì)該領(lǐng)域進(jìn)行限制，但實(shí)際上可能是相對(duì)精確的描述。

或許，這幾個(gè)視角都有各自的優(yōu)點(diǎn)，語義網(wǎng)的研究領(lǐng)域存在于它們的融合之中，本體論、關(guān)聯(lián)數(shù)據(jù)、知識(shí)圖譜是這個(gè)領(lǐng)域的關(guān)鍵概念，圍繞 RDF、 OWL 和 SPARQL 的 W3C 標(biāo)準(zhǔn)構(gòu)成了技術(shù)交流方式，它們?cè)谡Z法(在某種程度上是語義)層面上達(dá)成了統(tǒng)一; 語義網(wǎng)領(lǐng)域應(yīng)用的目的是建立有效的數(shù)據(jù)共享、發(fā)現(xiàn)、集成和重用的方法(無論是否針對(duì) Web) ; 作為驅(qū)動(dòng)力的長(zhǎng)期愿景是在的某個(gè)時(shí)刻，將語義網(wǎng)建立為一個(gè)完整的基于智能代理的應(yīng)用環(huán)境。

“治學(xué)先治史”，讓我們看看過去這些年語義網(wǎng)領(lǐng)域出現(xiàn)的關(guān)鍵概念、標(biāo)準(zhǔn)和突出成果。

語義網(wǎng)的發(fā)展階段

當(dāng)一個(gè)研究領(lǐng)域誕生時(shí)，確定任何特定的時(shí)間點(diǎn)當(dāng)然是有爭(zhēng)議的。然而，2001年 Berners-Lee 等人在《科學(xué)美國人》上發(fā)表的一篇文章是一個(gè)早期的里程碑，為這一新興領(lǐng)域提供了重要的線索。而且，那是在世紀(jì)之初，當(dāng)時(shí)語義網(wǎng)領(lǐng)域在社區(qū)規(guī)模、學(xué)術(shù)生產(chǎn)力和最初的產(chǎn)業(yè)興趣等方面處于非常重要的上升初期。

但是，已經(jīng)有人在早期做出了努力。從2000年運(yùn)行到2006年的DAML項(xiàng)目，目標(biāo)是開發(fā)一種語義 Web 語言和相應(yīng)的工具。由歐盟資助的 On-To-Knowledge 項(xiàng)目，運(yùn)行于2000-2002年，產(chǎn)生了 OIL 語言，后來與 DAML 合并，最終產(chǎn)生了網(wǎng)絡(luò)本體語言的W3C標(biāo)準(zhǔn)。為網(wǎng)絡(luò)數(shù)據(jù)賦予機(jī)器可讀或“可理解”的元數(shù)據(jù)，這一更為普遍的想法可以追溯到互聯(lián)網(wǎng)本身的起源。例如，早在1997年就發(fā)表了資源描述框架(RDF)的初稿。

從21世紀(jì)初開始，可以分為三個(gè)相互重疊的階段，每個(gè)階段都由一個(gè)關(guān)鍵概念驅(qū)動(dòng)，也就是說，語義網(wǎng)領(lǐng)域的主要焦點(diǎn)至少轉(zhuǎn)移了兩次。第一階段是由本體論驅(qū)動(dòng)的，它跨越了21世紀(jì)初到21世紀(jì)中期; 第二階段是由關(guān)聯(lián)數(shù)據(jù)驅(qū)動(dòng)的，一直延伸到21世紀(jì)10年代初。第三階段到現(xiàn)在都是由知識(shí)圖譜驅(qū)動(dòng)的。

本體論

在21世紀(jì)的大部分時(shí)間里，這個(gè)領(lǐng)域的工作都以本體論為中心，當(dāng)然，這個(gè)概念有著更為古老的淵源。本體是共享概念化的一個(gè)正式的、明確的規(guī)范ーー盡管有人可能認(rèn)為這個(gè)定義仍然需要解釋，但還是相當(dāng)通用的。在一個(gè)更精確的意義上，本體論實(shí)際上是一個(gè)概念(即，類型或類別，如“哺乳動(dòng)物”和“胎生動(dòng)物”)及其關(guān)系(如“哺乳動(dòng)物產(chǎn)下胎生動(dòng)物”)的知識(shí)庫，在一個(gè)基于形式邏輯的本體語言中指定。在語義網(wǎng)上下文中，本體是數(shù)據(jù)集成、共享和發(fā)現(xiàn)的主要工具，一個(gè)重要的思想是本體本身應(yīng)該可以被其他人重用。

2004年，網(wǎng)絡(luò)本體語言的OWL成為了W3C 標(biāo)準(zhǔn)，為該領(lǐng)域提供了進(jìn)一步的燃料。OWL的核心是基于描述邏輯，也就是說，基于一階謂詞邏輯的子語言，只使用一元謂詞和二元謂詞，限制使用量詞，設(shè)計(jì)的方式使得語言上的邏輯演繹推理是可判定的。

同樣在2004年，資源描述框架(RDF)也成為了W3C標(biāo)準(zhǔn)。本質(zhì)上，RDF是一種用于表達(dá)標(biāo)記化并類型化的有向圖的語法，它使用OWL指定類型及其關(guān)系的本體，然后在RDF圖中使用這些類型，并將這些關(guān)系作為邊。從這個(gè)角度來看，OWL本體可以作為RDF圖的模式(或類型邏輯)。

一個(gè)用于RDF查詢語言的 W3C 標(biāo)準(zhǔn)，稱為 SPARQL，在2008年發(fā)布，在2013年進(jìn)行了更新，3與 OWL 更加兼容。在RDF、 OWL和SPARQL周邊的其他標(biāo)準(zhǔn)已經(jīng)或正在開發(fā)，其中一些已經(jīng)獲得了重大的進(jìn)展，例如，語義傳感器網(wǎng)絡(luò)本體論或起源本體論，以及SKOS 簡(jiǎn)單知識(shí)組織系統(tǒng)。

通過在W3C的所有這些關(guān)鍵標(biāo)準(zhǔn)，與其他關(guān)鍵 W3C 標(biāo)準(zhǔn)之間的基本兼容性得到了維護(hù)。例如，XML 作為RDF和OWL的語法序列化和交換格式。所有 W3C 語義 Web 標(biāo)準(zhǔn)還使用 IRI 作為 RDF圖中的標(biāo)識(shí)符，并使用了OWL類名和數(shù)據(jù)類型標(biāo)識(shí)符等。

在語義網(wǎng)上下文中，本體是數(shù)據(jù)集成、共享和發(fā)現(xiàn)的主要工具，一個(gè)重要的思想是本體本身應(yīng)該可以被其他人重用。

DARPA的 DAML 項(xiàng)目在2006年結(jié)束，隨后在基礎(chǔ)語義網(wǎng)研究方面幾乎沒有大規(guī)模的資助項(xiàng)目。因此，大部分相應(yīng)的研究要么轉(zhuǎn)移到應(yīng)用領(lǐng)域，比如醫(yī)療保健或國防領(lǐng)域的數(shù)據(jù)管理，要么轉(zhuǎn)移到相鄰的領(lǐng)域。相比之下，歐盟的框架方案，特別是 FP6(2002-2006)和 FP7(2007-2013) ，為基礎(chǔ)和面向應(yīng)用的語義網(wǎng)研究提供了大量資金。在語義網(wǎng)研究社區(qū)的組成中，可以看到這個(gè)社區(qū)主要是歐洲人。社區(qū)的規(guī)模難以評(píng)估，但自2000年代中期以來，該領(lǐng)域的主要會(huì)議——“國際語義網(wǎng)會(huì)議”平均每年吸引了600多名參與者。

工業(yè)界的興趣從一開始就很大，但幾乎不可能描述關(guān)于工業(yè)活動(dòng)相關(guān)水平的可靠數(shù)據(jù)。主要和較小的公司已經(jīng)參與了大規(guī)模的基礎(chǔ)或應(yīng)用研究項(xiàng)目，特別是根據(jù)歐盟 FP 6和7。工業(yè)界的興趣已經(jīng)改變了研究團(tuán)體的焦點(diǎn)。

一些大規(guī)模的本體論(通常早于語義 Web 社區(qū))在這個(gè)時(shí)期成熟了。例如，于1998年開始的基因本體論，現(xiàn)在已經(jīng)是一個(gè)非常突出的資源。另一個(gè)例子是 SNOMED CT，它可以追溯到1960年，但現(xiàn)在已經(jīng)在OWL中完全正式化，并廣泛用于電子健康記錄。

正如計(jì)算機(jī)科學(xué)研究中經(jīng)常出現(xiàn)的情況一樣，在2005年前后，人們最初對(duì)短期取得突破性結(jié)果的期望開始降低，開始更為冷靜看待這一問題。大多數(shù)本體論是在這一時(shí)期開發(fā)的，其形式通常是基于臨時(shí)建模的意義，作為開發(fā)本體論的方法，但尚未產(chǎn)生具體的結(jié)果，結(jié)果是難以維護(hù)和重用。這一點(diǎn)，再加上當(dāng)時(shí)開發(fā)良好的本體論所需的大量前期成本，為研究團(tuán)體轉(zhuǎn)移注意力鋪平了道路，這也許可以被理解為與21世紀(jì)初強(qiáng)烈的基于本體論的方法相對(duì)立。

關(guān)聯(lián)數(shù)據(jù)

2006年見證了“關(guān)聯(lián)數(shù)據(jù)”的誕生，如果重點(diǎn)是在免費(fèi)許可下的開放、公開和可用性，則稱為“關(guān)聯(lián)開放數(shù)據(jù)”。關(guān)聯(lián)數(shù)據(jù)很快成為語義網(wǎng)研究和應(yīng)用程序的主要驅(qū)動(dòng)力，并一直持續(xù)到2010年左右。

關(guān)聯(lián)數(shù)據(jù)由一組RDF圖組成，這些RDF圖是關(guān)聯(lián)的，因?yàn)閳D中的許多IRI標(biāo)識(shí)符也出現(xiàn)在其他的圖中，可以是多個(gè)圖中。從某種意義上說，所有這些關(guān)聯(lián)的RDF圖集合可以理解為一個(gè)非常大的 RDF 圖。

如下圖所示，公開可用的關(guān)聯(lián)RDF圖的數(shù)量在第一個(gè)十年中在顯著增長(zhǎng); 數(shù)據(jù)來自關(guān)聯(lián)開放數(shù)據(jù)云網(wǎng)站，該網(wǎng)站并不包含所有RDF數(shù)據(jù)集。2015年的一篇論文報(bào)道了“來自超過65萬個(gè)數(shù)據(jù)文檔的超過370億個(gè)三元組”，這也只是所有可以在互聯(lián)網(wǎng)上自由訪問的 RDF三元組的集合。例如，大型數(shù)據(jù)提供者通常只提供基于SPARQL的查詢接口，或者使用RDF進(jìn)行內(nèi)部數(shù)據(jù)組織，但只通過Web 頁面向外部提供服務(wù)。關(guān)聯(lián)開放數(shù)據(jù)云中的數(shù)據(jù)集覆蓋了各種各樣的主題，包括地理、政府、生命科學(xué)、語言學(xué)、媒體、科學(xué)出版物和社交網(wǎng)絡(luò)。

隨著時(shí)間的推移，關(guān)聯(lián)數(shù)據(jù)開放云中 RDF 圖的數(shù)量

其中最著名和最常用的關(guān)聯(lián)數(shù)據(jù)集是 DBpedia，這是從 Wikipedia (以及最近的 Wikidata)中提取的關(guān)聯(lián)數(shù)據(jù)集。2016年4月發(fā)布的數(shù)據(jù)集包括了約600萬個(gè)實(shí)體和約95億個(gè)RDF三元組。由于其廣泛的主題覆蓋(基本上是維基百科中的所有內(nèi)容) ，而且它是最早提供的鏈接數(shù)據(jù)集之一，DBpedia 在關(guān)聯(lián)數(shù)據(jù)開放云中發(fā)揮著核心作用: 許多其他數(shù)據(jù)集都會(huì)鏈接到它，因此它已成為關(guān)聯(lián)數(shù)據(jù)的樞紐。

從一開始，業(yè)界就對(duì)關(guān)聯(lián)數(shù)據(jù)產(chǎn)生了濃厚的興趣。例如，BBC是第一個(gè)重要的行業(yè)貢獻(xiàn)者，紐約時(shí)報(bào)公司和Facebook是早期采用者。然而，業(yè)界的興趣似乎主要在于利用關(guān)聯(lián)數(shù)據(jù)技術(shù)進(jìn)行數(shù)據(jù)集成和管理，而這些數(shù)據(jù)往往不會(huì)在開放的互聯(lián)網(wǎng)上顯示出來。

在關(guān)聯(lián)數(shù)據(jù)的時(shí)代，本體論扮演了一個(gè)不那么重要的角色。它們通常被用作模式，可以告知RDF 數(shù)據(jù)集的內(nèi)部結(jié)構(gòu)，然而，相對(duì)于本體論時(shí)代的過度承諾和深度研究，關(guān)聯(lián)數(shù)據(jù)云中的RDF圖中的信息是膚淺和相對(duì)簡(jiǎn)單的。在這段時(shí)間里，人們有時(shí)會(huì)說本體論不能被重用，而且一種更簡(jiǎn)單的方法，主要基于利用 RDF 和數(shù)據(jù)集之間的鏈接，對(duì)于數(shù)據(jù)集成、管理和線上線下的應(yīng)用程序有著更現(xiàn)實(shí)的作用。也正是在這個(gè)時(shí)期，基于RDF的數(shù)據(jù)組織詞匯表與本體的關(guān)系并不大。

也正是在這段時(shí)間(2011年)里，schema.org 登場(chǎng)了。最初由Bing、 Google 和雅虎推動(dòng)，后來yandex也加入進(jìn)來，公開了一個(gè)相對(duì)簡(jiǎn)單的本體論體系，并建議網(wǎng)站提供商使用schema.org的詞匯表在各自的網(wǎng)站上注釋(即鏈接)實(shí)體。作為回報(bào)，schema.org背后的 Web 搜索引擎提供商承諾通過利用注釋作為元數(shù)據(jù)來改善搜索結(jié)果。在2015年，大約有超過30% 的頁面使用了schema.org的注釋。

2012年發(fā)起的另一個(gè)重要項(xiàng)目是Wikidata，該項(xiàng)目最初是德國wikimedia協(xié)會(huì)的一個(gè)項(xiàng)目，由谷歌、 Yandex 和Allen人工智能研究所等機(jī)構(gòu)資助。Wikidata 基于與維基百科類似的想法，即眾包信息。然而，維基百科提供了百科全書式的文本(以人類讀者為主要消費(fèi)者) ，Wikidata 則是關(guān)于創(chuàng)建可用于程序或其他項(xiàng)目的結(jié)構(gòu)化數(shù)據(jù)。例如，許多其他wikimedia包括維基百科，使用Wikidata提供一些信息，然后呈現(xiàn)給人類讀者。Wikidata已經(jīng)擁有了超過6600萬個(gè)的數(shù)據(jù)項(xiàng)，自項(xiàng)目啟動(dòng)以來已經(jīng)進(jìn)行了超過10億次的編輯，并且有超過20000個(gè)活躍用戶。

在21世紀(jì)10年代早期，關(guān)聯(lián)數(shù)據(jù)的最初炒作開始讓位于一種更為冷靜的觀點(diǎn)。雖然關(guān)聯(lián)數(shù)據(jù)確實(shí)有一些突出的用途和應(yīng)用，但結(jié)果表明，集成和利用關(guān)聯(lián)數(shù)據(jù)需要比最初的預(yù)期付出更多的努力。可以說，用于關(guān)聯(lián)數(shù)據(jù)的淺顯的非表達(dá)性模式似乎是可重用性的一個(gè)主要障礙，最初期望數(shù)據(jù)集之間的相互聯(lián)系會(huì)以某種方式解釋這一弱點(diǎn)，但似乎并沒有實(shí)現(xiàn)。這不應(yīng)被理解為貶低了鏈接數(shù)據(jù)給該領(lǐng)域及其應(yīng)用帶來的重大進(jìn)展: 僅僅以某種結(jié)構(gòu)化的格式提供數(shù)據(jù)，遵循一個(gè)突出的標(biāo)準(zhǔn)，就意味著可以使用現(xiàn)有工具訪問、集成和管理數(shù)據(jù)，然后進(jìn)行利用。這比以語法和概念上更加異構(gòu)的形式提供數(shù)據(jù)要容易得多。但是，尋求更有效的數(shù)據(jù)共享、發(fā)現(xiàn)、集成和重用的方法當(dāng)然和以往一樣重要，而且正在開始。

知識(shí)圖譜

2012年，當(dāng)谷歌推出它的知識(shí)圖譜時(shí)，一個(gè)新的術(shù)語出現(xiàn)了。例如，可以通過在 google 網(wǎng)站上搜索知名實(shí)體來查看 Google知識(shí)圖譜的部分內(nèi)容: 在鏈接到網(wǎng)頁的搜索結(jié)果旁邊顯示一個(gè)所謂的信息框，顯示來自Google知識(shí)圖譜的信息。下圖給出了這種信息框的一個(gè)例子，搜索 Kofi Annan 就可以找到這個(gè)例子。人們可以通過跟隨一個(gè)超鏈接從這個(gè)節(jié)點(diǎn)導(dǎo)航到圖譜中的其他節(jié)點(diǎn)，例如，到 Nane Maria Annan，她與 Kofi Annan 節(jié)點(diǎn)有配偶關(guān)系。在這個(gè)鏈接之后，Nane Maria Annan 的一個(gè)新的信息框被顯示在同一個(gè)詞的搜索結(jié)果旁邊。

在 google 上搜索“ Kofi Annan”后的 Google知識(shí)圖譜節(jié)點(diǎn)

雖然 Google 沒有提供可下載的知識(shí)圖譜，但它提供了內(nèi)容訪問的API，這個(gè)API 使用標(biāo)準(zhǔn)的schema.org類型，并且滿足JSON-LD格式，這實(shí)際上是W3C RDF 標(biāo)準(zhǔn)化的另一種語法。

然而，考慮到語義網(wǎng)技術(shù)的歷史，特別是之前討論過的關(guān)聯(lián)數(shù)據(jù)和本體論，知識(shí)圖譜仿佛是一種直接來自語義網(wǎng)領(lǐng)域的新構(gòu)想，關(guān)注的重點(diǎn)發(fā)生了顯著轉(zhuǎn)變。

其中一個(gè)不同之處在于開放性: 正如關(guān)聯(lián)開放數(shù)據(jù)這個(gè)術(shù)語從一開始就暗示的那樣，語義網(wǎng)社區(qū)的關(guān)聯(lián)數(shù)據(jù)工作大多以開放共享數(shù)據(jù)為其目標(biāo)之一，這意味著關(guān)聯(lián)數(shù)據(jù)大多可以免費(fèi)下載，或者由支持SPARQL的服務(wù)提供，并且重要的是在社區(qū)中使用非限制性許可。wikidata作為一個(gè)知識(shí)圖譜也是開放共享的。相比之下，圍繞知識(shí)圖譜的活動(dòng)往往是由行業(yè)主導(dǎo)的，而主要的應(yīng)用并不是真正開放的。

另一個(gè)區(qū)別是集中控制與自下而上的社區(qū)貢獻(xiàn): 在某種意義上，關(guān)聯(lián)數(shù)據(jù)云是目前已知最大的現(xiàn)有知識(shí)圖譜，但它不是一個(gè)簡(jiǎn)潔的實(shí)體。相反，它由松散且相互關(guān)聯(lián)的單個(gè)子圖組成，每個(gè)子圖都由它自己的結(jié)構(gòu)、表示模式等控制。相比之下，知識(shí)圖譜通常被理解為更具內(nèi)部一致性和更嚴(yán)格控制的組件服務(wù)。因此，對(duì)于沒有嚴(yán)格質(zhì)量控制的外部圖表的價(jià)值受到質(zhì)疑，而內(nèi)容和/或基礎(chǔ)模式的質(zhì)量受到更多關(guān)注。

最大的區(qū)別可能是從學(xué)術(shù)研究到工業(yè)應(yīng)用的轉(zhuǎn)變。因此，圍繞知識(shí)圖譜的活動(dòng)是由強(qiáng)大的工業(yè)用例及可感知的附加價(jià)值推動(dòng)的，沒有公開的正式評(píng)估。

語義網(wǎng)與其他領(lǐng)域和學(xué)科的關(guān)系

與機(jī)器學(xué)習(xí)那樣的其他領(lǐng)域不同，語義網(wǎng)領(lǐng)域主要不是由該領(lǐng)域固有的某些方法驅(qū)動(dòng)的。相反，它是由一個(gè)共同的愿景驅(qū)動(dòng)的，因此，它根據(jù)需要借鑒了其他學(xué)科。

例如，語義網(wǎng)領(lǐng)域作為人工智能的一個(gè)子學(xué)科，與知識(shí)的表示有著密切的關(guān)系，因?yàn)橹R(shí)圖譜和本體論來表示語言可以被理解，而且與知識(shí)表示的語言密切相關(guān)，描述邏輯作為支撐網(wǎng)絡(luò)本體語言 OWL的邏輯學(xué)，發(fā)揮著核心作用。語義網(wǎng)的應(yīng)用需求也推動(dòng)或啟發(fā)了描述邏輯的研究，以及對(duì)不同知識(shí)表示方法(如規(guī)則和描述邏輯)之間橋接的研究。

數(shù)據(jù)庫領(lǐng)域顯然是密切相關(guān)的，如(元)數(shù)據(jù)管理和圖的結(jié)構(gòu)化數(shù)據(jù)有一個(gè)自然的家園，也是重要的語義網(wǎng)領(lǐng)域。然而，語義網(wǎng)研究的重點(diǎn)主要集中在異構(gòu)數(shù)據(jù)源的概念集成上;，例如，如何克服不同的數(shù)據(jù)組織方式; 在大數(shù)據(jù)術(shù)語中，語義網(wǎng)的重點(diǎn)主要是數(shù)據(jù)的多樣性。

自然語言處理作為一種應(yīng)用工具，在知識(shí)圖譜和本體集成、自然語言查詢應(yīng)答、文本知識(shí)圖譜或本體構(gòu)造等方面發(fā)揮著重要作用。

機(jī)器學(xué)習(xí)，特別是深度學(xué)習(xí)，正在改進(jìn)語義網(wǎng)上下文中困難任務(wù)的處理能力，例如知識(shí)圖譜補(bǔ)全，數(shù)據(jù)清洗等等。與此同時(shí)，語義網(wǎng)技術(shù)正在研究提高人工智能的可解釋性。

在網(wǎng)絡(luò)物理系統(tǒng)和物聯(lián)網(wǎng)的某些方面也正在研究使用語義網(wǎng)技術(shù)，例如，在智能制造(工業(yè)4.0)、智能能源網(wǎng)和智能建筑等等。

生命科學(xué)的一些領(lǐng)域受益于語義網(wǎng)技術(shù)已經(jīng)有相當(dāng)長(zhǎng)的歷史了，例如，前面提到的 SNOMED-CT 和基因本體論。一般來說，生物醫(yī)學(xué)領(lǐng)域是語義網(wǎng)概念的早期采用者。另一個(gè)突出的例子是由語義網(wǎng)技術(shù)驅(qū)動(dòng)的ICD開發(fā)。

語義網(wǎng)技術(shù)其他潛在的應(yīng)用領(lǐng)域可以是任何需要數(shù)據(jù)共享、發(fā)現(xiàn)、集成和重用的場(chǎng)景，例如在地球科學(xué)或數(shù)字人文學(xué)科。

語義網(wǎng)的未來

毫無疑問，語義網(wǎng)領(lǐng)域的宏偉目標(biāo)尚未實(shí)現(xiàn)，無論是將語義網(wǎng)作為一個(gè)產(chǎn)品來創(chuàng)建，還是為數(shù)據(jù)共享、發(fā)現(xiàn)、集成和重用提供解決方案，使其變得完全容易和輕松。正如關(guān)于知識(shí)圖譜、schema.org和生命科學(xué)本體論的討論所證明的那樣，這并不意味著中間結(jié)果沒有實(shí)際用途。

然而，為了向更大的目標(biāo)前進(jìn)，幾乎每一個(gè)子領(lǐng)域的語義網(wǎng)都需要進(jìn)一步的發(fā)展。例如，工業(yè)知識(shí)圖譜，本體匹配，信息抽取等等。與其重復(fù)些清單，不如讓把重點(diǎn)放在當(dāng)前的短期主要障礙的挑戰(zhàn)上。

在語義網(wǎng)社區(qū)及其應(yīng)用社區(qū)中，關(guān)于如何有效的處理數(shù)據(jù)管理問題有著豐富的軟硬知識(shí)。然而，剛剛采用語義網(wǎng)技術(shù)的人們經(jīng)常發(fā)現(xiàn)自己面臨著一種不和諧的聲音，面對(duì)不同方法的推銷，但幾乎沒有關(guān)于這些不同方法的利弊介紹。還有那些工具包，從不適合實(shí)踐的粗糙原型到針對(duì)特定子問題而精心設(shè)計(jì)的軟件，但同樣沒有什么指導(dǎo)，到底哪種工具，哪種方法，將最有助于用戶實(shí)現(xiàn)自己的特定目標(biāo)。

因此，在這個(gè)階段，語義網(wǎng)領(lǐng)域最需要的可能是整合。作為一個(gè)固有的應(yīng)用驅(qū)動(dòng)領(lǐng)域，這種合并會(huì)在其各個(gè)子領(lǐng)域進(jìn)行，從而形成面向應(yīng)用的流程，這些流程的目標(biāo)和優(yōu)缺點(diǎn)都有詳細(xì)的文檔記錄，同時(shí)還有易于使用和支持整個(gè)流程的集成工具。一些著名的流行軟件，如OWL API，Wikidata的底層引擎Wikibase，或者ELK推理機(jī)，都是強(qiáng)大且非常有幫助的，但是在某些情況下，盡管它們都使用了 RDF 和 OWL 進(jìn)行序列化，仍然不能輕松地相互協(xié)作。

誰可能是這種整合的驅(qū)動(dòng)力呢?

對(duì)于學(xué)術(shù)界而言，開發(fā)并維護(hù)穩(wěn)定易用軟件的動(dòng)機(jī)往往有限，因?yàn)閷W(xué)術(shù)成績(jī)(主要以出版物和獲得的外部資金總額衡量)往往與這些活動(dòng)不相符。編寫高質(zhì)量的入門教科書是非常耗時(shí)且回報(bào)很少的學(xué)術(shù)成績(jī)。然而，通過開發(fā)各種范式之間的橋梁解決方案，以及通過與應(yīng)用領(lǐng)域合作開發(fā)和實(shí)現(xiàn)用例，學(xué)術(shù)界確實(shí)為整合提供了一個(gè)基礎(chǔ)。

在工業(yè)界，各種各樣的整合已經(jīng)發(fā)生，初創(chuàng)企業(yè)和跨國公司采用語義網(wǎng)技術(shù)就是明證。但是，不論是技術(shù)細(xì)節(jié)還是其內(nèi)部采用的軟件，通常是不共享的，大概都是為了保護(hù)自己的競(jìng)爭(zhēng)優(yōu)勢(shì)。如果確實(shí)如此，那么相應(yīng)的軟件解決方案變得普及將只是時(shí)間的問題。

小結(jié)

在語義網(wǎng)存在的第一個(gè)近20年里，語義網(wǎng)領(lǐng)域已經(jīng)產(chǎn)生了豐富的關(guān)于數(shù)據(jù)共享、發(fā)現(xiàn)、集成和重用的高效數(shù)據(jù)管理的知識(shí)。通過語義網(wǎng)的應(yīng)用，可以很好的理解這個(gè)領(lǐng)域的主要貢獻(xiàn)，包括 Schema.org，工業(yè)知識(shí)圖譜，Wikidata，本體建模應(yīng)用等。這些應(yīng)用背后的關(guān)鍵科學(xué)發(fā)現(xiàn)是什么呢?然而，這個(gè)問題更難回答。語義網(wǎng)的進(jìn)步需要許多計(jì)算機(jī)科學(xué)子領(lǐng)域的貢獻(xiàn)，而其中一個(gè)關(guān)鍵任務(wù)就是如何將這些貢獻(xiàn)整合起來，以便提供適用的解決方案。從這個(gè)意義上說，這些應(yīng)用展示了整個(gè)領(lǐng)域的主要進(jìn)展。

主流工業(yè)界正在采用語義網(wǎng)技術(shù)，然而，尋求更有效的數(shù)據(jù)管理解決方案遠(yuǎn)遠(yuǎn)沒有結(jié)束，仍然是該領(lǐng)域的驅(qū)動(dòng)力。

責(zé)任編輯：武曉燕來源： 51CTO專欄