從語義網(wǎng)到知識(shí)圖譜
【引子】 “海內(nèi)存知己,天涯若比鄰”, 這是石頭兄弟推薦給我的一篇關(guān)于語義網(wǎng)的綜述性文章,刊載于《美國計(jì)算機(jī)學(xué)會(huì)通訊》第64卷第2期——“A Review of the Semantic Web Field”(https://cacm.acm.org/magazines/2021/2/250085-a-review-of-the-semantic-web-field/fulltext),作者是Pascal Hitzler。老碼農(nóng)認(rèn)真研讀,頗有收獲,編譯成文。
“語義網(wǎng)”(Semantic Web)和“人工智能”一樣,都指的是一個(gè)研究領(lǐng)域,而不是一個(gè)具體的產(chǎn)品。語義網(wǎng)是一個(gè)豐富的研究和應(yīng)用領(lǐng)域,借鑒了計(jì)算機(jī)科學(xué)內(nèi)部或鄰近的許多學(xué)科。有時(shí)候,人們使用“語義網(wǎng)技術(shù)”這個(gè)術(shù)語被用來描述這一領(lǐng)域中出現(xiàn)的一系列方法和工具,以避免術(shù)語上的混淆。語義網(wǎng)領(lǐng)域不僅在研究和應(yīng)用的方法和目標(biāo)方面非常不同,而且有許多不同但又相互關(guān)聯(lián)的次級(jí)社區(qū),每個(gè)社區(qū)都可能對(duì)該領(lǐng)域的歷史和當(dāng)前狀況作出相當(dāng)不同的敘述。
那么,語義網(wǎng)是一個(gè)關(guān)于什么的研究領(lǐng)域呢?答案可能是主觀的,因?yàn)樵谶@個(gè)領(lǐng)域里沒有明確的共識(shí)。
一種觀點(diǎn)認(rèn)為,該領(lǐng)域的長(zhǎng)期目標(biāo)是創(chuàng)建語義網(wǎng)產(chǎn)品 ,以及創(chuàng)建、維護(hù)和應(yīng)用所需的所有必要工具和方法。相對(duì)于目前大多數(shù)主要面向人類消費(fèi)的網(wǎng)絡(luò),這里的語義網(wǎng)通常被設(shè)想為機(jī)器可理解的信息以及利用這些信息的服務(wù)(智能代理)來增強(qiáng)當(dāng)前的互聯(lián)網(wǎng)。這種觀點(diǎn)可以追溯到2001年《科學(xué)美國人》的一篇文章,可以說標(biāo)志著這個(gè)領(lǐng)域的誕生。在這種情況下,提供機(jī)器可理解的信息是通過為數(shù)據(jù)賦予元數(shù)據(jù)來完成的。在語義網(wǎng)中,這些元數(shù)據(jù)通常采用本體論的形式,或者至少是一種具有基于邏輯語義的形式語言,允許對(duì)數(shù)據(jù)的意義進(jìn)行推理。如果再加上智能代理將利用這些信息的理解,會(huì)發(fā)現(xiàn)語義網(wǎng)領(lǐng)域與人工智能領(lǐng)域有著顯著的重疊。事實(shí)上,在過去大多數(shù)主要的人工智能會(huì)議上,都有明確的“語義網(wǎng)”的印記。
另一種更近期的觀點(diǎn)是,語義網(wǎng)領(lǐng)域的開發(fā)方法及工具與互聯(lián)網(wǎng)無關(guān)的應(yīng)用,即使不使用機(jī)器可理解的數(shù)據(jù)建立智能代理,這些應(yīng)用也能提供附加值。事實(shí)上,早期業(yè)界對(duì)這個(gè)領(lǐng)域的興趣,旨在將語義網(wǎng)技術(shù)應(yīng)用于信息集成和管理。從這個(gè)角度來看,可以說這個(gè)領(lǐng)域是關(guān)于建立高效的(即低成本的)數(shù)據(jù)共享、發(fā)現(xiàn)、集成和重用的方法和工具,而互聯(lián)網(wǎng)在這方面可能只是數(shù)據(jù)傳輸?shù)墓ぞ摺_@種理解使它更接近數(shù)據(jù)庫,或者數(shù)據(jù)科學(xué)的數(shù)據(jù)管理部分。
通過將語義網(wǎng)描述為以 W3C 標(biāo)準(zhǔn) RDF、 OWL 和 SPARQL 為核心來研究本體論、關(guān)聯(lián)數(shù)據(jù)和知識(shí)圖譜的基礎(chǔ)和應(yīng)用,可以對(duì)該領(lǐng)域進(jìn)行限制,但實(shí)際上可能是相對(duì)精確的描述。
或許,這幾個(gè)視角都有各自的優(yōu)點(diǎn),語義網(wǎng)的研究領(lǐng)域存在于它們的融合之中,本體論、關(guān)聯(lián)數(shù)據(jù)、知識(shí)圖譜是這個(gè)領(lǐng)域的關(guān)鍵概念,圍繞 RDF、 OWL 和 SPARQL 的 W3C 標(biāo)準(zhǔn)構(gòu)成了技術(shù)交流方式,它們?cè)谡Z法(在某種程度上是語義)層面上達(dá)成了統(tǒng)一; 語義網(wǎng)領(lǐng)域應(yīng)用的目的是建立有效的數(shù)據(jù)共享、發(fā)現(xiàn)、集成和重用的方法(無論是否針對(duì) Web) ; 作為驅(qū)動(dòng)力的長(zhǎng)期愿景是在的某個(gè)時(shí)刻,將語義網(wǎng)建立為一個(gè)完整的基于智能代理的應(yīng)用環(huán)境。
“治學(xué)先治史”,讓我們看看過去這些年語義網(wǎng)領(lǐng)域出現(xiàn)的關(guān)鍵概念、標(biāo)準(zhǔn)和突出成果。
語義網(wǎng)的發(fā)展階段
當(dāng)一個(gè)研究領(lǐng)域誕生時(shí),確定任何特定的時(shí)間點(diǎn)當(dāng)然是有爭(zhēng)議的。然而,2001年 Berners-Lee 等人在《科學(xué)美國人》上發(fā)表的一篇文章是一個(gè)早期的里程碑,為這一新興領(lǐng)域提供了重要的線索。而且,那是在世紀(jì)之初,當(dāng)時(shí)語義網(wǎng)領(lǐng)域在社區(qū)規(guī)模、學(xué)術(shù)生產(chǎn)力和最初的產(chǎn)業(yè)興趣等方面處于非常重要的上升初期。
但是,已經(jīng)有人在早期做出了努力。從2000年運(yùn)行到2006年的DAML項(xiàng)目,目標(biāo)是開發(fā)一種語義 Web 語言和相應(yīng)的工具。由歐盟資助的 On-To-Knowledge 項(xiàng)目,運(yùn)行于2000-2002年,產(chǎn)生了 OIL 語言,后來與 DAML 合并,最終產(chǎn)生了網(wǎng)絡(luò)本體語言的W3C標(biāo)準(zhǔn)。為網(wǎng)絡(luò)數(shù)據(jù)賦予機(jī)器可讀或“可理解”的元數(shù)據(jù),這一更為普遍的想法可以追溯到互聯(lián)網(wǎng)本身的起源。例如,早在1997年就發(fā)表了資源描述框架(RDF)的初稿。
從21世紀(jì)初開始,可以分為三個(gè)相互重疊的階段,每個(gè)階段都由一個(gè)關(guān)鍵概念驅(qū)動(dòng),也就是說,語義網(wǎng)領(lǐng)域的主要焦點(diǎn)至少轉(zhuǎn)移了兩次。第一階段是由本體論驅(qū)動(dòng)的,它跨越了21世紀(jì)初到21世紀(jì)中期; 第二階段是由關(guān)聯(lián)數(shù)據(jù)驅(qū)動(dòng)的,一直延伸到21世紀(jì)10年代初。第三階段到現(xiàn)在都是由知識(shí)圖譜驅(qū)動(dòng)的。
本體論
在21世紀(jì)的大部分時(shí)間里,這個(gè)領(lǐng)域的工作都以本體論為中心,當(dāng)然,這個(gè)概念有著更為古老的淵源。本體是共享概念化的一個(gè)正式的、明確的規(guī)范ーー盡管有人可能認(rèn)為這個(gè)定義仍然需要解釋,但還是相當(dāng)通用的。在一個(gè)更精確的意義上 ,本體論實(shí)際上是一個(gè)概念(即,類型或類別,如“哺乳動(dòng)物”和“胎生動(dòng)物”)及其關(guān)系(如“哺乳動(dòng)物產(chǎn)下胎生動(dòng)物”)的知識(shí)庫,在一個(gè)基于形式邏輯的本體語言中指定。在語義網(wǎng)上下文中,本體是數(shù)據(jù)集成、共享和發(fā)現(xiàn)的主要工具,一個(gè)重要的思想是本體本身應(yīng)該可以被其他人重用。
2004年,網(wǎng)絡(luò)本體語言的OWL成為了W3C 標(biāo)準(zhǔn),為該領(lǐng)域提供了進(jìn)一步的燃料。OWL的核心是基于描述邏輯,也就是說,基于一階謂詞邏輯的子語言,只使用一元謂詞和二元謂詞,限制使用量詞,設(shè)計(jì)的方式使得語言上的邏輯演繹推理是可判定的。
同樣在2004年,資源描述框架(RDF)也成為了W3C標(biāo)準(zhǔn)。本質(zhì)上,RDF是一種用于表達(dá)標(biāo)記化并類型化的有向圖的語法,它使用OWL指定類型及其關(guān)系的本體,然后在RDF圖中使用這些類型,并將這些關(guān)系作為邊。從這個(gè)角度來看,OWL本體可以作為RDF圖的模式(或類型邏輯)。
一個(gè)用于RDF查詢語言的 W3C 標(biāo)準(zhǔn),稱為 SPARQL,在2008年發(fā)布,在2013年進(jìn)行了更新,3與 OWL 更加兼容。在RDF、 OWL和SPARQL周邊的其他標(biāo)準(zhǔn)已經(jīng)或正在開發(fā),其中一些已經(jīng)獲得了重大的進(jìn)展,例如,語義傳感器網(wǎng)絡(luò)本體論或起源本體論,以及SKOS 簡(jiǎn)單知識(shí)組織系統(tǒng)。
通過在W3C的所有這些關(guān)鍵標(biāo)準(zhǔn),與其他關(guān)鍵 W3C 標(biāo)準(zhǔn)之間的基本兼容性得到了維護(hù)。例如,XML 作為RDF和OWL的語法序列化和交換格式。所有 W3C 語義 Web 標(biāo)準(zhǔn)還使用 IRI 作為 RDF圖中的標(biāo)識(shí)符,并使用了OWL類名和數(shù)據(jù)類型標(biāo)識(shí)符等。
在語義網(wǎng)上下文中,本體是數(shù)據(jù)集成、共享和發(fā)現(xiàn)的主要工具,一個(gè)重要的思想是本體本身應(yīng)該可以被其他人重用。
DARPA的 DAML 項(xiàng)目在2006年結(jié)束,隨后在基礎(chǔ)語義網(wǎng)研究方面幾乎沒有大規(guī)模的資助項(xiàng)目。因此,大部分相應(yīng)的研究要么轉(zhuǎn)移到應(yīng)用領(lǐng)域,比如醫(yī)療保健或國防領(lǐng)域的數(shù)據(jù)管理,要么轉(zhuǎn)移到相鄰的領(lǐng)域。相比之下,歐盟的框架方案,特別是 FP6(2002-2006)和 FP7(2007-2013) ,為基礎(chǔ)和面向應(yīng)用的語義網(wǎng)研究提供了大量資金。在語義網(wǎng)研究社區(qū)的組成中,可以看到這個(gè)社區(qū)主要是歐洲人。社區(qū)的規(guī)模難以評(píng)估,但自2000年代中期以來,該領(lǐng)域的主要會(huì)議——“國際語義網(wǎng)會(huì)議”平均每年吸引了600多名參與者。
工業(yè)界的興趣從一開始就很大,但幾乎不可能描述關(guān)于工業(yè)活動(dòng)相關(guān)水平的可靠數(shù)據(jù)。主要和較小的公司已經(jīng)參與了大規(guī)模的基礎(chǔ)或應(yīng)用研究項(xiàng)目,特別是根據(jù)歐盟 FP 6和7。工業(yè)界的興趣已經(jīng)改變了研究團(tuán)體的焦點(diǎn)。
一些大規(guī)模的本體論(通常早于語義 Web 社區(qū))在這個(gè)時(shí)期成熟了。例如,于1998年開始的基因本體論,現(xiàn)在已經(jīng)是一個(gè)非常突出的資源。另一個(gè)例子是 SNOMED CT,它可以追溯到1960年,但現(xiàn)在已經(jīng)在OWL中完全正式化,并廣泛用于電子健康記錄。
正如計(jì)算機(jī)科學(xué)研究中經(jīng)常出現(xiàn)的情況一樣,在2005年前后,人們最初對(duì)短期取得突破性結(jié)果的期望開始降低,開始更為冷靜看待這一問題。大多數(shù)本體論是在這一時(shí)期開發(fā)的,其形式通常是基于臨時(shí)建模的意義,作為開發(fā)本體論的方法,但尚未產(chǎn)生具體的結(jié)果,結(jié)果是難以維護(hù)和重用。這一點(diǎn),再加上當(dāng)時(shí)開發(fā)良好的本體論所需的大量前期成本,為研究團(tuán)體轉(zhuǎn)移注意力鋪平了道路,這也許可以被理解為與21世紀(jì)初強(qiáng)烈的基于本體論的方法相對(duì)立。
關(guān)聯(lián)數(shù)據(jù)
2006年見證了“關(guān)聯(lián)數(shù)據(jù)”的誕生,如果重點(diǎn)是在免費(fèi)許可下的開放、公開和可用性,則稱為“關(guān)聯(lián)開放數(shù)據(jù)”。關(guān)聯(lián)數(shù)據(jù)很快成為語義網(wǎng)研究和應(yīng)用程序的主要驅(qū)動(dòng)力,并一直持續(xù)到2010年左右。
關(guān)聯(lián)數(shù)據(jù)由一組RDF圖組成,這些RDF圖是關(guān)聯(lián)的,因?yàn)閳D中的許多IRI標(biāo)識(shí)符也出現(xiàn)在其他的圖中,可以是多個(gè)圖中。從某種意義上說,所有這些關(guān)聯(lián)的RDF圖集合可以理解為一個(gè)非常大的 RDF 圖。
如下圖所示,公開可用的關(guān)聯(lián)RDF圖的數(shù)量在第一個(gè)十年中在顯著增長(zhǎng); 數(shù)據(jù)來自關(guān)聯(lián)開放數(shù)據(jù)云網(wǎng)站,該網(wǎng)站并不包含所有RDF數(shù)據(jù)集。2015年的一篇論文報(bào)道了“來自超過65萬個(gè)數(shù)據(jù)文檔的超過370億個(gè)三元組”,這也只是所有可以在互聯(lián)網(wǎng)上自由訪問的 RDF三元組的集合。例如,大型數(shù)據(jù)提供者通常只提供基于SPARQL的查詢接口,或者使用RDF進(jìn)行內(nèi)部數(shù)據(jù)組織,但只通過Web 頁面向外部提供服務(wù)。關(guān)聯(lián)開放數(shù)據(jù)云中的數(shù)據(jù)集覆蓋了各種各樣的主題,包括地理、政府、生命科學(xué)、語言學(xué)、媒體、科學(xué)出版物和社交網(wǎng)絡(luò)。
隨著時(shí)間的推移,關(guān)聯(lián)數(shù)據(jù)開放云中 RDF 圖的數(shù)量
其中最著名和最常用的關(guān)聯(lián)數(shù)據(jù)集是 DBpedia,這是從 Wikipedia (以及最近的 Wikidata)中提取的關(guān)聯(lián)數(shù)據(jù)集。2016年4月發(fā)布的數(shù)據(jù)集包括了約600萬個(gè)實(shí)體和約95億個(gè)RDF三元組。由于其廣泛的主題覆蓋(基本上是維基百科中的所有內(nèi)容) ,而且它是最早提供的鏈接數(shù)據(jù)集之一,DBpedia 在關(guān)聯(lián)數(shù)據(jù)開放云中發(fā)揮著核心作用: 許多其他數(shù)據(jù)集都會(huì)鏈接到它,因此它已成為關(guān)聯(lián)數(shù)據(jù)的樞紐。
從一開始,業(yè)界就對(duì)關(guān)聯(lián)數(shù)據(jù)產(chǎn)生了濃厚的興趣。例如,BBC是第一個(gè)重要的行業(yè)貢獻(xiàn)者,紐約時(shí)報(bào)公司和Facebook是早期采用者。然而,業(yè)界的興趣似乎主要在于利用關(guān)聯(lián)數(shù)據(jù)技術(shù)進(jìn)行數(shù)據(jù)集成和管理,而這些數(shù)據(jù)往往不會(huì)在開放的互聯(lián)網(wǎng)上顯示出來。
在關(guān)聯(lián)數(shù)據(jù)的時(shí)代,本體論扮演了一個(gè)不那么重要的角色。它們通常被用作模式,可以告知RDF 數(shù)據(jù)集的內(nèi)部結(jié)構(gòu),然而,相對(duì)于本體論時(shí)代的過度承諾和深度研究,關(guān)聯(lián)數(shù)據(jù)云中的RDF圖中的信息是膚淺和相對(duì)簡(jiǎn)單的。在這段時(shí)間里,人們有時(shí)會(huì)說本體論不能被重用,而且一種更簡(jiǎn)單的方法,主要基于利用 RDF 和數(shù)據(jù)集之間的鏈接,對(duì)于數(shù)據(jù)集成、管理和線上線下的應(yīng)用程序有著更現(xiàn)實(shí)的作用。也正是在這個(gè)時(shí)期,基于RDF的數(shù)據(jù)組織詞匯表與本體的關(guān)系并不大。
也正是在這段時(shí)間(2011年)里,schema.org 登場(chǎng)了。最初由Bing、 Google 和雅虎推動(dòng),后來yandex也加入進(jìn)來,公開了一個(gè)相對(duì)簡(jiǎn)單的本體論體系,并建議網(wǎng)站提供商使用schema.org的詞匯表在各自的網(wǎng)站上注釋(即鏈接)實(shí)體。作為回報(bào),schema.org背后的 Web 搜索引擎提供商承諾通過利用注釋作為元數(shù)據(jù)來改善搜索結(jié)果。在2015年,大約有超過30% 的頁面使用了schema.org的注釋。
2012年發(fā)起的另一個(gè)重要項(xiàng)目是Wikidata,該項(xiàng)目最初是德國wikimedia協(xié)會(huì)的一個(gè)項(xiàng)目,由谷歌、 Yandex 和Allen人工智能研究所等機(jī)構(gòu)資助。Wikidata 基于與維基百科類似的想法,即眾包信息。然而,維基百科提供了百科全書式的文本(以人類讀者為主要消費(fèi)者) ,Wikidata 則是關(guān)于創(chuàng)建可用于程序或其他項(xiàng)目的結(jié)構(gòu)化數(shù)據(jù)。例如,許多其他wikimedia包括維基百科,使用Wikidata提供一些信息,然后呈現(xiàn)給人類讀者。Wikidata已經(jīng)擁有了超過6600萬個(gè)的數(shù)據(jù)項(xiàng),自項(xiàng)目啟動(dòng)以來已經(jīng)進(jìn)行了超過10億次的編輯,并且有超過20000個(gè)活躍用戶。
在21世紀(jì)10年代早期,關(guān)聯(lián)數(shù)據(jù)的最初炒作開始讓位于一種更為冷靜的觀點(diǎn)。雖然關(guān)聯(lián)數(shù)據(jù)確實(shí)有一些突出的用途和應(yīng)用,但結(jié)果表明,集成和利用關(guān)聯(lián)數(shù)據(jù)需要比最初的預(yù)期付出更多的努力。可以說,用于關(guān)聯(lián)數(shù)據(jù)的淺顯的非表達(dá)性模式似乎是可重用性的一個(gè)主要障礙,最初期望數(shù)據(jù)集之間的相互聯(lián)系會(huì)以某種方式解釋這一弱點(diǎn),但似乎并沒有實(shí)現(xiàn)。這不應(yīng)被理解為貶低了鏈接數(shù)據(jù)給該領(lǐng)域及其應(yīng)用帶來的重大進(jìn)展: 僅僅以某種結(jié)構(gòu)化的格式提供數(shù)據(jù),遵循一個(gè)突出的標(biāo)準(zhǔn),就意味著可以使用現(xiàn)有工具訪問、集成和管理數(shù)據(jù),然后進(jìn)行利用。這比以語法和概念上更加異構(gòu)的形式提供數(shù)據(jù)要容易得多。但是,尋求更有效的數(shù)據(jù)共享、發(fā)現(xiàn)、集成和重用的方法當(dāng)然和以往一樣重要,而且正在開始。
知識(shí)圖譜
2012年,當(dāng)谷歌推出它的知識(shí)圖譜時(shí),一個(gè)新的術(shù)語出現(xiàn)了。例如,可以通過在 google 網(wǎng)站上搜索知名實(shí)體來查看 Google知識(shí)圖譜的部分內(nèi)容: 在鏈接到網(wǎng)頁的搜索結(jié)果旁邊顯示一個(gè)所謂的信息框,顯示來自Google知識(shí)圖譜的信息。下圖給出了這種信息框的一個(gè)例子,搜索 Kofi Annan 就可以找到這個(gè)例子。人們可以通過跟隨一個(gè)超鏈接從這個(gè)節(jié)點(diǎn)導(dǎo)航到圖譜中的其他節(jié)點(diǎn),例如,到 Nane Maria Annan,她與 Kofi Annan 節(jié)點(diǎn)有配偶關(guān)系。在這個(gè)鏈接之后,Nane Maria Annan 的一個(gè)新的信息框被顯示在同一個(gè)詞的搜索結(jié)果旁邊。
在 google 上搜索“ Kofi Annan”后的 Google知識(shí)圖譜節(jié)點(diǎn)
雖然 Google 沒有提供可下載的知識(shí)圖譜,但它提供了內(nèi)容訪問的API,這個(gè)API 使用標(biāo)準(zhǔn)的schema.org類型,并且滿足JSON-LD格式,這實(shí)際上是W3C RDF 標(biāo)準(zhǔn)化的另一種語法。
然而,考慮到語義網(wǎng)技術(shù)的歷史,特別是之前討論過的關(guān)聯(lián)數(shù)據(jù)和本體論,知識(shí)圖譜仿佛是一種直接來自語義網(wǎng)領(lǐng)域的新構(gòu)想,關(guān)注的重點(diǎn)發(fā)生了顯著轉(zhuǎn)變。
其中一個(gè)不同之處在于開放性: 正如關(guān)聯(lián)開放數(shù)據(jù)這個(gè)術(shù)語從一開始就暗示的那樣,語義網(wǎng)社區(qū)的關(guān)聯(lián)數(shù)據(jù)工作大多以開放共享數(shù)據(jù)為其目標(biāo)之一,這意味著關(guān)聯(lián)數(shù)據(jù)大多可以免費(fèi)下載,或者由支持SPARQL的服務(wù)提供,并且重要的是在社區(qū)中使用非限制性許可。wikidata作為一個(gè)知識(shí)圖譜也是開放共享的。相比之下,圍繞知識(shí)圖譜的活動(dòng)往往是由行業(yè)主導(dǎo)的,而主要的應(yīng)用并不是真正開放的。
另一個(gè)區(qū)別是集中控制與自下而上的社區(qū)貢獻(xiàn): 在某種意義上,關(guān)聯(lián)數(shù)據(jù)云是目前已知最大的現(xiàn)有知識(shí)圖譜,但它不是一個(gè)簡(jiǎn)潔的實(shí)體。相反,它由松散且相互關(guān)聯(lián)的單個(gè)子圖組成,每個(gè)子圖都由它自己的結(jié)構(gòu)、表示模式等控制。相比之下,知識(shí)圖譜通常被理解為更具內(nèi)部一致性和更嚴(yán)格控制的組件服務(wù)。因此,對(duì)于沒有嚴(yán)格質(zhì)量控制的外部圖表的價(jià)值受到質(zhì)疑,而內(nèi)容和/或基礎(chǔ)模式的質(zhì)量受到更多關(guān)注。
最大的區(qū)別可能是從學(xué)術(shù)研究到工業(yè)應(yīng)用的轉(zhuǎn)變。因此,圍繞知識(shí)圖譜的活動(dòng)是由強(qiáng)大的工業(yè)用例及可感知的附加價(jià)值推動(dòng)的,沒有公開的正式評(píng)估。
語義網(wǎng)與其他領(lǐng)域和學(xué)科的關(guān)系
與機(jī)器學(xué)習(xí)那樣的其他領(lǐng)域不同,語義網(wǎng)領(lǐng)域主要不是由該領(lǐng)域固有的某些方法驅(qū)動(dòng)的。相反,它是由一個(gè)共同的愿景驅(qū)動(dòng)的,因此,它根據(jù)需要借鑒了其他學(xué)科。
例如,語義網(wǎng)領(lǐng)域作為人工智能的一個(gè)子學(xué)科,與知識(shí)的表示有著密切的關(guān)系,因?yàn)橹R(shí)圖譜和本體論來表示語言可以被理解,而且與知識(shí)表示的語言密切相關(guān),描述邏輯作為支撐網(wǎng)絡(luò)本體語言 OWL的邏輯學(xué),發(fā)揮著核心作用。語義網(wǎng)的應(yīng)用需求也推動(dòng)或啟發(fā)了描述邏輯的研究,以及對(duì)不同知識(shí)表示方法(如規(guī)則和描述邏輯)之間橋接的研究。
數(shù)據(jù)庫領(lǐng)域顯然是密切相關(guān)的,如(元)數(shù)據(jù)管理和圖的結(jié)構(gòu)化數(shù)據(jù)有一個(gè)自然的家園,也是重要的語義網(wǎng)領(lǐng)域。然而,語義網(wǎng)研究的重點(diǎn)主要集中在異構(gòu)數(shù)據(jù)源的概念集成上;,例如,如何克服不同的數(shù)據(jù)組織方式; 在大數(shù)據(jù)術(shù)語中,語義網(wǎng)的重點(diǎn)主要是數(shù)據(jù)的多樣性。
自然語言處理作為一種應(yīng)用工具,在知識(shí)圖譜和本體集成、自然語言查詢應(yīng)答、文本知識(shí)圖譜或本體構(gòu)造等方面發(fā)揮著重要作用。
機(jī)器學(xué)習(xí),特別是深度學(xué)習(xí),正在改進(jìn)語義網(wǎng)上下文中困難任務(wù)的處理能力,例如知識(shí)圖譜補(bǔ)全,數(shù)據(jù)清洗等等。與此同時(shí),語義網(wǎng)技術(shù)正在研究提高人工智能的可解釋性。
在網(wǎng)絡(luò)物理系統(tǒng)和物聯(lián)網(wǎng)的某些方面也正在研究使用語義網(wǎng)技術(shù),例如,在智能制造(工業(yè)4.0)、智能能源網(wǎng)和智能建筑等等。
生命科學(xué)的一些領(lǐng)域受益于語義網(wǎng)技術(shù)已經(jīng)有相當(dāng)長(zhǎng)的歷史了,例如,前面提到的 SNOMED-CT 和基因本體論。一般來說,生物醫(yī)學(xué)領(lǐng)域是語義網(wǎng)概念的早期采用者。另一個(gè)突出的例子是由語義網(wǎng)技術(shù)驅(qū)動(dòng)的ICD開發(fā)。
語義網(wǎng)技術(shù)其他潛在的應(yīng)用領(lǐng)域可以是任何需要數(shù)據(jù)共享、發(fā)現(xiàn)、集成和重用的場(chǎng)景,例如在地球科學(xué)或數(shù)字人文學(xué)科。
語義網(wǎng)的未來
毫無疑問,語義網(wǎng)領(lǐng)域的宏偉目標(biāo)尚未實(shí)現(xiàn),無論是將語義網(wǎng)作為一個(gè)產(chǎn)品來創(chuàng)建,還是為數(shù)據(jù)共享、發(fā)現(xiàn)、集成和重用提供解決方案,使其變得完全容易和輕松。正如關(guān)于知識(shí)圖譜、schema.org和生命科學(xué)本體論的討論所證明的那樣,這并不意味著中間結(jié)果沒有實(shí)際用途。
然而,為了向更大的目標(biāo)前進(jìn),幾乎每一個(gè)子領(lǐng)域的語義網(wǎng)都需要進(jìn)一步的發(fā)展。例如,工業(yè)知識(shí)圖譜,本體匹配,信息抽取等等。與其重復(fù)些清單,不如讓把重點(diǎn)放在當(dāng)前的短期主要障礙的挑戰(zhàn)上。
在語義網(wǎng)社區(qū)及其應(yīng)用社區(qū)中,關(guān)于如何有效的處理數(shù)據(jù)管理問題有著豐富的軟硬知識(shí)。然而,剛剛采用語義網(wǎng)技術(shù)的人們經(jīng)常發(fā)現(xiàn)自己面臨著一種不和諧的聲音,面對(duì)不同方法的推銷,但幾乎沒有關(guān)于這些不同方法的利弊介紹。還有那些工具包,從不適合實(shí)踐的粗糙原型到針對(duì)特定子問題而精心設(shè)計(jì)的軟件,但同樣沒有什么指導(dǎo),到底哪種工具,哪種方法,將最有助于用戶實(shí)現(xiàn)自己的特定目標(biāo)。
因此,在這個(gè)階段,語義網(wǎng)領(lǐng)域最需要的可能是整合。作為一個(gè)固有的應(yīng)用驅(qū)動(dòng)領(lǐng)域,這種合并會(huì)在其各個(gè)子領(lǐng)域進(jìn)行,從而形成面向應(yīng)用的流程,這些流程的目標(biāo)和優(yōu)缺點(diǎn)都有詳細(xì)的文檔記錄,同時(shí)還有易于使用和支持整個(gè)流程的集成工具。一些著名的流行軟件,如OWL API,Wikidata的底層引擎Wikibase,或者ELK推理機(jī),都是強(qiáng)大且非常有幫助的,但是在某些情況下,盡管它們都使用了 RDF 和 OWL 進(jìn)行序列化,仍然不能輕松地相互協(xié)作。
誰可能是這種整合的驅(qū)動(dòng)力呢?
對(duì)于學(xué)術(shù)界而言,開發(fā)并維護(hù)穩(wěn)定易用軟件的動(dòng)機(jī)往往有限,因?yàn)閷W(xué)術(shù)成績(jī)(主要以出版物和獲得的外部資金總額衡量)往往與這些活動(dòng)不相符。編寫高質(zhì)量的入門教科書是非常耗時(shí)且回報(bào)很少的學(xué)術(shù)成績(jī)。然而,通過開發(fā)各種范式之間的橋梁解決方案,以及通過與應(yīng)用領(lǐng)域合作開發(fā)和實(shí)現(xiàn)用例,學(xué)術(shù)界確實(shí)為整合提供了一個(gè)基礎(chǔ)。
在工業(yè)界,各種各樣的整合已經(jīng)發(fā)生,初創(chuàng)企業(yè)和跨國公司采用語義網(wǎng)技術(shù)就是明證。但是,不論是技術(shù)細(xì)節(jié)還是其內(nèi)部采用的軟件,通常是不共享的,大概都是為了保護(hù)自己的競(jìng)爭(zhēng)優(yōu)勢(shì)。如果確實(shí)如此,那么相應(yīng)的軟件解決方案變得普及將只是時(shí)間的問題。
小結(jié)
在語義網(wǎng)存在的第一個(gè)近20年里,語義網(wǎng)領(lǐng)域已經(jīng)產(chǎn)生了豐富的關(guān)于數(shù)據(jù)共享、發(fā)現(xiàn)、集成和重用的高效數(shù)據(jù)管理的知識(shí)。通過語義網(wǎng)的應(yīng)用,可以很好的理解這個(gè)領(lǐng)域的主要貢獻(xiàn),包括 Schema.org,工業(yè)知識(shí)圖譜,Wikidata,本體建模應(yīng)用等。這些應(yīng)用背后的關(guān)鍵科學(xué)發(fā)現(xiàn)是什么呢?然而,這個(gè)問題更難回答。語義網(wǎng)的進(jìn)步需要許多計(jì)算機(jī)科學(xué)子領(lǐng)域的貢獻(xiàn),而其中一個(gè)關(guān)鍵任務(wù)就是如何將這些貢獻(xiàn)整合起來,以便提供適用的解決方案。從這個(gè)意義上說,這些應(yīng)用展示了整個(gè)領(lǐng)域的主要進(jìn)展。
主流工業(yè)界正在采用語義網(wǎng)技術(shù),然而,尋求更有效的數(shù)據(jù)管理解決方案遠(yuǎn)遠(yuǎn)沒有結(jié)束,仍然是該領(lǐng)域的驅(qū)動(dòng)力。