終于有人把知識圖譜講明白了
1.知識圖譜的由來
1977年,美國計算機科學家費根鮑姆正式命名知識工程,他曾于1994年獲得圖靈獎,被譽為專家系統之父,知識工程奠基人。知識工程是自上而下的,并嚴重依賴專家干預。知識工程的基本目標就是把專家的知識賦予機器,利用機器解決問題。
在傳統的知識工程里,首先需要有相關領域的專家,而且專家能夠把自己的知識表達出來;其次,還需要有知識工程師把專家表達的知識變成計算機能夠處理的形式。
互聯網的應用催生了大數據時代下的知識工程。雖然知識工程解決問題的思路極具前瞻性,但傳統知識工程能夠表示的規模有限,難以適應互聯網時代大規模開放應用的需求。
為應對這些問題,學界和業界的知識工程研究者們試圖尋找新的解決方案。于是學者們將目光轉移到數據本身上,提出了鏈接數據的概念。
鏈接數據中的數據不僅僅需要發布于語義網中,更需要建立自身數據之間的聯系,從而形成一張巨大的鏈接數據網。首先在這項技術上取得重大突破的是谷歌的搜索引擎產品,谷歌將其命名為“知識圖譜”。
2.知識圖譜的定義
知識圖譜旨在描述真實世界中存在的各種實體或概念及其關系,其構成了一張巨大的語義網絡圖,節點表示實體或概念,邊則由屬性或關系構成。現在的知識圖譜已被用來泛指各種大規模的知識庫。圖1.5便是一個圍繞產品全生命周期的知識圖譜示例,一般來說知識圖譜中包含三種節點:
▲圖1.5 產品全生命周期知識圖譜
實體或概念指的是具有可區別性且獨立存在的某種事物。以圖1.5為例,產品、產品1、研發設計、生產制造、采購、質量等都是一個個實體。世界萬物由若干具體事物組成,實體是知識圖譜中的最基本元素,不同的實體間存在不同的關系。
屬性及屬性值用來刻畫實體的內在特性,從一個實體指向它的屬性值。不同的屬性類型對應不同類型屬性的邊。屬性值主要指對象指定屬性的值。如圖1.5所示的“采購”“生產”“質量”是幾種不同的屬性。屬性值則是采購物料的數量和價格、生產數量和進度、采購和生產的質量指標。
關系則是用來連接兩個實體,刻畫它們之間的關聯。知識圖譜亦可被看作一張巨大的關系網圖,圖中的節點表示實體或概念,而圖中的邊則由屬性或關系構成。
3.知識圖譜的技術架構
知識圖譜的技術架構是指其構建模式的結構,如圖1.6所示。圖1.6中虛線框內的部分為知識圖譜的構建過程,也包含知識圖譜的更新過程。
▲圖1.6 知識圖譜的技術架構
知識圖譜構建從最原始的數據(包括結構化、半結構化、非結構化數據)出發,采用一系列自動或者半自動的技術手段,從原始數據庫和第三方數據庫中進行知識提取,并將其存入知識庫的數據層和模式層中,這一過程包含數據采集、知識抽取、知識融合、知識加工、知識應用五個過程,每一次更新迭代均包含這四個階段。
知識圖譜主要有自頂向下(top-down)與自底向上(bottom-up)兩種構建方式。
自頂向下指的是先為知識圖譜定義好本體與數據模式,再將實體加入知識庫中。該構建方式需要利用一些現有的結構化知識庫作為其基礎知識庫,例如Freebase項目就是采用這種方式,它的絕大部分數據是從維基百科中得到的。自底向上指的是從一些開放鏈接數據中提取出實體,選擇其中置信度較高的加入知識庫中,再構建頂層的本體模式。
對于大多數制造業企業來說,由于缺乏大量的實證數據,在應用初期主要使用自頂向下的構建方式。
4.知識圖譜與大數據的區別
知識圖譜是運用一套新的技術和方法論在知識結構化和分析洞察兩個方面提升信息轉化為知識并且被利用的效率。大數據和知識圖譜的抽象工作都是關于“結構化”和“關聯”的,不過大數據是數據結構化和數據級別的關聯,知識圖譜是知識結構化和知識級別的關聯。
所謂知識結構化在知識圖譜技術中就是用三元組的數據結構對實體和關系建模。知識圖譜在解決分析洞察這類問題時,在處理“關系”這件事情上,更直觀也更高效。知識圖譜技術無非是將人工的過程平移,希望計算機能夠更高效地完成這一工程。
大數據很大程度上是在嘗試將非結構化的數據轉為結構化的數據,使其能被計算機分析,從這個意義上講,傳統的企業大數據平臺、數據治理和知識圖譜無疑都要共享企業的大數據。
本文摘編自《智能制造:AI落地制造業之道》(ISBN:978-7-111-69931-6),經出版方授權發布。?