背景
1、引言
知識圖譜的概念,最早由 Google 在2012 年提出, 旨在實現更智能的搜索引擎,并在2013年之后開始在學術界和工業級普及。目前,隨著人工智能技術的高速發展,知識圖譜已廣泛應用于搜索、推薦、廣告、風控、智能調度、語音識別、機器人等多個領域。
2、發展現狀
知識圖譜作為人工智能的核心技術驅動力,能緩解深度學習依賴海量訓練數據、大規模算力的問題,它能夠廣泛適配不同的下游任務,且具有良好的解釋性,因此,全球大型互聯網公司都在積極部署本企業的知識圖譜。
例如2013年Facebook發布Open Graph,應用于社交網絡智能搜索;2014年百度推出的知識圖譜,主要應用于搜索、助理、及toB商業場景;2015年阿里推出的商品知識圖譜,在前端導購、平臺治理和智能問答等業務上起到關鍵作用;騰訊于2017年推出的騰訊云知識圖譜,有效助力于金融搜索、實體風險預測等場景;美團于2018年推出的美團大腦知識圖譜,已經在智能搜索推薦、智能商戶運營等多個業務中落地。
3、目標及收益
目前,領域圖譜主要集中在電商、醫療、金融等商業領域,而關于汽車知識的語義網絡及知識圖譜構建缺少系統性的指導方法。本文以汽車領域知識為例,圍繞車系、車型、經銷商、廠商、品牌等實體及相互關系,提供一種從零搭建領域圖譜的思路,并對搭建知識圖譜中的步驟及方法進行了詳細說明,以及介紹了基于本圖譜的幾個典型落地應用。
其中,數據源采用汽車之家網站,汽車之家是由導購、資訊、評測、口碑等多個板塊組成的汽車服務類平臺,在看、買、用等維度積累了大量的汽車數據,通過構建知識圖譜把以汽車為核心的內容進行組織和挖掘,提供豐富的知識信息,結構化精準刻畫興趣,支持推薦用戶冷啟、召回、排序、展示等多個維度,給業務提升帶來效果。
二、圖譜構建
1、構建的挑戰
知識圖譜是真實世界的語義表示,,其基本組成單位是【實體-關系-實體】,【實體-屬性-屬性值】的三元組(Triplet),實體之間通過關系相互聯結,從而構成語義網絡。圖譜構建中會面臨較大的挑戰,但構建之后,可在數據分析、推薦計算、可解釋性等多個場景展現出豐富的應用價值。
構建挑戰:
- schema難定義:目前尚無統一成熟的本體構建流程,且特定領域本體定義通常需專家參與;
- 數據類型異構:通常情況下,一個知識圖譜構建中面對的數據源不會是單一類型,包含結構化、半結構化,及非結構化數據,面對結構各異的數據,知識轉模及挖掘的難度較高;
- 依賴專業知識:領域知識圖譜通常依賴較強的專業知識,例如車型對應的維修方法,涉及機械、電工、材料、力學等多個領域知識,且此類關系對于準確度的要求較高,需要保證知識足夠正確,因此也需要較好的專家和算法相結合的方式來進行高效的圖譜構建;
- 數據質量無保證:挖掘或抽取信息需要知識融合或人工校驗,才能作為知識助力下游應用。
收益:
- 知識圖譜統一知識表示:通過整合多源異構數據,形成統一視圖;
- 語義信息豐富:通過關系推理可以發現新關系邊,獲得更豐富的語義信息;
- 可解釋性強:顯式的推理路徑對比深度學習結果具有更強的解釋性;
- 高質量且能不斷積累:根據業務場景設計合理的知識存儲方案,實現知識更新和累積。
2、圖譜架構設計
技術架構主要分為構建層、存儲層及應用層三大層,架構圖如下:
- 構建層:包括schema定義,結構化數據轉模,非結構化數據挖掘,以及知識融合;
- 存儲層:包括知識的存儲和索引,知識更新,元數據管理,以及支持基本的知識查詢;
- 服務層:包括智能推理、結構化查詢等業務相關的下游應用層。
3、具體構建步驟及流程
依據架構圖,具體構建流程可分為四步:本體設計、知識獲取、知識入庫,以及應用服務設計及使用。
3.1 本體構建
本體(Ontology)是公認的概念集合,本體的構建是指依據本體的定義,構建出知識圖譜的本體結構和知識框架。
基于本體構建圖譜的原因主要有以下幾點:
- 明確專業術語、關系及其領域公理,當一條數據必須滿足Schema預先定義好的實體對象和類型后,才允許被更新到知識圖譜中。
- 將領域知識與操作性知識分離,通過Schema可以宏觀了解圖譜架構及相關定義,無須再從三元組中歸納整理。
- 實現一定程度的領域知識復用。在構建本體之前,可以先調研是否有相關本體已經被構建出來了,這樣可以基于已有本體進行改進和擴展,達到事半功倍的效果。
- 基于本體的定義,可以避免圖譜與應用脫節,或者修改圖譜schema比重新構建成本還要高的情況。例如將“寶馬x3”、“2022款寶馬x3”都作為汽車類實體來儲存,在應用時都可能造成實例關系混亂、可用性差的問題,這種情況可以在設本體計階段,通過將“汽車類實體”進行“車系”、“車型”子類細分的方法來避免。
按照知識的覆蓋面來看,知識圖譜可以劃分為通用知識圖譜和領域知識圖譜,目前通用知識圖譜已有較多案例,例如Google的Knowledge Graph、微軟的Satori和Probase等,領域圖譜則為金融、電商等具體行業圖譜。通用圖譜更注重廣度,強調融合更多的實體數量,但對精確度的要求不高,很難借助本體庫對公理、規則及約束條件進行推理和使用;而領域圖譜的知識覆蓋范圍較小,但知識深度更深,往往是在某一專業領域上的構建。
考慮對準確率的要求,領域本體構建多傾向于手工構建的方式,例如代表性的七步法、IDEF5方法等[1],該類方法的核心思想是,基于已有結構化數據,進行本體分析,將符合應用目的和范圍的本體進行歸納及構建,再對本體進行優化和驗證,從而獲取初版本體定義。若想獲取更大范疇的領域本體,則可以從非結構化語料中補充,考慮手工構建過程較大,本文以汽車領域為例,提供一種半自動本體構建的方式,詳細步驟如下:
- 首先收集大量汽車非結構化語料(例如車系咨詢、新車導購文章等),作為初始個體概念集,利用統計方法或無監督模型(TF-IDF、BERT等)獲取字特征和詞特征;
- 其次利用BIRCH聚類算法對概念間層次劃分,初步構建起概念間層級關系,并對聚類結果進行人工概念校驗和歸納,獲取本體的等價、上下位概念;
- 最后使用卷積神經網絡結合遠程監督的方法,抽取本體屬性的實體關系,并輔以人工識別本體中的類及屬性的概念,構建起汽車領域本體。
上述方法可有效利用BERT等深度學習的技術,更好地捕捉語料間的內部關系,使用聚類分層次對本體各模塊進行構建,輔以人工干預,能夠快速、準確的完成初步本體構建。下圖為半自動化本體構建示意圖:
利用Protégé本體構建工具[2],可以進行本體概念類、關系、屬性和實例的構建,下圖為本體構建可視化示例圖:
本文將汽車領域的頂層本體概念劃分為三類,實體、事件及標簽體系:
1)實體類代表特定意義的概念類實體,包括詞匯實體和汽車類實體,其中汽車類實體又包括組織機構和汽車概念等子實體類型;
2)標簽體系代表各個維度的標簽體系,包括內容分類、概念標簽、興趣標簽等以物料維度刻畫的標簽;
3)事件類代表一個或多個角色的客觀事實,不同類型事件間具有演變關系。
Protégé可以導出不同類型的Schema配置文件,其中owl.xml結構配置文件如下圖所示。該配置文件可直接在MYSQL、JanusGraph中加載使用,實現自動化的創建Schema。
3.2 知識獲取
知識圖譜的數據來源通常包括三類數據結構,分別為結構化數據、半結構化數據、非結構化數據。 面向不同類型的數據源,知識抽取涉及的關鍵技術和需要解決的技術難點有所不同。
3.2.1 結構化知識轉模
結構化數據是圖譜最直接的知識來源,基本通過初步轉換就可以使用,相較其他類型數據成本最低,所以一般圖譜數據優先考慮結構化數據。結構化數據可能涉及多個數據庫來源,通常需要使用ETL方法轉模,ETL即Extract(抽?。?、Transform(轉換)、Load(裝載),抽取是將數據從各種原始的業務系統中讀取出來,這是所有工作的前提;轉換是按照預先設計好的規則將抽取的數據進行轉換,使本來異構的數據格式可以統一起來;裝載是將轉換完的數據按計劃增量或全部導入到數據倉庫中。
通過上述ETL流程可將不同源數據落到中間表,從而方便后續的知識入庫。下圖為車系實體屬性、關系表示例圖:
車系與品牌關系表:
3.2.2 非結構化知識抽取-三元組抽取
除了結構化數據,非結構化數據中也存在著海量的知識(三元組)信息。一般來說企業的非結構化數據量要遠大于結構化數據,挖掘非結構化知識能夠極大拓展和豐富知識圖譜。
三元組抽取算法的挑戰
問題1:單個領域內,?檔內容和格式多樣,需要?量的標注數據,成本?
問題2:領域之間遷移的效果不夠好,跨領域的可規?;卣沟拇鷥r?
模型基本都是針對特定?業特定場景,換?個場景,效果會出現明顯下降。
解決思路,Pre-train+ Finetune的范式,預訓練:重量級底座讓模型“?多識?”充分利??規模多?業的?標?檔,訓練?個統?的預訓練底座,增強模型對各類?檔的表示和理解能?。
微調:輕量級?檔結構化算法。在預訓練基礎上,構建輕量級的?向?檔結構化的算法,降低標注成本。
針對?檔的預訓練?法
現有關于?檔的預訓練模型,如果文本較短的類型,Bert可以完全編碼整篇?檔;?我們實際的?檔通常?較?,需要抽取的屬性值有很多是超過1024個字的,Bert進?編碼會造成屬性值截斷。
針對長文本預訓練方法優點和不足
Sparse Attention的?法通過優化Self-Attention,將O(n2)的計算優化?O(n),??提?了輸??本?度。雖然普通模型的?本?度從512提升到4096,但是依舊不能完全解決截斷?本的碎?化問題。百度提出了ERNIE-DOC[3]使用了Recurrence Transformer方法,理論上可以建模?限?的?本。由于建模要輸?所有的?本信息,耗時?常?。
上述兩種基于??本的預訓練?法,都沒有考慮?檔特性,如空間(Spartial)、視覺(Visual)等信息。并且基于?本設計的PretrainTask,整體是針對純?本進?的設計,?沒有針對?檔的邏輯結構設計。
針對上述不足這里介紹一種??檔預訓練模型DocBert[4],DocBert模型設計:
使??規模(百萬級)?標注?檔數據進?預訓練,基于?檔的?本語義(Text)、版?信息(Layout)、視覺特征(Visual)構建?監督學習任務,使模型更好地理解?檔語義和結構信息。
1.Layout-Aware MLM:在Mask語?模型中考慮?本的位置、字體??信息,實現?檔布局感知的語義理解。
2.Text-Image Alignment:融合?檔視覺特征,重建圖像中被Mask的?字,幫助模型學習?本、版?、圖像不同模態間的對?關系。
3.Title Permutation:以?監督的?式構建標題重建任務,增強模型對?檔邏輯結構的理解能?。
4.Sparse Transformer Layers:?Sparse Attention的?法,增強模型對??檔的處理能?。
3.2.3 挖掘概念,興趣詞標簽,關聯到車系、實體
除了結構化和非結構化文本中獲取三元組,汽車之家還挖掘物料所包含的分類、概念標簽和興趣關鍵詞標簽,并建立物料和車實體之間的關聯,為汽車知識圖譜帶來新的知識。下面從分類、概念標簽、興趣詞標簽來介紹汽車之家所做的內容理解部分工作以及思考。
分類體系作為內容刻畫基礎,對物料進行粗粒度的劃分。建立的統一的內容體系更多的是基于人工定義的方式,通過AI模型進行劃分。在分類方法上我們我們采用了主動學習,對于比較難分的數據進行標注,同時采用數據增強,對抗訓練,以及關鍵詞融合方式提高分類的效果。
概念標簽粒度介于分類和興趣詞標簽之間,比分類粒度更細,同時比興趣詞對于興趣點刻畫更加完整,我們建立了車視野、人視野、內容視野三個維度,豐富了標簽維度,細化了標簽粒度。豐富且具體的物料標簽,更加方便搜索推薦基于標簽的模型優化,且可用于標簽外展起到吸引用戶及二次引流等作用。概念標簽的挖掘,結合在query等重要數據上采用機器挖掘方式,并對概括性進行分析,通過人工review,拿到概念標簽集合,采用多標簽模型分類。
興趣詞標簽是最細粒度的標簽,映射為用戶興趣,根據不同用戶興趣偏好進可以更好的進行行個性化推薦。關鍵詞的挖掘采用多種興趣詞挖掘相結合的方式,包括Keybert提取關鍵子串,并結合TextRank、positionRank、singlerank、TopicRank、MultipartiteRank等+句法分析多種方法,產生興趣詞候選。
挖掘出來的詞,相似度比較高,需要對同義詞進行識別,需要提升人工的效率,因此我們也通過聚類進行自動化語義相似識別。用于聚類的特征有word2vec,bert embding等其他人工特征。然后使用聚類方法,最后經過人工矯正我們離線產生了一批高質量的關鍵詞。
對于不同粒度的標簽還是在物料層面的,我們需要把標簽和車建立起關聯,首先我們分別計算出標題\文章的所屬標簽,然后識別出標題\文章內的實體,得到若干標簽-實體偽標簽,最后根據大量的語料,共現概率高的標簽就會標記為該實體的標簽。通過以上三個任務,我們在獲得了豐富且海量的標簽。對車系、實體關聯上這些標簽,會極大豐富我們的汽車圖譜,建立了媒體和用戶的關注車標簽。
3.2.4人效提升:
伴隨著更大規模的訓練樣本,如何獲得更好的模型質量,如何解決標注成本高,標注周期長成為亟待解決的問題。首先我們可以使用半監督學習,利用海量未標注數據進行預訓練。然后采用主動學習方式,最大化標注數據的價值,迭代選擇高信息量樣本進行標注。最后可以利用遠程監督,發揮已有知識的價值,發覺任務之間的相關性。例如在有了圖譜和標題后,可以用遠程監督的方法基于圖譜構造NER訓練數據。
3.3 知識入庫
知識圖譜中的知識是通過RDF結構來進行表示的,其基本單元是事實。每個事實是一個三元組(S, P, O),在實際系統中,按照存儲方式的不同,知識圖譜的存儲可以分為基于RDF表結構的存儲和基于屬性圖結構的存儲。圖庫更多是采用屬性圖結構的存儲,常見的存儲系統有Neo4j、JanusGraph、OritentDB、InfoGrid等。
圖數據庫選擇
通過JanusGraph 與 Neo4J、ArangoDB、OrientDB 這幾種主流圖數據庫的對比,我們最終選擇JanusGraph 作為項目的圖數據庫,之所以選擇 JanusGraph,主要有以下原因:
- 基于 Apache 2 許可協議開放源碼,開放性好。
- 支持使用 Hadoop 框架進行全局圖分析和批量圖處理。
- 支持很大的并發事務處理和圖操作處理。通過添加機器橫向擴展 JanusGraph 的事務 處理能力,可以在毫秒級別相應大圖的復雜查詢。
- 原生支持 Apache TinkerPop 描述的當前流行的屬性圖數據模型。
- 原生支持圖遍歷語言 Gremlin。
- 下圖是主流圖數據庫對比:
Janusgraph介紹
JanusGraph[5]是一個圖形數據庫引擎。其本身專注于緊湊圖序列化、豐富圖數據建模、高效的查詢執行。圖庫schema 構成可以用下面一個公式來表示:
janusgraph schema = vertex label + edge label + property keys
這里值得注意的是property key通常用于graph index。
為了更好的圖查詢性能janusgraph建立了索引,索引分為Graph Index,Vertex-centric Indexes。Graph Index包含組合索引(Composite Index)和混合索引(Mixed Index).
組合索引僅限相等查找。(組合索引不需要配置外部索引后端,通過主存儲后端支持(當然也可以配置hbase,Cassandra,Berkeley))
舉例:
mgmt.buildIndex('byNameAndAgeComposite', Vertex.class).addKey(name).addKey(age).buildCompositeIndex() #構建一個組合索引“name-age”
g.V().has('age', 30).has('name', '小明')#查找 名字為小明年齡30的節點
混合索引需要ES作為后端索引以支持除相等以外的多條件查詢(也支持相等查詢,但相等查詢,組合索引更快)。根據是否需要分詞分為full-text search,和string search
JanusGraph數據存儲模型
了解Janusgraph存儲數據的方式,有助于我們更好的利用該圖庫。JanusGraph 以鄰接列表格式存儲圖形,這意味著圖形存儲為頂點及其鄰接列表的集合。
頂點的鄰接列表包含頂點的所有入射邊(和屬性)。
JanusGraph 將每個鄰接列表作為一行存儲在底層存儲后端中。 (64 位)頂點 ID(JanusGraph 唯一分配給每個頂點)是指向包含頂點鄰接列表的行的鍵。
每個邊和屬性都存儲為行中的一個單獨的單元格,允許有效的插入和刪除。 因此,特定存儲后端中每行允許的最大單元數也是JanusGraph 可以針對該后端支持的頂點的最大度數。
如果存儲后端支持key-order,則鄰接表將按頂點 id 排序,JanusGraph可以分配頂點 id,以便對圖進行有效分區。 分配 id 使得經常共同訪問的頂點具有絕對差異小的 id。
3.4 圖譜查詢服務
Janusgraph進行圖搜索用的是gremlin語言,我們提供了統一的圖譜查詢服務,外部使用不用關心gremlin語言的具體實現,采用通用的接口進行查詢。我們分為三個接口:條件搜索接口,以節點為中心向外查詢,和節點間路徑查詢接口。下面是幾個gremlin實現的例子:
- 條件搜索:查詢10萬左右,銷量最高的車:
g.V().has('price',gt(8)).has('price',lt(12)).order().by('sales',desc).valueMap().limit(1)
輸出:
==>{name=[xuanyi], price=[10], sales=[45767]}
軒逸銷量最高,為45767
- 以節點為中心向外查詢:查詢以小明為中心,2度的節點
g.V(xiaoming).repeat(out()).times(2).valueMap()
- 節點間路徑查詢:薦給小明推薦兩篇文章,這兩篇文章分別介紹的是卡羅拉和軒逸,查詢小明和 這兩篇文章的路徑:
g.V(xiaoming).repeat(out().simplePath()).until(or(has("car",'name', 'kaluola'),has("car", 'name','xuanyi'))).path().by("name")
輸出
==>path[xiaoming, around 10w, kaluola]
==>path[xiaoming, around 10w, xuanyi]
發現小明和這兩篇文章之間有個節點“10萬左右”
三、知識圖譜在推薦的應用
知識圖譜中存在大量的非歐式數據,基于KG的推薦應用有效利用非歐式數據提升推薦系統準確度,進而讓推薦系統能達到傳統系統所無法達到的效果?;贙G的推薦可以分成以三類,基于KG表征技術(KGE)、基于路徑的方法、圖神經網絡。本章將從KG在推薦系統中冷啟、理由、排序三方面的應用和論文進行介紹。
3.1 知識圖譜在推薦冷啟動的應用
知識圖譜能夠從user-item交互中建模KG中隱藏的高階關系,很好地解決了因用戶調用有限數量的行為而導致的數據稀疏性,進而可以應用在解決冷啟動問題。這一問題業界也有相關研究。
Sang 等[6]提出了一種雙通道神經交互方法,稱為知識圖增強的殘差遞歸神經協同過濾(KGNCF-RRN),該方法利用KG上下文的長期關系依賴性和用戶項交互進行推薦。
(1)對于KG上下文交互通道,提出了殘差遞歸網絡(RRN)來構造基于上下文的路徑嵌入,將殘差學習融入傳統的遞歸神經網絡(RNN)中,以有效地編碼KG的長期關系依賴。然后將自關注網絡應用于路徑嵌入,以捕獲各種用戶交互行為的多義。
(2)對于用戶項目交互通道,用戶和項目嵌入被輸入到新設計的二維交互圖中。
(3)最后,在雙通道神經交互矩陣之上,使用卷積神經網絡來學習用戶和項目之間的復雜相關性。該方法能捕捉豐富的語義信息,還能捕捉用戶與項目之間復雜的隱含關系,用于推薦。
Du Y等[7]提出了一種新的基于元學習框架的冷啟問題解決方案MetaKG,包括collaborative-aware meta learner和knowledge-aware meta learner,捕捉用戶的偏好和實體冷啟動知識。collaborative-aware meta learner學習任務旨在聚合每個用戶的偏好知識表示。相反,knowledge-aware meta learner學習任務要在全局泛化不同的用戶偏好知識表示。在兩個learner的指導下,MetaKG可以有效地捕捉到高階的協作關系關系和語義表示,可以輕松適應冷啟動場景。此外,作者還設計了一種自適應任務,可以自適應地選擇KG信息進行學習,以防止模型被噪聲信息干擾。MetaKG架構如下圖所示。
3.2 知識圖譜在推薦理由生成的應用
推薦理由能提高推薦系統的可解釋性,讓用戶理解生成推薦結果的計算過程,同時也可以解釋item受歡迎的原因。用戶通過推薦理由了解推薦結果的產生原理,可以增強用戶對系統推薦結果的信心,并且在推薦失誤的情況下對錯誤結果更加寬容。
最早可解釋推薦是以模板為主,模板的好處是保證了可讀性和高準確率。但是需要人工整理模板,并且泛華性不強,給人一種重復的感覺。后來發展不需要預設的free-form形式,并且加以知識圖譜,以其中的一條路徑作為解釋,配合標注還有一些結合KG路徑的生成式的方法,模型中選擇的每個點或邊都是一個推理過程,可以向用戶展示。最近Chen Z [8]等人提出一種增量多任務學習框架ECR,可以實現推薦預測、解釋生成和用戶反饋集成之間的緊密協作。它由兩大部分組成。第一部分,增量交叉知識建模,學習推薦任務和解釋任務中轉移的交叉知識,并說明如何使用交叉知識通過使用增量學習進行更新。第二部分,增量多任務預測,闡述如何基于交叉知識生成解釋,以及如何根據交叉知識和用戶反饋預測推薦分數。
3.3 知識圖譜在推薦排序的應用
KG可以通過給item用不同的屬性進行鏈接,建立user-item之間interaction,將uesr-item graph和KG結合成一張大圖,可以捕獲item間的高階聯系。傳統的推薦方法是將問題建模為一個監督學習任務,這種方式會忽略item之間的內在聯系(例如凱美瑞和雅閣的競品關系),并且無法從user行為中獲取協同信號。下面介紹兩篇KG應用在推薦排序的論文。
Wang[9]等人設計了KGAT算法,首先利用GNN迭代對embedding進行傳播、更新,從而能夠在快速捕捉高階聯系;其次,在aggregation時使用attention機制,傳播過程中學習到每個neighbor的weight,反應高階聯系的重要程度;最后,通過N階傳播更新得到user-item的N個隱式表示,不同layer表示不同階數的連接信息。KGAT可以捕捉更豐富、不特定的高階聯系。
Zhang[20]等人提出RippleNet模型,其關鍵思想是興趣傳播:RippleNet將用戶的歷史興趣作為KG中的種子集合(seed set),然后沿著KG的連接向外擴展用戶興趣,形成用戶在KG上的興趣分布。RippleNet最大的優勢在于它可以自動地挖掘從用戶歷史點擊過的物品到候選物品的可能路徑,不需要任何人工設計元路徑或元圖。
RippleNet將用戶U和項目V作為輸入,并輸出用戶U單擊項目V的預測概率。對于用戶U,將其歷史興趣V_{u}作為種子,在圖中可以看到最初的起點是兩個,之后不斷向周圍擴散。給定itemV和用戶U的1跳ripple集合V_{u_{}^{1}}中的每個三元組\left( h_{i},r_{i},t_{i}\right),通過比較V與三元組中的節點h_{i}和關系r_{i}分配相關概率。
在得到相關概率后,將V_{u_{}^{1}}中三元組的尾部乘以相應的相關概率進行加權求和,得到用戶U的歷史興趣關于V的一階響應,用戶興趣由V_{u}轉移到o_{u}^{1},可以計算得到o_{u}^{2}、o_{u}^{3}...o_{u}^{n},進而計算得到U關于item V的特征可以被計算為融合他的所有階數響應。
四、總結
綜上,我們主要圍繞推薦,介紹了圖譜構建詳細流程,對其中的困難和挑戰做出了分析。同時也綜述了很多重要的工作,以及給出了具體的解決方案,思路以及建議。最后介紹了包括知識圖譜的應用,特別在推薦領域中冷起、可解釋性、召回排序介紹了知識圖譜的作用與使用。
引用:
[1] Kim S,Oh S G.Extracting and Applying Evaluation Criteria for Ontology Quality Assessment[J].Library Hi Tech,2019.
[2]Protege: ??https://protegewiki.stanford.edu??
[3] Ding S , Shang J , Wang S , et al. ERNIE-DOC: The Retrospective Long-Document Modeling Transformer[J]. 2020.
[4]DocBert,[1] Adhikari A , Ram A , Tang R ,et al. DocBERT: BERT for Document Classification[J]. 2019.
[5]JanusGraph,??https://docs.janusgraph.org/??
[6] Sang L, Xu M, Qian S, et al. Knowledge graph enhanced neural collaborative filtering with residual recurrent network[J]. Neurocomputing, 2021, 454: 417-429.
[7] Du Y , Zhu X , Chen L , et al. MetaKG: Meta-learning on Knowledge Graph for Cold-start Recommendation[J]. arXiv e-prints, 2022.
[8] Chen Z , Wang X , Xie X , et al. Towards Explainable Conversational Recommendation[C]// Twenty-Ninth International Joint Conference on Artificial Intelligence and Seventeenth Pacific Rim International Conference on Artificial Intelligence {IJCAI-PRICAI-20. 2020.
[9] Wang X , He X , Cao Y , et al. KGAT: Knowledge Graph Attention Network for Recommendation[J]. ACM, 2019.
[10]Wang H , Zhang F , Wang J , et al. RippleNet: Propagating User Preferences on the Knowledge Graph for Recommender Systems[J]. ACM, 2018.