人工智能和知識(shí)圖譜七:知識(shí)圖譜在人工智能系統(tǒng)中的優(yōu)勢(shì)
知識(shí)圖譜融入 AI 解決方案后,將帶來(lái)諸多優(yōu)勢(shì)。這些優(yōu)勢(shì)涵蓋互操作性、查詢(xún)功能等技術(shù)改進(jìn)以及可解釋性、可信度、減少開(kāi)發(fā)工作量等更高層次的關(guān)注點(diǎn)。本文概述了知識(shí)圖譜的主要優(yōu)勢(shì),以及它如何補(bǔ)充機(jī)器學(xué)習(xí)模型,助力打造更值得信賴(lài)的 AI。
數(shù)據(jù)互操作性和集成:知識(shí)圖譜 (KG) 的優(yōu)勢(shì)在于通過(guò)提供通用語(yǔ)義層來(lái)統(tǒng)一來(lái)自不同來(lái)源的數(shù)據(jù)。使用共享標(biāo)識(shí)符和本體,知識(shí)圖譜可以連接以前孤立的數(shù)據(jù)——例如,將 CRM 中的客戶(hù)資料與其在財(cái)務(wù)系統(tǒng)中的交易以及其在服務(wù)臺(tái)的支持工單關(guān)聯(lián)起來(lái)。互操作性源于遵循標(biāo)準(zhǔn)(例如 RDF、schema.org 或領(lǐng)域本體)并使用全局標(biāo)識(shí)符(例如 RDF 中的 URL 或 IRI),從而使不同的數(shù)據(jù)集“使用同一種語(yǔ)言”。這意味著,只要?jiǎng)?chuàng)建到本體的映射,就可以以相對(duì)較低的摩擦將新的數(shù)據(jù)源插入到知識(shí)圖譜中。其好處是,組織可以全面查詢(xún)所有數(shù)據(jù),而無(wú)需手動(dòng)關(guān)聯(lián)數(shù)據(jù)庫(kù)之間的 ID。它有助于對(duì)核心業(yè)務(wù)實(shí)體(客戶(hù)、產(chǎn)品等)進(jìn)行全方位的了解。由于許多知識(shí)圖譜使用 Web 標(biāo)準(zhǔn),集成甚至延伸到組織外部——鏈接到 Wikidata 等外部知識(shí)圖譜以獲取更多上下文,或通過(guò)共享詞匯表鏈接到合作伙伴數(shù)據(jù)。本質(zhì)上,知識(shí)圖譜充當(dāng)數(shù)據(jù)結(jié)構(gòu)或語(yǔ)義數(shù)據(jù)湖,其中所有內(nèi)容都相互連接且可發(fā)現(xiàn)。這大大減少了在開(kāi)發(fā) AI 模型或進(jìn)行分析時(shí)花費(fèi)在數(shù)據(jù)整理上的時(shí)間,因?yàn)殛P(guān)系已預(yù)先集成在知識(shí)圖譜中。正如艾倫·圖靈研究所所言,知識(shí)圖譜“方便訪問(wèn)和集成數(shù)據(jù)源”。
富有表現(xiàn)力且靈活的查詢(xún):與受限于預(yù)定義表連接的關(guān)系數(shù)據(jù)庫(kù)不同,知識(shí)圖譜支持復(fù)雜且臨時(shí)的查詢(xún),這些查詢(xún)反映了人類(lèi)對(duì)關(guān)系的思考方式。想要找到像“過(guò)去兩年內(nèi)涉及召回的零件供應(yīng)商”或“通過(guò)第三方間接合作的作者”這樣的模式嗎?在知識(shí)圖譜中,這些多跳、有時(shí)模式靈活的查詢(xún)通常可以用單個(gè) SPARQL 或 Cypher 查詢(xún)來(lái)表達(dá)。這種任意遍歷且不需要嚴(yán)格模式對(duì)齊的能力是一大優(yōu)勢(shì)。圖查詢(xún)可以遵循未知長(zhǎng)度的路徑,處理可選關(guān)系,并且可以輕松地融入本體推理,例如,包含查詢(xún)要求“車(chē)輛”的結(jié)果,而知識(shí)圖譜可以返回轎車(chē)、卡車(chē)等,因?yàn)橹浪鼈兪擒?chē)輛的子類(lèi)。因此,分析師和人工智能系統(tǒng)可以提出更豐富的問(wèn)題。例如,推薦引擎可以查詢(xún)“給我這個(gè)用戶(hù)的朋友的朋友,他們喜歡 X 類(lèi)別的產(chǎn)品”,以獲得更廣泛的推薦基礎(chǔ)。或者,分析師可以查詢(xún)文獻(xiàn)知識(shí)圖譜“查找引用了與主題 B 論文共同的論文的主題 A 的論文”,以識(shí)別跨學(xué)科影響。因此,知識(shí)圖譜充當(dāng)強(qiáng)大的可查詢(xún)知識(shí)庫(kù),通常支持全文搜索或與語(yǔ)義條件集成的地理空間查詢(xún)等功能。靈活性還意味著數(shù)據(jù)模型可以在沒(méi)有痛苦的模式遷移的情況下發(fā)展——可以在不破壞現(xiàn)有查詢(xún)的情況下將新的實(shí)體類(lèi)型或關(guān)系添加到圖譜中,這在動(dòng)態(tài)環(huán)境中非常重要。傳統(tǒng)數(shù)據(jù)庫(kù)在這里舉步維艱,而知識(shí)圖譜則能優(yōu)雅地適應(yīng)。
可解釋性和透明度:知識(shí)圖譜 (KG) 的一大優(yōu)勢(shì)在于它能夠增強(qiáng) AI 的可解釋性。當(dāng) AI 系統(tǒng)使用知識(shí)圖譜時(shí),它可以將其輸出追溯到該圖譜中的特定事實(shí)和路徑。這意味著決策可以用人類(lèi)可理解的術(shù)語(yǔ)來(lái)解釋?zhuān)瑓⒖棘F(xiàn)實(shí)世界的實(shí)體和關(guān)系,而不是晦澀難懂的模型權(quán)重。例如,假設(shè)一個(gè) AI 推薦一種治療方法——如果它由知識(shí)圖譜支持,它可能會(huì)給出這樣的結(jié)論:“推薦治療方法 X,因?yàn)榛颊呋加胁∏?Y,并且根據(jù)指南 Z,治療方法 X 適用于 Y,并且有證據(jù)表明該方法對(duì)具有生物標(biāo)志物 W 的患者有效”——這些部分(病情、指南、生物標(biāo)志物)都是知識(shí)圖譜中通過(guò)已知關(guān)系連接起來(lái)的節(jié)點(diǎn)。這種可檢查性對(duì)于信任至關(guān)重要:用戶(hù)和利益相關(guān)者可以審核 AI 是如何得出結(jié)論的 。
福布斯科技委員會(huì)指出,知識(shí)圖譜將成為使 AI 系統(tǒng)更易于解釋、更易于審核并最終更易于控制的關(guān)鍵要素。此外,知識(shí)圖譜 (KG) 提供出處信息 (Progression),由于每個(gè)事實(shí)都可以鏈接到一個(gè)來(lái)源或證據(jù)節(jié)點(diǎn),人工智能的斷言可以追溯到原始數(shù)據(jù)或參考文獻(xiàn),從而滿(mǎn)足受監(jiān)管行業(yè)對(duì)信息來(lái)源的了解需求。在知識(shí)圖譜中,出處可能是一條類(lèi)似于“assertedInStudy”的邊,將某個(gè)聲明鏈接到某個(gè)出版物的 DOI。這在一定程度上增強(qiáng)了人工智能的可信度和可問(wèn)責(zé)性——如果結(jié)果錯(cuò)誤,人們可以排查是哪部分知識(shí)導(dǎo)致了錯(cuò)誤,可能是知識(shí)圖譜中某個(gè)過(guò)時(shí)或有偏見(jiàn)的事實(shí)。對(duì)于黑盒機(jī)器學(xué)習(xí)來(lái)說(shuō),這要困難得多。因此,知識(shí)圖譜通過(guò)明確推理鏈,為值得信賴(lài)的人工智能做出了貢獻(xiàn)。正如一位消息人士所強(qiáng)調(diào)的那樣,知識(shí)圖譜使人工智能的輸出對(duì)每個(gè)人都透明且易于解釋?zhuān)脩?hù)無(wú)需擁有機(jī)器學(xué)習(xí)博士學(xué)位即可理解答案的來(lái)源。
減少對(duì)訓(xùn)練數(shù)據(jù)的需求(小樣本學(xué)習(xí)):機(jī)器學(xué)習(xí)模型,尤其是深度學(xué)習(xí),通常需要大量的帶標(biāo)簽數(shù)據(jù)。然而,知識(shí)圖譜編碼了一般知識(shí),可以幫助模型用更少的樣本執(zhí)行任務(wù)。這是因?yàn)槟P涂梢砸蕾?lài)知識(shí)圖譜獲取事實(shí)或常識(shí)性信息,而不是從訓(xùn)練數(shù)據(jù)中的模式中學(xué)習(xí)。例如,如果聊天機(jī)器人在被問(wèn)到某個(gè)事實(shí)時(shí)可以直接向知識(shí)圖譜查詢(xún),那么它可能不需要數(shù)百個(gè)關(guān)于該事實(shí)的示例。在計(jì)算機(jī)視覺(jué)領(lǐng)域,概念知識(shí)圖譜可以幫助進(jìn)行零樣本分類(lèi):例如,如果一個(gè)模型從未見(jiàn)過(guò)“霍加狓”,但通過(guò)知識(shí)圖譜知道霍加狓是一種有斑馬條紋的有蹄類(lèi)動(dòng)物,那么它可以推斷出它的某些屬性并通過(guò)相關(guān)特征識(shí)別它。在自然語(yǔ)言處理(NLP)領(lǐng)域,通過(guò)注入知識(shí)圖譜事實(shí),而不是寄希望于答案出現(xiàn)在訓(xùn)練文本中,問(wèn)答等任務(wù)的性能得到了顯著提升。艾倫·圖靈研究所指出,知識(shí)圖譜減少了對(duì)大型帶標(biāo)簽數(shù)據(jù)集的需求,并促進(jìn)了遷移學(xué)習(xí) 。本質(zhì)上,知識(shí)圖譜提供了一種背景知識(shí),模型無(wú)需從數(shù)據(jù)中學(xué)習(xí),從而提高了數(shù)據(jù)效率。尤其是在醫(yī)療、法律等標(biāo)注數(shù)據(jù)稀缺的專(zhuān)業(yè)領(lǐng)域,擁有專(zhuān)家構(gòu)建的知識(shí)圖譜可以彌補(bǔ)這一缺口,使模型能夠在有限的微調(diào)下運(yùn)行。這對(duì)于規(guī)模較小的組織或資源匱乏的環(huán)境來(lái)說(shuō)是一個(gè)好處,因?yàn)樵谶@些環(huán)境中,收集大數(shù)據(jù)是不可行的——他們可以利用現(xiàn)有的知識(shí)圖譜(例如維基數(shù)據(jù)或領(lǐng)域本體)來(lái)增強(qiáng)人工智能系統(tǒng)。
符號(hào) AI 與統(tǒng)計(jì) AI 的結(jié)合:知識(shí)圖譜提供了一條通往神經(jīng)符號(hào) AI的途徑,將符號(hào)推理(精確、基于邏輯)與統(tǒng)計(jì)學(xué)習(xí)(數(shù)據(jù)驅(qū)動(dòng)、概率)相結(jié)合。其優(yōu)勢(shì)在于兼顧兩全其美:符號(hào)系統(tǒng)的穩(wěn)健性和先驗(yàn)知識(shí),以及統(tǒng)計(jì)系統(tǒng)的靈活性和模式識(shí)別能力。例如,AI 助手可以使用神經(jīng)網(wǎng)絡(luò)將用戶(hù)的問(wèn)題解析為意圖,然后以符號(hào)方式使用知識(shí)圖譜來(lái)實(shí)現(xiàn)該意圖(通過(guò)邏輯檢索答案或基于事實(shí)進(jìn)行推理)。這種結(jié)合可以減少幻覺(jué),因?yàn)橹R(shí)圖譜充當(dāng)了事實(shí)核查或?qū)φ嫦嗟挠灿洃洝J聦?shí)上,最近的研究正在使用知識(shí)圖譜來(lái)緩解大型語(yǔ)言模型 (LLM) 的幻覺(jué),方法是強(qiáng)制模型將其響應(yīng)的某些部分基于檢索到的知識(shí)圖譜事實(shí)。另一方面,機(jī)器學(xué)習(xí)可以通過(guò)鏈接預(yù)測(cè)或自然語(yǔ)言處理 (NLP) 提取來(lái)填補(bǔ)知識(shí)圖譜中的空白,從而解決知識(shí)圖譜的不完整性問(wèn)題。這種協(xié)同作用意味著更強(qiáng)大的人工智能:一篇2025年的系統(tǒng)綜述指出,知識(shí)圖譜和大語(yǔ)言模型“對(duì)于提升人工智能的理解、推理和語(yǔ)言處理能力至關(guān)重要”,并強(qiáng)調(diào)了這種相互作用。因此,知識(shí)圖譜通過(guò)提供機(jī)器學(xué)習(xí)所缺乏的——顯性知識(shí)、一致性和推理能力——來(lái)補(bǔ)充機(jī)器學(xué)習(xí),從而使整個(gè)系統(tǒng)更加高效和可信。正因如此,科技公司紛紛投資于這樣的系統(tǒng):知識(shí)圖譜可以生成候選答案,機(jī)器學(xué)習(xí)模型對(duì)其進(jìn)行排序;或者機(jī)器學(xué)習(xí)生成假設(shè),知識(shí)圖譜對(duì)其進(jìn)行驗(yàn)證。
復(fù)雜查詢(xún)支持與推理:知識(shí)圖譜 (KG) 能夠執(zhí)行復(fù)雜的查詢(xún)和推理,而這些查詢(xún)和推理對(duì)于關(guān)系數(shù)據(jù)庫(kù)或純機(jī)器學(xué)習(xí) (ML) 來(lái)說(shuō)極其困難。例如,語(yǔ)義推理:從“大張是小張的姐姐”和“小張是張明的父親”,知識(shí)圖譜推理器可以通過(guò)本體規(guī)則自動(dòng)推斷出“大張是張明的阿姨”。這種推斷新知識(shí)的能力是一個(gè)巨大的優(yōu)勢(shì)——圖譜不僅僅包含給定的事實(shí),還可以擴(kuò)展到隱含的事實(shí),從而豐富 AI 可用的知識(shí)。它還能確保一致性——如果本體論認(rèn)為沒(méi)有人可以有兩個(gè)出生日期,那么知識(shí)圖譜推理器可以檢測(cè)到機(jī)器學(xué)習(xí)模型無(wú)法察覺(jué)的矛盾之處。對(duì)于法律或醫(yī)學(xué)等行業(yè)而言,這種邏輯一致的推理至關(guān)重要。知識(shí)圖譜允許以正式的方式對(duì)約束和業(yè)務(wù)規(guī)則進(jìn)行編碼,確保 AI 決策遵守這些規(guī)則。例如,貸款審批人工智能可能會(huì)使用知識(shí)圖譜 (KG) 來(lái)確保其不違反監(jiān)管規(guī)則(規(guī)則編碼在本體或規(guī)則庫(kù)中,任何違反規(guī)則的決策路徑都會(huì)被推理器標(biāo)記)。因此,知識(shí)圖譜在人工智能治理中發(fā)揮著作用:通過(guò)將策略和領(lǐng)域知識(shí)注入決策過(guò)程,它們有助于避免不可接受的結(jié)果(例如,醫(yī)療人工智能建議一種明顯禁忌的治療方法——如果知識(shí)圖譜了解藥物相互作用,人工智能就可以避免這種情況)。
與外部知識(shí)和生態(tài)系統(tǒng)的互操作性:許多知識(shí)圖譜鏈接到常用詞匯和數(shù)據(jù)集(例如,schema.org、維基數(shù)據(jù)、地名)。通過(guò)利用這些知識(shí)圖譜,組織的知識(shí)圖譜可以無(wú)縫集成外部知識(shí)。例如,電商知識(shí)圖譜可以將其產(chǎn)品鏈接到維基數(shù)據(jù)實(shí)體以獲取豐富的描述,或鏈接到谷歌知識(shí)圖譜進(jìn)行常見(jiàn)實(shí)體識(shí)別。這種利用全球知識(shí)生態(tài)系統(tǒng)(鏈接開(kāi)放數(shù)據(jù)云)的能力是知識(shí)圖譜的獨(dú)特之處——將外部數(shù)據(jù)整合并集成到定制的機(jī)器學(xué)習(xí)模型中要困難得多。這為人工智能應(yīng)用提供了豐富的上下文,而無(wú)需手動(dòng)收集所有信息。
值得信賴(lài)且負(fù)責(zé)任的人工智能:知識(shí)圖譜對(duì)提高人工智能系統(tǒng)的可信度做出了巨大貢獻(xiàn)。它們通過(guò)以下方式實(shí)現(xiàn):
通過(guò)已驗(yàn)證的事實(shí)提供準(zhǔn)確性,人工智能不需要猜測(cè)它不知道的事實(shí),它可以在知識(shí)圖譜中查找它們。
確保所描述的透明度和可解釋性,建立用戶(hù)信任。
偏差緩解:雖然知識(shí)圖譜可能帶有數(shù)據(jù)偏差,但它們也提供了檢測(cè)和緩解偏差的方法,通過(guò)明確表示人口統(tǒng)計(jì)屬性和關(guān)系,從而能夠分析不公平的聯(lián)系。例如,您可以查詢(xún)知識(shí)圖譜,看看某些分類(lèi)是否與受保護(hù)的屬性相關(guān),這在神經(jīng)網(wǎng)絡(luò)內(nèi)部比較棘手。研究人員正在研究知識(shí)圖譜來(lái)識(shí)別人工智能模型中的偏差,例如,在自然語(yǔ)言處理模型中,用一個(gè)包含概念的知識(shí)圖譜來(lái)查找某些性別是否與某些職業(yè)相關(guān)聯(lián),然后消除偏差。
安全性與合規(guī)性:知識(shí)圖譜 (KG) 可以編碼 AI 系統(tǒng)必須遵循的規(guī)則(道德約束、法規(guī)遵從性),有效地充當(dāng)護(hù)欄。這是一種主動(dòng)的方式,可以確保 AI 不會(huì)輸出或做出違反已知約束的決策。一位 Neo4j 總經(jīng)理寫(xiě)道,圖數(shù)據(jù)庫(kù)和知識(shí)圖譜是增強(qiáng) AI 解決方案的關(guān)鍵數(shù)據(jù)元素,能夠提高準(zhǔn)確性、透明度和可解釋性。它們?yōu)闄C(jī)器智能“打下基礎(chǔ)”,使其能夠大規(guī)模地模擬人類(lèi)推理,而不是像一個(gè)不受約束的黑匣子一樣運(yùn)作。
增強(qiáng)的機(jī)器學(xué)習(xí)特征和上下文:知識(shí)圖譜的另一個(gè)實(shí)用且重要的優(yōu)勢(shì)是,它可以作為機(jī)器學(xué)習(xí)的豐富特征庫(kù)。知識(shí)圖譜中的實(shí)體具有眾多屬性和關(guān)系,這些屬性和關(guān)系可以轉(zhuǎn)化為預(yù)測(cè)模型的特征。例如,在推薦機(jī)器學(xué)習(xí)模型中,從知識(shí)圖譜中獲取的特征(例如“hasGenre: Sci-Fi”或“與用戶(hù)最喜歡的電影分享演員”)可以顯著提高模型的準(zhǔn)確性,而不僅僅使用觀看歷史記錄。在自然語(yǔ)言處理 (NLP) 中,將基于知識(shí)圖譜的嵌入或關(guān)系(例如 WordNet 關(guān)系)融入模型,可以改進(jìn)詞義消歧和閱讀理解等任務(wù)。因此,知識(shí)圖譜通過(guò)信息豐富的特征補(bǔ)充了數(shù)據(jù)驅(qū)動(dòng)學(xué)習(xí),使學(xué)習(xí)更加高效且具有泛化能力。
總而言之,知識(shí)圖譜為人工智能帶來(lái)了意義和記憶。它們使數(shù)據(jù)集成更易于處理,查詢(xún)更強(qiáng)大,人工智能決策更易于理解,并使整個(gè)系統(tǒng)更符合人類(lèi)的知識(shí)和價(jià)值觀。它們并非取代機(jī)器學(xué)習(xí),而是增強(qiáng)了機(jī)器學(xué)習(xí):知識(shí)圖譜提供了知識(shí)的畫(huà)布,機(jī)器學(xué)習(xí)可以在其上進(jìn)行細(xì)致的推理和預(yù)測(cè)。它們共同作用,使人工智能不僅更智能,而且更安全,更符合人類(lèi)的期望。