人工智能和知識圖譜六:知識圖譜的行業用例
一、醫療保健與生命科學
在制藥和生物技術領域,知識圖譜正在加速藥物發現和再利用。這些知識圖譜將異構生物醫學數據整合到單一知識網絡中,比如基因、蛋白質、疾病、藥物、臨床試驗、文獻等。研究人員可以查詢或分析該圖譜,以發現不明顯的聯系,例如,與兩種看似不相關的疾病有關的基因可能暗示著共同的靶向途徑。
一個具體的案例是:阿斯利康建立了一個全面的生物醫學知識圖譜,將基因與疾病和化合物聯系起來,他們的科學家利用該圖譜預測新的藥物靶點并重新定位現有藥物。另一個例子是一家初創公司,它使用知識圖譜通過將癥狀、遺傳標記和已知的藥物機制聯系起來,尋找罕見疾病的候選藥物。其工作原理:知識圖譜通過將化合物與蛋白質靶點和已知效應聯系起來,從而實現靶點識別,因此 AI 算法可以確定優先研究的靶點。它們還支持藥物重新利用:通過映射藥物和疾病之間的關系,知識圖譜可以突出顯示與不同疾病的生物途徑相互作用的現有藥物,從而表明存在重新利用的機會 。
2023 年,生物醫學知識圖譜甚至已與人工智能相結合,以預測新的聯系:例如,人工智能可能會遍歷知識圖譜并假設藥物 X可能治療疾病 Y,因為路徑類似于 X -> 靶向酶 A -> 與疾病 Y 有關。《自然》雜志的一篇文章描述了一些案例研究,其中知識圖譜通過揭示這些隱藏的聯系來幫助發現治療乳腺癌和阿爾茨海默氏癥藥物的新用途。這樣做的好處是,研究人員不必從零開始或淹沒在數據中——知識圖譜會組織所有已知知識,以便人工智能或人類可以對其進行有效地查詢和推理。這可以更快地生成假設,并可以更明智地決定進行哪些實驗或試驗。有公司報告稱,使用知識圖譜幫助他們篩選出最有前景的候選藥物,速度比人工審查數千篇論文要快得多。另一個運營優勢是協作:這些知識圖譜通常作為單一事實來源,不同的專家(生物學家、化學家、數據科學家)可以貢獻和查詢,從而打破化學和臨床研究等部門之間的數據孤島。
此外,在醫療保健領域,醫院系統使用知識圖譜進行患者數據整合并提供護理建議。例如,知識圖譜可以將患者癥狀、實驗室結果、診斷和治療與醫學知識(指南、藥物相互作用)聯系起來。這可以為臨床決策支持系統提供支持,該系統可以為患者提供可能的診斷建議或標記危險的藥物相互作用。例如,梅奧診所嘗試使用知識圖譜將患者記錄與醫學本體相結合,以提高診斷準確性和個性化護理。例如:知識圖譜在 COVID-19 疫情中得到應用——將病毒基因、出版物和藥物數據庫聯系起來,以快速識別可能對該病毒有效的現有藥物(這發生在疫情初期,當時知識圖譜方法識別出了可重新利用的候選藥物)。關鍵在于:在醫療保健領域,知識圖譜 (KG) 提供了可解釋的 AI——例如,通過追蹤知識圖譜中的路徑(患者具有生物標志物 A -> 與疾病 B 相關 -> 可用藥物 C 治療)來解釋為什么建議患者使用某種藥物。這種透明度對于醫療決策至關重要,并能建立人們對 AI 建議的信任。
二、財務金融方面
金融機構處理著龐大的交易、賬戶、公司和個人網絡。知識圖譜可以自然地模擬這些網絡,使其非常適合檢測復雜的欺詐計劃、洗錢和風險評估。與傳統的基于規則的系統不同,傳統的基于規則的系統只能捕捉簡單的欺詐行為(同一張卡同時在兩個地方使用),而知識圖譜可以揭示微妙的、間接的模式——例如,一組表面上看似無關但實際上存在中間聯系(例如,共享地址或資金通過中間賬戶轉移)的賬戶,這些聯系表明存在欺詐團伙。案例研究:金融軟件公司Intuit使用圖數據庫 (TigerGraph) 打擊其支付網絡中的欺詐行為,發現了常規手段無法檢測到的欺詐用戶團伙。據報道,通過分析圖中的關系(例如,常見的設備 ID、IP 地址或收款人重疊),Intuit 識別出的欺詐行為增加了 20%,誤報率也降低了。同樣,PayPal和Mastercard也討論了基于圖的方法來識別欺詐團伙和合謀商家。
欺詐圖譜通常整合來自各種來源的數據:交易、客戶信息、商戶信息等,形成一個多實體、多關系的網絡。在這些知識圖譜上運行的社群檢測或鏈接分析等圖算法可以標記異常情況——例如,一組形成循環的交易是不尋常的(表明存在洗錢的分層),或者一群共享聯系方式的人可能是一個欺詐共謀團伙。其結果是,可以更早地發現復雜的欺詐行為并減少損失。ACM 通訊的一篇文章(2024)強調,圖數據庫使金融機構能夠捕捉傳統關系數據庫遺漏的隱藏模式,從而更快、更高效地檢測欺詐。其好處還在于減少了誤報——通過知識圖譜考慮上下文,系統可以更加精確。例如,基于知識圖譜的系統不會將單筆大額交易標記為欺詐,而是可能會發現發送方和接收方之間存在長期的業務關系(通過合約、共享董事會成員等在圖中建立聯系),從而避免誤報。另一方面,它可能會捕捉到一些看似正常,但在考慮具體情況后實際上卻很可疑的情況(例如,賬戶網絡之間進行的許多小額交易加起來金額很大——單獨來看不會觸發規則,但圖表會揭示出一個累積的方案)。銀行也使用知識圖譜來了解你的客戶(KYC)。以及風險評估,將公司所有權、制裁名單、新聞和交易關聯起來,以獲得客戶的整體風險評分。例如,如果新客戶的知識圖譜顯示與空殼公司或受制裁個人的聯系,銀行就可以進一步調查。這為運營帶來了便利——分析師無需手動拼湊來自各個數據庫的信息,知識圖譜 (KG) 會將這些信息整合在一起,通常還會使用可視化圖表探索工具來追蹤資金和所有權的流向。
三、電子商務和零售
像亞馬遜、eBay、沃爾瑪這樣的在線零售商經營著數百萬種產品,即使查詢與產品文本不完全匹配,也需要幫助顧客找到他們想要的東西。知識圖譜可以通過捕捉產品、類別和屬性之間的關系,極大地改善電子商務網站上的語義搜索。例如,知識圖譜可能知道“電視”是一種“電子產品”,并具有屏幕尺寸、分辨率、品牌等屬性。如果用戶搜索“三星 4K 50 英寸智能電視”,那么具有知識圖譜的語義搜索系統可以從結構化方面理解此查詢:品牌=三星,分辨率=4K,尺寸≈50 英寸,類別=電視(屬于電子產品)。這樣,即使產品的標簽略有不同,它也可以檢索到相關的產品(產品標題可能為“三星 50 英寸 4K LED 智能電視 - 型號 X”,如果單詞不同,純關鍵詞搜索可能無法正確排名)。知識圖譜 (KG) 提供了一個語義主干來映射同義詞和關系——例如,它知道“TV”和“television”是一樣的,“4K”表示最低分辨率,或者“blouse”是“shirt”的一種,所以查詢“red blouse”應該匹配歸類為襯衫的產品。構建產品、類別和屬性的知識圖譜對于實現直觀的搜索體驗至關重要,在這種體驗中,引擎可以理解意圖和上下文。亞馬遜的產品知識圖譜 (KG) 將從品牌關系到互補商品的所有內容聯系起來;沃爾瑪的 Polaris 搜索引擎通過產品分類的語義知識得到了改進。除了搜索之外,推薦系統還可以從知識圖譜中受益,因為它可以超越“購買 X 的人也購買了 Y”的范疇。有了知識圖譜,人們可以利用產品屬性甚至外部知識進行基于內容的推薦。例如,知識圖譜可以將一本書與其作者聯系起來,并與該作者的其他書籍或同一類型的書籍聯系起來,從而實現直觀的推薦(“既然你喜歡阿加莎·克里斯蒂的這本推理小說,這里還有其他推理小說及其作者”)。像 eBay 這樣的公司已經使用知識圖譜將產品數據與語義信息(例如,捕捉風格、模式和趨勢的時尚知識圖譜)鏈接起來,以增強推薦和瀏覽功能。知識圖譜還可以存儲客戶評論分析——例如,將產品 ID 與經常被稱贊或抱怨的方面聯系起來,然后根據用戶關心的方面推薦產品。
總而言之,對于電子商務而言,知識圖譜提高了可發現性和轉化率:它們通過理解查詢意圖更快地引導客戶找到合適的產品(從而降低挫敗感和跳出率),并通過更智能的推薦來增加追加銷售/交叉銷售(例如,推薦兼容的配件,因為知識圖譜知道哪些配件與某種電子產品型號搭配)。另一個好處是可解釋性:電子商務 KG 可以實現諸如“為什么向我推薦這個?”之類的功能,答案是“推薦這款相機,因為它是您查看過的相機的較新型號,并且分辨率更高”,直接從圖中的關系中繪制。
四、制造業和工業領域
制造商使用知識圖譜 (KG) 來建模設備、流程、材料和供應商之間的復雜關系。例如,語義數字孿生——博世和西門子已經討論過使用知識圖譜來創建富含語義數據(元數據、維護記錄、傳感器類型)的工廠資產的數字化表示。這些知識圖譜可以將物聯網數據與領域知識相集成:例如,將傳感器讀數與機器及其所在的部件、該部件的維護歷史記錄以及該部件的供應商關聯起來。其優勢在于故障排除和預測性維護——如果供應商 X 的某一批次組件出現故障,知識圖譜可以通過將故障事件與組件類型和供應商聯系起來,快速揭示該模式。另一個用例是供應鏈知識圖譜:像捷豹路虎這樣的公司(根據 TigerGraph 案例研究)構建了一個知識圖譜,通過映射數千個供應商、組件和車輛之間的關系來優化供應鏈。查詢此圖譜有助于回答“假設”問題,例如“如果 Y 地區的供應商 A 出現故障,哪些車型面臨風險,哪些替代供應商可以滿足需求?”。它提高了彈性和規劃能力。
五、能源與公用事業
能源公司使用知識圖譜 (KG) 來整合資產數據、網絡拓撲和實時傳感器數據。電網知識圖譜可以展現變電站、變壓器和線路的連接方式,以及它們的規格和當前負載。這有助于斷電管理:當故障傳感器跳閘時,知識圖譜查詢可以查找該組件下游的客戶以及可用的重新路由選項。在一個案例中,一家公用事業公司構建了一個知識圖譜,以統一來自地理信息系統 (GIS)、資產管理和氣象系統的數據,從而能夠更快地分析斷電原因和受影響的基礎設施。其優勢在于響應速度更快,并能更好地進行預測性維護調度(通過類似組件在特定條件下發生故障的模式來捕獲高風險組件)。
六、媒體和娛樂行業
流媒體服務和媒體公司經常使用知識圖譜來豐富內容元數據并驅動推薦。例如,Netflix 就以使用復雜的標記系統(可以看作是知識圖譜的一種形式,將電影與情緒、類型等屬性關聯起來)而聞名,它實現了超越簡單協同過濾的個性化推薦。同樣,Spotify 也收購了一些公司,構建了一個音樂知識圖譜,將藝術家、專輯、類型,甚至情緒或播客聯系起來,以增強音樂發現能力。這些知識圖譜捕捉了內容中豐富的關系:電影中的演員、導演的風格、電影之間的主題聯系等等。因此,如果用戶喜歡某部電影,知識圖譜可以幫助找到另一部具有共同關鍵元素(相同導演或相似情節主題)的電影,即使第二部電影歷史上從未被同一觀眾共同觀看過(通過內容相似性解決冷啟動問題)。
七、公共部門和知識管理
政府機構使用知識圖譜來鏈接跨部門數據(知識圖譜支撐著許多開放的政府數據門戶,將預算數據與結果關聯起來等等),并用于情報收集(例如,反恐機構將來自不同情報來源的人員、地點和事件關聯起來以識別威脅)。在這些高風險場景中,知識圖譜的可解釋性至關重要——分析師可以看到通往已識別威脅網絡的連接鏈,這使得它比黑盒機器學習輸出更可信。
八、教育與研究
像 Microsoft Academic Graph(現已停止服務,但它曾是一個涵蓋出版物、作者和機構的知識圖譜)或 OpenAlex 這樣的學術知識圖譜有助于發現研究聯系。大學也使用知識圖譜整合學生數據、課程設置、研究項目等,以獲得內部洞察。
在所有這些領域,知識圖譜的核心優勢在于提供基于上下文且具有關聯性的數據理解。其結果往往是改進決策:藥物研究人員能夠選擇更精準的目標,欺詐調查人員能夠發現更多欺詐行為,消費者能夠找到他們真正想要的產品(從而提高銷量),機器能夠在故障前得到修復(從而節省成本),等等。更重要的是,許多用例都表明,知識圖譜通常與其他人工智能/分析技術協同工作——它們提供結構化的支撐,使機器學習更加智能(例如機器學習模型的特征),并使結果易于人類解釋。正是這種互補性,使得知識圖譜日益成為構建智能自適應系統的行業工具包的重要組成部分。