成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

人工智能和知識圖譜三:知識圖譜系統(tǒng)的基準(zhǔn)與評估

人工智能
評估知識圖譜技術(shù)和算法需要標(biāo)準(zhǔn)化的基準(zhǔn)和指標(biāo),這些基準(zhǔn)和指標(biāo)長期以來不斷發(fā)展。本文概述了用作基準(zhǔn)的常見數(shù)據(jù)集、典型的評估指標(biāo),以及對知識圖譜進行基準(zhǔn)測試所面臨的挑戰(zhàn)。

一、通用基準(zhǔn)知識圖譜

一些大型知識庫已成為事實上的研究基準(zhǔn),通常用作鏈接預(yù)測、問答和實體分類等任務(wù)的數(shù)據(jù)來源。關(guān)鍵的基準(zhǔn)包括:

Freebase:一個巨大的通用領(lǐng)域圖譜,前身是谷歌收購的開放數(shù)據(jù)庫,包含數(shù)百萬個實體的事實。雖然 Freebase 本身已停止服務(wù),已遷移至 Wikidata,但它仍在基準(zhǔn)測試中繼續(xù)存在。值得注意的是,F(xiàn)reebase 的子集在機器學(xué)習(xí)評估中被廣泛使用——FB15k及其精煉版本FB15k-237是鏈接預(yù)測的常用基準(zhǔn)測試。它們包含 15,000 個實體和各種關(guān)系類型,這些關(guān)系類型的提取方式使得訓(xùn)練及測試集的拆分能夠避免某些數(shù)據(jù)泄露問題,F(xiàn)B15k-237 移除了逆關(guān)系,以確保評估公平。Freebase 也是常見問答基準(zhǔn)測試的基礎(chǔ),例如 WebQuestions 和 SimpleQuestions,這些基準(zhǔn)測試的任務(wù)是將自然語言問題映射到 Freebase 事實。然而,隨著 Freebase 的停用,社區(qū)正在逐漸遠離它。

DBpedia:一個早期且頗具影響力的知識圖譜,它提取自維基百科的信息框。DBpedia 代表維基百科實體的結(jié)構(gòu)化信息,長期以來一直是開放領(lǐng)域知識的首選來源。它常用于知識圖譜問答 (KGQA)基準(zhǔn)測試;例如,QALD(基于鏈接數(shù)據(jù)的問答)挑戰(zhàn)賽的前 9 屆都使用 DBpedia 作為基礎(chǔ)數(shù)據(jù)。DBpedia 覆蓋范圍廣泛,但已知存在一些噪聲提取,并且更新速度不如維基數(shù)據(jù)。研究人員過去曾使用 DBpedia 來評估 SPARQL 查詢性能和語義搜索系統(tǒng),以及對子集進行鏈接預(yù)測。

Wikidata:維基百科社區(qū)精心策劃的知識圖譜,已發(fā)展成為最大的開放式知識圖譜之一,截至 2025 年擁有超過 1 億個條目。Wikidata 支持多種語言,持續(xù)更新,涵蓋大量主題并提供參考。近年來,它已成為許多任務(wù)的首選基準(zhǔn),使用率超過了 DBpedia 和 Freebase。例如,知識圖譜問答 (KGQA) 社區(qū)已開始使用基于 Wikidata 的問答數(shù)據(jù)集(如 LC-QuAD 2.0、KGraph-QA 等),并將舊基準(zhǔn)從 DBpedia 遷移到 Wikidata。QALD-10 基準(zhǔn)(2023 年)從 DBpedia 遷移到 Wikidata,并指出由于圖結(jié)構(gòu)(如 Wikidata 對限定符的使用)和多語言方面的差異,遷移并非易事 。 Wikidata 也用于鏈接預(yù)測和知識圖譜補全任務(wù):像WN18RR(WordNet 和 Wikidata)或Wikidata5M這樣的子集提供了易于管理的評估切片。Wikidata 作為基準(zhǔn)的一個挑戰(zhàn)在于其復(fù)雜性——它是一個超關(guān)系圖(語句可以包含時間、位置、來源等限定詞),并且在長尾領(lǐng)域不完整,這可能會使評估變得復(fù)雜。

YAGO:最初結(jié)合了維基百科和WordNet的知識圖譜,旨在構(gòu)建結(jié)構(gòu)良好且精度高的本體。YAGO(Yet Another Great Ontology,又一個偉大的本體)擁有多個版本;YAGO3專注于多語言信息,并致力于提升分類學(xué)權(quán)重。它比Wikidata/DBpedia規(guī)模更小,但通常更簡潔。YAGO3-10是用于鏈接預(yù)測基準(zhǔn)測試的子集,以其大量的關(guān)系類型和相當(dāng)龐大的實體集而聞名。YAGO通常用于學(xué)術(shù)實驗,當(dāng)更符合本體的知識圖譜(KG)更有利時,它具有與WordNet一致的類型層次結(jié)構(gòu)。

WordNet:并非關(guān)于世界實體的知識圖譜,而是一個包含詞匯(名詞、動詞等)及其關(guān)系(同義詞、上位詞等)的詞匯語義網(wǎng)絡(luò)。它被用作知識圖譜的基準(zhǔn),尤其適用于鏈接預(yù)測,經(jīng)典的詞匯關(guān)系數(shù)據(jù)集WN18和WN18RR。WordNet 可用于測試基于分層小世界概念網(wǎng)絡(luò)的算法。

行業(yè)基準(zhǔn):除了這些開放的知識圖譜 (KG) 之外,某些領(lǐng)域也有自己的基準(zhǔn):例如,在醫(yī)療保健領(lǐng)域,UMLS或Hetionet等生物醫(yī)學(xué)知識圖譜被用作藥物研發(fā)或基因-疾病關(guān)聯(lián)預(yù)測等任務(wù)的基準(zhǔn)。開放生物鏈接 (OGB)計劃包含蛋白質(zhì)-藥物-疾病知識圖譜等圖譜。開放圖譜基準(zhǔn) (OGB)是一項近期成果,包含一些面向知識的圖譜任務(wù),例如ogbl-wikikg2,WikiKG 的一個子集,包含數(shù)百萬個用于關(guān)聯(lián)預(yù)測的節(jié)點和邊。這些標(biāo)準(zhǔn)化的劃分有助于比較在更大、更真實的圖譜上嵌入算法的優(yōu)劣。

二、評估指標(biāo)

評估方式取決于具體任務(wù)。常見指標(biāo)包括:

鏈接預(yù)測指標(biāo):對于像知識圖譜補全(預(yù)測缺失關(guān)系)這樣的任務(wù),排名指標(biāo)是標(biāo)準(zhǔn)的。這些指標(biāo)包括平均倒數(shù)排名 (MRR) ——第一個正確答案的倒數(shù)排名的平均值——以及Hits@N——正確實體在前 N 個預(yù)測中排名的測試查詢比例。例如,在 FB15k-237 上,一個算法可能達到 X% 的 Hits@10,這意味著它將正確的尾部實體放在前 10 個列表中的概率為 X%。對于基于排名的指標(biāo),例如平均排名或平均倒數(shù)排名(其中 MRR 越高越好),該指標(biāo)越低越好。由于知識圖譜對一個查詢可能有多個正確答案(例如,一個人可能有多個職業(yè)),因此使用過濾指標(biāo)(在排名評估中忽略其他正確答案)。這些指標(biāo)強調(diào)了嵌入或模型在預(yù)測合理邊方面的準(zhǔn)確性。

問答指標(biāo):對于 KGQA 基準(zhǔn)(其任務(wù)是針對自然問題返回一個或多個實體或值),評估通常使用準(zhǔn)確率、召回率和 F1(尤其是對于具有多個答案的列表問題)。例如,如果問題是“哪些演員主演了《盜夢空間》?”,則可能會根據(jù)系統(tǒng)是否返回所有正確的演員(真正例與假正例)來評估系統(tǒng)。QALD 和其他 QA 挑戰(zhàn)通常會測量每個查詢的 F1 分?jǐn)?shù)并取平均值。如果答案是自然語言,有些人會使用 BLEU 或 ROUGE,但對于結(jié)構(gòu)化答案,通常使用基于集合的準(zhǔn)確率/召回率。一個有趣的復(fù)雜之處:將問題映射到 SPARQL 查詢 - 在那里,通過執(zhí)行 SPARQL 并比較結(jié)果來衡量準(zhǔn)確率。語言理解的復(fù)雜性通常導(dǎo)致這里的分?jǐn)?shù)低于純鏈接預(yù)測。

本體對齊和模式匹配:在需要評估知識圖譜的模式或?qū)R情況(例如匹配兩個知識圖譜的本體)時,會使用諸如對齊對的準(zhǔn)確率/召回率或基于嵌入的評估等指標(biāo)。這是一個較為小眾的評估領(lǐng)域。

查詢性能指標(biāo):對于圖形數(shù)據(jù)庫,重要的評估方面不僅是準(zhǔn)確性,還有性能(尤其是對于工業(yè)界而言)。諸如 LDBC 社交網(wǎng)絡(luò)基準(zhǔn)測試(LDBC SNB)之類的基準(zhǔn)測試為圖形數(shù)據(jù)庫提供了查詢工作負載,以測試復(fù)雜圖形查詢的吞吐量和延遲。典型指標(biāo)包括各種負載下的每秒查詢次數(shù)、平均查詢延遲等。在語義網(wǎng)中,經(jīng)典指標(biāo)是BSBM(柏林 SPARQL 基準(zhǔn)測試)或LUBM(利哈伊大學(xué)基準(zhǔn)測試),它們生成合成數(shù)據(jù)和一套 SPARQL 查詢,以衡量三元組存儲回答查詢的速度(無論是否推理)。例如,LUBM 有關(guān)于大學(xué)的查詢,而三元組存儲的衡量標(biāo)準(zhǔn)是它們可以加載多少個三元組以及它們回答這些查詢的速度。這些指標(biāo)對于擴展考慮至關(guān)重要 - 例如,一個系統(tǒng)在簡單查找中可能處理 1000 QPS,但在具有多個連接的繁重分析查詢中只能處理 5 QPS。

知識圖譜的準(zhǔn)確性和完整性:除了模型性能之外,還可以討論知識圖譜內(nèi)容本身的準(zhǔn)確性(尤其是在自動構(gòu)建的情況下)。這通常通過精確度/召回率來衡量,并以黃金標(biāo)準(zhǔn)為準(zhǔn):例如,如果一個系統(tǒng)從文本中提取了一個知識圖譜,我們可能會手動或通過已知數(shù)據(jù)來計算提取出的關(guān)系中有多少是正確的(精確度),以及有多少已知的真實關(guān)系被遺漏了(召回率)。完整性是一個棘手的指標(biāo)——真正的知識圖譜是不完整的(并非所有真實事實都包含在內(nèi))。研究人員已經(jīng)提出了一些指標(biāo)或啟發(fā)式方法(例如,每種關(guān)系類型的完整性得分,例如,基于一個人在數(shù)據(jù)中與現(xiàn)實中平均有多少個配偶)。但完整性通常與領(lǐng)域相關(guān)。一些自動方法嘗試對其進行估計,例如使用 PSTAT 或其他統(tǒng)計估計來估計可能有多少缺失的鏈接。

推理/推理的質(zhì)量:評估推理器時,可以檢查其健全性和完備性(它是否能推斷出所有有效結(jié)論,且沒有任何錯誤)。在實踐中,這可以是驗證推理后的知識圖譜是否符合本體的預(yù)期蘊涵(可以在已知閉包的精選本體上進行測試)。

三、基準(zhǔn)測試中的挑戰(zhàn)

評估知識圖譜和基于 KG 的 AI 系統(tǒng)面臨著獨特的挑戰(zhàn):

固有的不完整性:現(xiàn)實世界的知識圖譜(例如 Wikidata)從來都不是完整的——總有更多事實存在。這意味著,對于鏈接預(yù)測之類的任務(wù),測試中的“假陰性”實際上可能是知識圖譜中缺失的真實事實。例如,一個模型可能預(yù)測某人贏得了某個獎項,但該獎項并未記錄在知識圖譜中;這可能是一個正確的事實,只是知識圖譜尚未更新。因此,傳統(tǒng)的指標(biāo)可能會產(chǎn)生誤導(dǎo)——模型可能會因為預(yù)測了某個真實但缺失的事實而受到懲罰。研究人員通過使用篩選指標(biāo)或?qū)W⒂谥R圖譜中精心策劃的部分來緩解這個問題,但這仍然是一個根本問題:封閉世界假設(shè)不成立——知識圖譜中缺少鏈接并不能證明其為假。

知識演進:像 Wikidata 這樣的知識圖譜 (KG) 瞬息萬變(新增實體、新增鏈接)。基準(zhǔn)快照很快就會過時。例如,如果在 Wikidata 上評估 QA,如果之后添加了新的事實,答案可能會發(fā)生變化。這增加了可重復(fù)性的難度,并且需要仔細控制數(shù)據(jù)集的版本。將基準(zhǔn)從一個知識圖譜版本遷移到另一個版本也需要大量人力(例如 QALD-10 遷移到 Wikidata的情況)。

模式與異構(gòu)性:不同的知識圖譜 (KG) 擁有不同的模式(或者根本沒有模式)。Freebase、Wikidata 和 DBpedia 等不同知識圖譜對知識的編碼方式也各不相同(一個人的配偶在其中一個知識圖譜中可能是直接鏈接,在另一個知識圖譜中可能是帶有限定詞的空白節(jié)點,等等)。這使得很難找到一個適用于所有知識圖譜的單一評估協(xié)議。即使將 QA 基準(zhǔn)從 DBpedia 遷移到 Wikidata,也會因為建模方式的差異(例如 Wikidata 的限定詞系統(tǒng))而面臨問題。確保一個系統(tǒng)不會因特定知識圖譜的特性而過擬合是一項挑戰(zhàn)。

“知識質(zhì)量”指標(biāo):量化知識圖譜本身的整體質(zhì)量并非易事。我們可以測量特定任務(wù)的查詢答案準(zhǔn)確性,但如何衡量知識圖譜 A 是否普遍優(yōu)于知識圖譜 B?質(zhì)量維度包括準(zhǔn)確性(錯誤事實較少)、完整性、一致性(無邏輯矛盾)和時效性(更新程度)。評估通常側(cè)重于某個部分——例如,取 500 個已知的真/假事實,看看哪個知識圖譜是正確的。但考慮到知識的廣度,這種抽樣可能不具代表性。

基準(zhǔn)測試落后于研究需求:研究人員有時會發(fā)現(xiàn),現(xiàn)有基準(zhǔn)測試未能捕捉到新興需求。例如,許多鏈接預(yù)測基準(zhǔn)測試被發(fā)現(xiàn)存在“測試泄漏”或過于簡單(例如 WN18 和 FB15k 存在冗余,導(dǎo)致它們可以通過簡單的方法解決)。這導(dǎo)致了基準(zhǔn)測試的修訂(WN18RR、FB15k-237)。同樣,早期的 QA 基準(zhǔn)測試大多包含簡單問題;較新的基準(zhǔn)測試則著眼于更復(fù)雜的查詢(多跳、聚合),以便更好地對系統(tǒng)進行壓力測試。創(chuàng)建優(yōu)秀的基準(zhǔn)測試是一項持續(xù)不斷的努力——例如, ISWC 2023 的LM-KBC 挑戰(zhàn)賽引入了語言模型必須協(xié)助知識庫構(gòu)建的任務(wù),反映了當(dāng)前的研究前沿。

集成評估:當(dāng)知識圖譜與機器學(xué)習(xí)集成時(例如,大型語言模型使用知識圖譜),我們?nèi)绾卧u估這個組合系統(tǒng)?除非經(jīng)過精心設(shè)計,否則傳統(tǒng)的指標(biāo)可能無法體現(xiàn)知識圖譜使用的優(yōu)勢。目前正在進行一些基準(zhǔn)測試,專門測試基于知識的生成(例如,大型語言模型+知識圖譜的系統(tǒng)是否比單獨的大型語言模型更能避免事實錯誤?)。這些基準(zhǔn)測試的設(shè)計很復(fù)雜,因為它們需要領(lǐng)域?qū)<襾砼袛嗾_性,而且如果考慮多個知識源,結(jié)果可能會比較主觀。

總而言之,雖然知識圖譜存在各種基準(zhǔn)測試(Freebase、DBpedia、Wikidata、YAGO 和特定領(lǐng)域基準(zhǔn)測試)和指標(biāo)(MRR、Hits@N、F1、查詢吞吐量等),但必須謹(jǐn)慎解讀結(jié)果。知識圖譜的不完整性和模式差異等因素可能會影響評估結(jié)果。目前正在持續(xù)完善基準(zhǔn)測試,例如,從靜態(tài)評估轉(zhuǎn)向動態(tài)評估,也就是測試系統(tǒng)隨著知識圖譜的增長而更新的能力,或納入可解釋性指標(biāo),也就是系統(tǒng)是否提供了來自知識圖譜的論證。隨著知識圖譜與人工智能的聯(lián)系日益緊密,評估也將越來越多地考慮端到端的影響:例如,衡量添加知識圖譜對人工智能應(yīng)用程序的實際性能或可信度的提升程度,這也可能涉及用戶研究以及技術(shù)指標(biāo)。

責(zé)任編輯:龐桂玉 來源: 數(shù)據(jù)智能驅(qū)動
相關(guān)推薦

2025-06-03 06:03:06

2025-06-09 03:00:00

人工智能AI知識圖譜

2025-06-06 01:00:00

AI人工智能知識圖譜

2025-06-09 09:10:26

2025-06-05 09:09:50

2025-06-05 02:00:00

人工智能知識圖譜AI

2025-06-03 06:14:37

2020-12-18 11:59:21

人工智能知識圖譜

2021-01-19 10:52:15

知識圖譜

2025-04-27 00:10:00

AI人工智能知識圖譜

2017-03-06 16:48:56

知識圖譜構(gòu)建存儲

2021-01-25 10:36:32

知識圖譜人工智能

2024-10-12 08:03:25

2017-04-13 11:48:05

NLP知識圖譜

2021-01-18 10:50:29

知識圖譜人工智能深度學(xué)習(xí)

2024-06-03 07:28:43

2017-10-11 15:00:44

2024-10-08 10:37:12

語言數(shù)據(jù)自然語言

2021-03-03 14:04:53

人工智能知識圖譜

2018-01-09 08:43:14

圖譜存儲系統(tǒng)
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 中文字幕国产视频 | 欧美精品一区二区免费 | 一级毛片免费看 | 蜜桃一区二区三区 | 国产高清精品一区二区三区 | 在线日韩精品视频 | 亚洲a一区二区 | 成人国产精品久久 | 中文字幕在线播放不卡 | 久久免费电影 | 国产精品乱码一区二区三区 | 久久精品欧美一区二区三区不卡 | 日韩一级黄色毛片 | 97精品久久| 午夜影院网站 | 中文字幕第5页 | 日韩在线视频免费观看 | 青青草原综合久久大伊人精品 | 欧美日韩在线观看一区 | 精品久久久久久 | 欧美久久不卡 | 国产精品久久性 | 久久久久免费观看 | 亚洲精品一区二区 | 精品国产成人 | 国产成人av一区二区三区 | 99热都是精品 | 成人教育av | 色婷婷综合久久久中字幕精品久久 | 黄色片网此 | 日韩一区二区在线视频 | 天天插天天狠天天透 | 欧美电影免费观看 | 精品久久香蕉国产线看观看亚洲 | 综合网中文字幕 | 国产乱人伦精品一区二区 | 久久a久久 | 亚洲精品久久久久中文字幕欢迎你 | 成人小视频在线观看 | 久久天天躁狠狠躁夜夜躁2014 | av黄色在线观看 |