談?wù)勅绾卫么硐到y(tǒng)構(gòu)建自演化知識圖譜
如今的數(shù)據(jù)領(lǐng)導(dǎo)者如同走鋼絲。一方面,他們面臨著現(xiàn)代化、創(chuàng)新和跟上未來發(fā)展的壓力。想想看,技術(shù)的發(fā)展速度遠超我們的預(yù)期。2024 年初的工作方式與我們現(xiàn)在的工作方式截然不同:從代碼和業(yè)務(wù)到日常瀏覽。而且,這種轉(zhuǎn)變不會放緩,技術(shù)本身更是如此。
另一方面,遺留系統(tǒng)、碎片化平臺以及各團隊競相將舊系統(tǒng)和流程與新世界相匹配等瓶頸問題也存在。
需求曲線越來越陡峭:更快的洞察、更深的互聯(lián)互通,以及刻不容緩的決策。延遲的余地正在縮小。人們對清晰度的期望很高。然而,就數(shù)據(jù)而言,情況并非“越多越好”。事實上,數(shù)據(jù)越多,往往越混亂!
我們需要找到與節(jié)拍相匹配的關(guān)鍵點
傳統(tǒng)數(shù)據(jù)庫就像預(yù)先定義的地圖,而圖數(shù)據(jù)庫則是動態(tài)網(wǎng)絡(luò),會隨著數(shù)據(jù)和問題的變化而增長和調(diào)整。因此,在當(dāng)今動態(tài)的數(shù)據(jù)格局中,對更靈活、更全面的數(shù)據(jù)模型的需求日益迫切。
進入圖形數(shù)據(jù)庫!
什么是圖形數(shù)據(jù)庫
圖形數(shù)據(jù)庫是指以節(jié)點、邊、關(guān)系和屬性的形式存儲和利用數(shù)據(jù)的集合或數(shù)據(jù)庫,而不是傳統(tǒng)的表格或文檔格式。
由于其管理數(shù)據(jù)內(nèi)關(guān)系的整體特性,它們可以單獨解決數(shù)據(jù)抽象和捕獲多維數(shù)據(jù)關(guān)系的挑戰(zhàn)。
簡單地將圖數(shù)據(jù)庫想象成一個電商平臺,其中產(chǎn)品、客戶和評論都是獨立的節(jié)點。每種關(guān)系都存儲為直接連接,例如客戶購買產(chǎn)品、評論產(chǎn)品,或者經(jīng)常一起購買的產(chǎn)品。
圖形數(shù)據(jù)庫中的元素
這意味著您可以輕松回答諸如“購買了 X 的顧客接下來會購買哪些產(chǎn)品? ”之類的問題。無需依賴跨多個表的復(fù)雜連接操作即可完成此操作。這種直接的關(guān)系表示方式可以更輕松地檢測購買模式并改進推薦,從而提供更加個性化的購物體驗。
圖形數(shù)據(jù)庫為何如此流行:對未解決的領(lǐng)域產(chǎn)生持久影響
各個垂直行業(yè)的建筑師、設(shè)計師或工程師等數(shù)據(jù)人物在搜索適合并能滿足目標(biāo)的數(shù)據(jù)時,面臨著傳統(tǒng)關(guān)系數(shù)據(jù)庫的挑戰(zhàn)。
想象一下,您正在閱讀一份包含多個個人數(shù)據(jù)點的文檔:身高、體重和職業(yè)。對于像追蹤身體指標(biāo)這樣的用例,您可以創(chuàng)建一個僅存儲身高和體重的表,而忽略職業(yè)等其他數(shù)據(jù),因為這些數(shù)據(jù)并非必需。
在關(guān)系數(shù)據(jù)庫中,這種抽象是僵化的、預(yù)定義的。模式僅支持身高和體重列;職業(yè)列在處理過程中會丟失。如果以后你想分析某人的職業(yè)與其健康狀況之間的關(guān)系,關(guān)系數(shù)據(jù)庫無法提供該上下文。
您必須返回原始文檔,提取數(shù)據(jù),并可能重新設(shè)計架構(gòu)以適應(yīng)這種新的關(guān)系。在這里,我們將問題歸結(jié)為兩大類。
數(shù)據(jù)抽象問題
傳統(tǒng)的關(guān)系數(shù)據(jù)庫會強制你將數(shù)據(jù)放入預(yù)定義的表中。這里發(fā)生的事情是:
您丟棄了不符合初始模式的有價值的上下文和關(guān)系。
這些數(shù)據(jù)庫通常需要固定的模式,當(dāng)出現(xiàn)新的數(shù)據(jù)關(guān)系時,很難進行調(diào)整。問題是什么?更新模式既耗時又容易出錯。
捕捉復(fù)雜、多維關(guān)系的問題
關(guān)系數(shù)據(jù)庫在處理具有多對多關(guān)系或復(fù)雜、相互關(guān)聯(lián)的實體(例如,社交網(wǎng)絡(luò)、推薦系統(tǒng)、供應(yīng)鏈關(guān)系)的數(shù)據(jù)時效率低下。
查詢變得緩慢而復(fù)雜,使得發(fā)現(xiàn)隱藏的連接變得具有挑戰(zhàn)性。
此外,傳統(tǒng)的關(guān)系數(shù)據(jù)庫專注于預(yù)定義用例的結(jié)構(gòu)化查詢,但不利于發(fā)現(xiàn)大型數(shù)據(jù)集之間關(guān)系(例如,查找看似不相關(guān)的數(shù)據(jù)之間的聯(lián)系)。
圖形數(shù)據(jù)庫如何工作
驅(qū)動圖形數(shù)據(jù)庫的三個基本元素是“節(jié)點”、“邊”和“屬性”。
節(jié)點是實體或?qū)ο蟆?/span>
邊是指節(jié)點之間的關(guān)系或連接。
屬性是存儲節(jié)點或邊的屬性的鍵值對。
將人際關(guān)系視為頭等公民。
但是如何做到呢?這些圖形數(shù)據(jù)庫通過捕獲數(shù)據(jù)點之間復(fù)雜的多維關(guān)系,超越了關(guān)系數(shù)據(jù)庫。
與傳統(tǒng)方法不同,圖形數(shù)據(jù)庫保存上下文和相關(guān)信息,即使這些信息與用例沒有直接關(guān)系。
在圖形數(shù)據(jù)庫中,關(guān)系被視為一等公民,這意味著它們是數(shù)據(jù)模型的基本組成部分,與數(shù)據(jù)實體(節(jié)點)本身同等重要。
顯式存儲。
在圖數(shù)據(jù)庫中,關(guān)系直接存儲為具有各自屬性(特性)、類型(標(biāo)簽)和方向信息的專用對象。與依賴外鍵和連接操作在查詢時推斷關(guān)系的關(guān)系數(shù)據(jù)庫不同,圖數(shù)據(jù)庫以物理方式存儲這些連接,從而實現(xiàn)快速、無索引的遍歷。
豐富的數(shù)據(jù)建模。
關(guān)系承載著元數(shù)據(jù),例如時間戳、權(quán)重或其他上下文信息,使其與其連接的節(jié)點一樣動態(tài)靈活。因此,這些關(guān)系不僅僅是簡單的鏈接,它允許復(fù)雜的多維交互(例如供應(yīng)鏈網(wǎng)絡(luò)或社交媒體中的交互)自然地建模,并隨著時間的推移而演變,而無需重構(gòu)整個模式。
通過數(shù)據(jù)連接優(yōu)化性能。
由于關(guān)系是圖結(jié)構(gòu)不可或缺的一部分,因此遍歷它們不需要昂貴的連接操作。“無索引鄰接”原則意味著每個節(jié)點都直接指向其連接的鄰居,從而確保即使是深度遞歸查詢也能高效執(zhí)行。
提高了可發(fā)現(xiàn)性和探索性。
傳統(tǒng)數(shù)據(jù)結(jié)構(gòu)會丟棄不符合當(dāng)前需求的數(shù)據(jù),而圖數(shù)據(jù)庫則能夠提供更靈活的分析方式,并提供發(fā)現(xiàn)驅(qū)動的分析能力。圖數(shù)據(jù)庫能夠探索隱藏的關(guān)系,而無需預(yù)先定義所有問題。這種方法能夠提供更深入的洞察,并開啟分析和發(fā)現(xiàn)領(lǐng)域的新用例。
將圖譜構(gòu)建為具有更好推理能力的自我演化知識系統(tǒng)
雖然圖譜有其諸多優(yōu)勢,但我們不應(yīng)將其局限于靜態(tài)和手動更新功能。企業(yè)最需要的是豐富圖譜的知識庫,以提升推理和解答能力。
正如人類大腦無法瞬間學(xué)會一切,它會逐層構(gòu)建知識,并隨著時間的推移不斷完善。圖譜在行業(yè)中的定位可以類似于人類的認知過程,成為一種不斷發(fā)展的系統(tǒng)。
傳統(tǒng)知識圖譜不會動態(tài)發(fā)展;它們通常需要手動更新或固定結(jié)構(gòu)。
因此,當(dāng)圖譜不斷豐富時,真正的力量就顯現(xiàn)出來,而這正是人工智能代理在模仿中發(fā)揮關(guān)鍵作用的地方,類似于人類大腦隨著時間的推移形成連接的方式。
AI 代理可以隨著時間的推移動態(tài)更新和優(yōu)化圖譜,使其更加智能,更有價值。在下一節(jié)中,我們將深入探討 AI 代理如何改進這些圖譜!
人工智能代理是增量知識豐富的關(guān)鍵
從技術(shù)角度來說,AI 代理不僅應(yīng)該查詢圖譜,還應(yīng)該主動豐富和更新圖譜。它們應(yīng)該自我完善,從而為應(yīng)用程序提供更深入的洞察。
例如,如果出現(xiàn)新的關(guān)系,代理應(yīng)該自動將其添加到圖譜中,而不是依賴于人工更新。
我們對人工智能代理有何期望?
為了使人工智能驅(qū)動的圖譜表示隨著時間的推移而增長,每次系統(tǒng)重新審視某個主題時,它都應(yīng)該 通過在以前沒有聯(lián)系的概念之間建立更多的聯(lián)系來增加深度。
這導(dǎo)致了一種自我強化的知識結(jié)構(gòu),其中的思想不會孤立存在,而是融入到更廣泛、相互關(guān)聯(lián)的理解網(wǎng)絡(luò)中。
深度=更好的情報和更準(zhǔn)確的反應(yīng)。
隨著數(shù)據(jù)量的增加,研究人員和技術(shù)開發(fā)人員不斷嘗試借助人工智能代理將這些知識系統(tǒng)轉(zhuǎn)變?yōu)椴粩喟l(fā)展的智能系統(tǒng)。
利用遞歸和自主擴展技術(shù)
把它想象成偵探追蹤線索:不只是一次反應(yīng),而是利用每條新線索進行更深入的探索,建立起最初并不明顯的聯(lián)系。這就是遞歸探索,而自主進行意味著它無需人工的微觀管理。
遞歸和自主擴展指的是圖譜不會僅僅通過添加一次事實而增長,而是隨著時間的推移而發(fā)展,通常通過以下方式:
- 做出多步驟決策來探索關(guān)系。
- 在現(xiàn)有概念之間尋找新的聯(lián)系。
- 隨著新數(shù)據(jù)的發(fā)現(xiàn)而自我更新。
因此,我們的愿景是構(gòu)建 Agentic 系統(tǒng),它不僅能處理圖譜,還能不斷改進知識庫。其中最有價值的技術(shù)之一是利用多跳推理和強化學(xué)習(xí)的能力。
知識圖譜本身就像一個連接數(shù)據(jù)庫,但人工智能代理可以在其基礎(chǔ)上進行推理,從而產(chǎn)生洞察。人工智能代理不僅檢索信息,還會通過多個步驟進行推理得出結(jié)論。多跳查詢使人工智能代理能夠沿著圖譜中的邏輯路徑進行推理,并綜合得出洞察。
傳統(tǒng)知識圖譜依賴于一次性預(yù)測(即,單步預(yù)測關(guān)系)。然而,基于強化學(xué)習(xí)的框架允許代理進行多跳查詢或順序決策,以發(fā)現(xiàn)新知識。
多模態(tài)理解
信息并非僅僅存在于結(jié)構(gòu)化文本或數(shù)據(jù)庫中,它還存在于圖像、視頻、音頻等多種形式中。為了充分豐富知識圖譜,智能體必須能夠解讀和整合來自多種模態(tài)的知識。
這需要能夠跨不同數(shù)據(jù)類型對齊語義表示,推理視覺或聽覺元素,并將它們與文本信息進行有意義的連接。最終的結(jié)果是一個更豐富、更全面的圖譜,能夠反映對世界的更廣泛理解。
時間感知圖推理
知識不會停滯不前。當(dāng)我們重新學(xué)習(xí)某些東西時,我們會在先前知識的基礎(chǔ)上不斷完善理解。我們的大腦遵循一個學(xué)習(xí)周期,同樣,知識圖譜也應(yīng)該更新。關(guān)系會發(fā)生變化,情境會發(fā)生變化,新的實體也會涌現(xiàn)。
為了體現(xiàn)這一點,代理必須基于隨時間演變的數(shù)據(jù)進行推理。用戶現(xiàn)在不僅知道現(xiàn)有事實,還知道該事實何時變?yōu)檎妫约罢嬷等绾坞S時間變化。時間推理對于代理將時間順序的一致性反映到知識圖譜中至關(guān)重要,確保推理與現(xiàn)實世界事件的進展保持一致。
AI代理通過以下方式不斷“重新學(xué)習(xí)”圖譜
當(dāng)新數(shù)據(jù)出現(xiàn)時添加新的關(guān)系,
隨著時間的推移刪除過時或薄弱的連接,或
加強經(jīng)常引用的聯(lián)系。
隨著時間的推移,這種漸進式改進過程會帶來更準(zhǔn)確的見解。
當(dāng)系統(tǒng)學(xué)會閱讀文本并自行發(fā)現(xiàn)關(guān)系時,一項重大突破就出現(xiàn)了。它們會從一些已知的示例入手,然后在大量文本中尋找相似的模式,以發(fā)現(xiàn)更多事實。有些系統(tǒng)甚至可以提出新的事實,并將其與在線信息進行核對,看看它們是否合理。
后來,人們構(gòu)建了更先進的系統(tǒng),可以掃描大量非結(jié)構(gòu)化文本,并提取簡單的、類似句子的事實。例如,“水在 100°C 時沸騰”。這些系統(tǒng)不依賴于預(yù)定義的模板,因此具有靈活性和可擴展性。
??挑戰(zhàn)?這些提取的事實仍然需要清理和組織,才能完全整合成一個有意義的圖譜。
這時,代理的角色就變得更加復(fù)雜了。它不僅能提取數(shù)據(jù),還能進行規(guī)范化、解決共指問題、刪除重復(fù)實體、與現(xiàn)有圖本體進行對齊,甚至判斷哪些事實值得整合。
在這里,推理起著核心作用。代理會問:
這個事實與我已經(jīng)知道的事情相沖突嗎?
我可以使用其他文本來源甚至其他形式(例如圖像或結(jié)構(gòu)化表格)來驗證它嗎?
我對這段關(guān)系有什么信心?它有用嗎?
只有這樣,事實才能在圖譜中占有一席之地。
那么現(xiàn)有的表怎么樣?它們能增加價值嗎?
結(jié)構(gòu)化數(shù)據(jù)可能是圖形智能的起點……
數(shù)據(jù)領(lǐng)域的現(xiàn)代組織已經(jīng)大規(guī)模管理結(jié)構(gòu)化數(shù)據(jù):干凈的表格、受管控的數(shù)據(jù)集、維度模型和特定領(lǐng)域的數(shù)據(jù)產(chǎn)品。這些都是高價值資產(chǎn),而不僅僅是孤立的數(shù)據(jù)集。
結(jié)構(gòu)化數(shù)據(jù)→互聯(lián)知識
自我進化的知識圖譜需要兩個主要的東西:
可靠、可解釋的實體和關(guān)系
當(dāng)新數(shù)據(jù)流入時,保持這些關(guān)系最新的機制
您的結(jié)構(gòu)化數(shù)據(jù)已經(jīng)捕獲:
- 實體是您的行(例如,客戶、訂單、資產(chǎn))
- 屬性是您的列(狀態(tài)、時間戳、指標(biāo))
- 關(guān)系嵌入在連接、外鍵或模型維度中
- 您已建模實體、定義架構(gòu)并管理訪問權(quán)限。您已使數(shù)據(jù)可查詢且可組合。
此外,采用目的驅(qū)動的數(shù)據(jù)產(chǎn)品可以讓您的數(shù)據(jù)資產(chǎn)為業(yè)務(wù)做好準(zhǔn)備,這些資產(chǎn)圍繞可以回答精確業(yè)務(wù)問題的實際概念進行建模。
這些是一致的,即受治理、版本化和合同驅(qū)動的。
現(xiàn)在,通過在頂層添加一個圖表,您可以創(chuàng)建一個知識基礎(chǔ)設(shè)施,可以驅(qū)動:
無需數(shù)據(jù)移動的跨域鏈接,圖譜無需新建管道,即可跨現(xiàn)有數(shù)據(jù)產(chǎn)品進行鏈接。例如,財務(wù)模型和支持模型無需合并,只需通過圖邏輯連接即可。您可以保留模塊化,同時獲得整體智能。
最小化 ETL 負載您無需移動或復(fù)制數(shù)據(jù)。 只需一個將結(jié)構(gòu)映射到連接的層。
一目了然,將結(jié)構(gòu)化數(shù)據(jù)輸入圖表,您可以解鎖:
- 語義豐富性(理解事物之間的關(guān)系)
- 跨領(lǐng)域推理(將銷售、支持和物流連接起來),
- 以及適應(yīng)性(隨著新需求的出現(xiàn)而不斷發(fā)展的結(jié)構(gòu))。
探索可能性的藝術(shù)
在代理工作流中,正如我們之前介紹過的,您可以獲得數(shù)據(jù)產(chǎn)品的生動、互聯(lián)的視圖;它無需重新設(shè)計任何東西就能變得更加智能。
人工智能代理能夠可靠地檢測隨著時間的推移而產(chǎn)生的新鏈接、變化和缺失的連接。隨著數(shù)據(jù)產(chǎn)品的更新,圖譜也會自我演進:學(xué)習(xí)、擴展并反映現(xiàn)實世界的復(fù)雜性。
業(yè)務(wù)影響:豐富圖譜為何重要?
隨著企業(yè)越來越多地采用人工智能來支持其應(yīng)用程序,人們越來越認識到,單靠數(shù)據(jù)是不夠的。數(shù)據(jù)的結(jié)構(gòu)、連接和持續(xù)豐富方式?jīng)Q定了洞察和決策的質(zhì)量。而這正是人工智能更新的知識圖譜能夠提供顯著優(yōu)勢的地方。
1. 動態(tài)知識圖譜驅(qū)動的更智能的人工智能模型
說實話,圖譜技術(shù)聽起來很復(fù)雜。架構(gòu)、建模、集成……內(nèi)容繁多。這也是很多企業(yè)望而卻步的原因。
但這里有一個轉(zhuǎn)變:您不再需要自己構(gòu)建圖表。
如今,它們作為基礎(chǔ)設(shè)施提供:預(yù)先構(gòu)建、自我發(fā)展并由人工智能代理維護。
您只需連接您的系統(tǒng)即可。無需深厚的圖譜專業(yè)知識。代理會在后臺處理更新、結(jié)構(gòu)和增長。
最棒的是?隨著新數(shù)據(jù)的加入,圖譜會不斷改進,這意味著你的搜索、推薦、聊天和分析都會自動變得更加智能。
2. 構(gòu)建圖譜基礎(chǔ)設(shè)施
大多數(shù)團隊認為你需要一個圖譜專家來完成所有這些工作,但其實不需要。
復(fù)雜性?它被抽象化了。幕后的AI代理會維護圖譜的健康:更新連接、添加新見解,并確保一切保持一致。
你只需使用它。無需手動建模關(guān)系或自行管理圖譜。它是一種智能系統(tǒng),可以自我管理并不斷改進。
3. 對跨領(lǐng)域數(shù)據(jù)產(chǎn)品的影響
當(dāng)您使用 AI 驅(qū)動的圖譜基礎(chǔ)設(shè)施為您的系統(tǒng)提供支持時,您不僅可以獲得更多數(shù)據(jù),還可以獲得更智能的全面成果。
您的客戶支持將變得更加敏銳,通過情境感知答案更快地解決查詢。欺詐檢測將變得更加主動,能夠發(fā)現(xiàn)其他人忽略的細微模式。產(chǎn)品推薦將變得更加相關(guān):不僅“受歡迎”,而且更具個人意義。您的儀表板?它們能夠揭示跨越數(shù)據(jù)孤島而非孤立數(shù)據(jù)的洞察。
因為這不僅僅涉及更多的數(shù)據(jù),還涉及正確的結(jié)構(gòu),并通過不斷學(xué)習(xí)的代理不斷豐富。
小結(jié):圖譜工作更智能,所以你不必
借助 AI 驅(qū)動的圖譜基礎(chǔ)架構(gòu),您無需管理復(fù)雜性,而是能夠釋放智能。無需手動更新,無需重新訓(xùn)練。只需一個圖譜,它就能在每次數(shù)據(jù)變化時學(xué)習(xí)、調(diào)整并提供更佳結(jié)果。
更智能的應(yīng)用。更快的洞察。更低的開銷。