成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

原生圖數(shù)據(jù)庫(kù)三個(gè)被低估的優(yōu)點(diǎn)

譯文
數(shù)據(jù)庫(kù) 其他數(shù)據(jù)庫(kù)
圖數(shù)據(jù)庫(kù)為你解決的真正問(wèn)題是:系統(tǒng)中的故障在哪里?哪些交易模式可能表明惡意企圖?哪些治療組合對(duì)于最難治的疾病最有效?

譯者 | 布加迪

審校 | 孫淑娟

如果你被告知圖數(shù)據(jù)庫(kù)的目的是使你能夠?qū)⒔M織的數(shù)據(jù)視為一個(gè)圖,那么你還沒(méi)有被告知足夠多的信息。

圖數(shù)據(jù)庫(kù)為你解決的真正問(wèn)題是:系統(tǒng)中的故障在哪里?哪些交易模式可能表明惡意企圖?哪些治療組合對(duì)于最難治的疾病最有效?

將關(guān)系融入到數(shù)據(jù)中后,數(shù)據(jù)會(huì)在你最需要的時(shí)候顯示這種關(guān)系。

它不僅僅涉及可視化的圓圈和箭頭。可視化插件不是原生圖數(shù)據(jù)庫(kù)。原生圖工具解釋了關(guān)系,以及由關(guān)系衍生而來(lái)的所有概念(比如相關(guān)性、完整性、概率、可靠性、偏誤和脆弱性)。這樣一來(lái),來(lái)自這些關(guān)系的信息可以被數(shù)據(jù)庫(kù)定位、分析,然后向你解釋。

一、認(rèn)知問(wèn)題

圖數(shù)據(jù)庫(kù)生產(chǎn)商N(yùn)eo4j的用戶(hù)創(chuàng)新高級(jí)主管Michael Hunger表示,人類(lèi)通常會(huì)觀察世界,然后處理他們所看到的相互關(guān)聯(lián)的元素。

但是當(dāng)這些人需要用關(guān)系數(shù)據(jù)庫(kù)來(lái)表示這些相同的元素時(shí),問(wèn)題在于,一旦他們實(shí)際使用技術(shù)即數(shù)據(jù)庫(kù),就需要忘記所有的相互關(guān)系。

關(guān)系可以融入到關(guān)系數(shù)據(jù)庫(kù)中,但需要付出相當(dāng)大的精力,加上大量的內(nèi)存和存儲(chǔ)——當(dāng)這些資源由云平臺(tái)提供時(shí),需要高昂的費(fèi)用。

因此為了節(jié)省時(shí)間和金錢(qián),組織往往淡化理解相互關(guān)系方面的需求。后來(lái)當(dāng)它們需要深入分析時(shí),依賴(lài)只能從數(shù)據(jù)庫(kù)模式的表層推斷信息的附件和擴(kuò)展件。

技術(shù)研究公司Omdia的人工智能平臺(tái)、分析和數(shù)據(jù)首席分析師Bradley Shimmin表示,不僅僅是金融公司需要了解欺詐檢測(cè),其他公司也需要能夠了解員工下個(gè)月會(huì)不會(huì)辭職。

圖分析能夠跨多個(gè)維度來(lái)查看,為數(shù)據(jù)添加的上下文和含義,而表格數(shù)據(jù)對(duì)上下文和含義一無(wú)所知。

二、什么是原生圖數(shù)據(jù)庫(kù)?

在傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)模型中,數(shù)據(jù)分布在多個(gè)表中,通過(guò)鍵連接。運(yùn)行SQL查詢(xún)通常意味著連接多個(gè)表和多個(gè)索引查詢(xún)。

圖片

圖1.美國(guó)小企業(yè)創(chuàng)新研究(SBIR)計(jì)劃的

創(chuàng)業(yè)生態(tài)系統(tǒng)模型

在這里被描述為Neo4j圖數(shù)據(jù)庫(kù)模型

相比之下,在Neo4j屬性圖模型中,重點(diǎn)是數(shù)據(jù)元素之間的關(guān)系。這些元素作為“節(jié)點(diǎn)”來(lái)存儲(chǔ),其屬性可以由任意數(shù)量的鍵/值對(duì)表示。

節(jié)點(diǎn)可以通過(guò)任意數(shù)量的關(guān)系來(lái)連接。節(jié)點(diǎn)和關(guān)系都可能有“屬性”。在圖模型中,關(guān)系數(shù)據(jù)庫(kù)表中的列或行表示為節(jié)點(diǎn)的屬性。

使用原生圖數(shù)據(jù)庫(kù),整個(gè)堆棧都圍繞這個(gè)數(shù)據(jù)模型進(jìn)行了優(yōu)化,從查詢(xún)語(yǔ)言到文件存儲(chǔ),不一而足。原生圖數(shù)據(jù)庫(kù)在分析這種關(guān)系時(shí)會(huì)更高效,因?yàn)樗鼈円婚_(kāi)始就被融入到模型中。

區(qū)分原生圖數(shù)據(jù)庫(kù)和運(yùn)行在關(guān)系數(shù)據(jù)庫(kù)上的圖層非常重要。后者以圖的形式提供結(jié)果,但仍必須執(zhí)行連接及其他操作,才能將來(lái)自整個(gè)數(shù)據(jù)庫(kù)的數(shù)據(jù)匯集在一起。這會(huì)導(dǎo)致延遲和過(guò)多消耗計(jì)算資源,規(guī)模擴(kuò)展后這一切會(huì)暴露得更明顯。

開(kāi)發(fā)圖數(shù)據(jù)庫(kù)在創(chuàng)建過(guò)程中需要額外的工作,因?yàn)槟氵€得插入這些關(guān)系。所涉及的工作量以后會(huì)得到回報(bào),你可以更輕松地推斷出數(shù)據(jù)之間的聯(lián)系。

回報(bào)來(lái)自這三個(gè)被低估的優(yōu)點(diǎn):

1.可遍歷性:建立聯(lián)系

圖數(shù)據(jù)庫(kù)使你能夠“遵循”關(guān)系。如果你讀取數(shù)據(jù),又想要追蹤或遍歷這些關(guān)系,你會(huì)受益匪淺。

Neo4j的開(kāi)發(fā)者關(guān)系工程師William Lyon指出了一項(xiàng)名為“無(wú)索引鄰近”的功能,該功能是圖數(shù)據(jù)庫(kù)所特有的。這基本上意味著你可以從一個(gè)節(jié)點(diǎn)遍歷到任何其他節(jié)點(diǎn),無(wú)需進(jìn)行索引查找。

圖片

圖2.圖模型的一部分,其中三個(gè)Twitter用戶(hù)相互關(guān)注

但關(guān)注程度不成比例

可遍歷性揭露了它們之間關(guān)系的范圍和限制

這種可遍歷性不僅使跟蹤數(shù)據(jù)之間的關(guān)系變得更容易,還減少了執(zhí)行查詢(xún)所需的計(jì)算,從而減少了管理計(jì)算過(guò)程所需的人力。

至于關(guān)系數(shù)據(jù)庫(kù),你必須計(jì)算組合在一起的內(nèi)容,然后要有某種方法將它們合并在一起。這意味著更多的連接或跳點(diǎn)。數(shù)據(jù)庫(kù)中的數(shù)據(jù)量越大,所需的連接和跳點(diǎn)勢(shì)必越多。

相比之下,換成圖數(shù)據(jù)庫(kù),數(shù)據(jù)庫(kù)中是否有80億人并不重要。如果專(zhuān)注于Joe,只對(duì)Joe的關(guān)系感興趣,可以完全忽略其他人。

這還使得圖數(shù)據(jù)庫(kù)對(duì)于分析層次數(shù)據(jù)特別有用,比如分析一家擁有200000名員工和數(shù)十個(gè)管理層的公司。

圖片

圖3.由于可遍歷性,Neo4j的Cypher查詢(xún)語(yǔ)言

用四行代碼揭示了三層深度的關(guān)系

而不是用復(fù)雜的腳本

在關(guān)系數(shù)據(jù)庫(kù)中對(duì)這種龐大而復(fù)雜的層次結(jié)構(gòu)進(jìn)行操作意味著數(shù)十萬(wàn)個(gè)自連接:將人員或員工表與經(jīng)理、與他們的經(jīng)理或與每個(gè)人員指定的經(jīng)理相連接。

換成圖數(shù)據(jù)庫(kù),這只是跟蹤層次結(jié)構(gòu)上下關(guān)系的問(wèn)題。

圖數(shù)據(jù)庫(kù)格式對(duì)數(shù)據(jù)科學(xué)家也特別有吸引力——他們不喜歡與關(guān)系數(shù)據(jù)庫(kù)打交道,因?yàn)樗幸褕?zhí)行的嚴(yán)格的模式。在開(kāi)始工作之前,你必須事先定義并實(shí)施數(shù)據(jù)的模式。

相比之下,圖方法更快、更直觀,使你更容易迭代完善數(shù)據(jù)模型。

2.可解釋性:便攜式白板

如果人類(lèi)從關(guān)系和聯(lián)系來(lái)看待世界,那么數(shù)據(jù)庫(kù)應(yīng)該能夠推斷出關(guān)系和聯(lián)系的含義。

這個(gè)原則好比你試圖找到的結(jié)果的輸出具有“對(duì)白板友好性”。當(dāng)研究型醫(yī)師與同事交流結(jié)果時(shí),通常以Excel表格或某種表格的格式表示。大體而言,這些格式等同于完整的數(shù)據(jù)庫(kù)。

同時(shí),圖向人類(lèi)展示了一個(gè)即時(shí)的信息結(jié)果。你可以把白板上的這個(gè)豐富模型放到數(shù)據(jù)庫(kù)中,因?yàn)殛P(guān)系和實(shí)體是一等公民,但你也并不失去所有業(yè)務(wù)人員。

推薦系統(tǒng)是圖數(shù)據(jù)庫(kù)的核心用例。如果你能說(shuō)“我們向你推薦這本書(shū),因?yàn)樗c你評(píng)價(jià)很高的其他書(shū)有相似的元素”,這是極具價(jià)值的推薦。

網(wǎng)絡(luò)特性使你能夠推斷出某些節(jié)點(diǎn)可能對(duì)其他節(jié)點(diǎn)產(chǎn)生的影響程度:“聚類(lèi)是什么?誰(shuí)最有影響力?誰(shuí)連接聚類(lèi)?誰(shuí)必不可少?”

這種分析級(jí)別也許只能由關(guān)系數(shù)據(jù)庫(kù)通過(guò)非常復(fù)雜的聚合過(guò)程和所謂的“知識(shí)發(fā)現(xiàn)迭代”來(lái)完成,這一切使得之前描述的SQL交叉連接馬拉松看起來(lái)更像是百米沖刺。

印第安納大學(xué)的研究人員試圖找出帕金森病各種病因當(dāng)中的遺傳關(guān)系方面的模式,出于一些重要的原因選擇了Neo4j作為其原生圖數(shù)據(jù)庫(kù),其中一個(gè)原因是,圖查詢(xún)返回的模式本身可以表示為圖。

從他們的角度來(lái)看,不僅數(shù)據(jù)庫(kù)本身被表示為知識(shí)圖,連輸出也是如此。

3.公平性:將原始數(shù)據(jù)放入上下文

高質(zhì)量的結(jié)果需要高質(zhì)量的數(shù)據(jù)。圖數(shù)據(jù)庫(kù)在公平和消除偏誤方面顯示出更多被低估的優(yōu)點(diǎn),尤其是在用于機(jī)器學(xué)習(xí)和人工智能的龐大數(shù)據(jù)集。

偏誤可能來(lái)自?xún)蓚€(gè)方面:偏差的數(shù)據(jù)被饋入到算法,以及研究人員在他們提出的問(wèn)題方面有偏見(jiàn)。使用圖模型,就可以在設(shè)計(jì)階段突出并消除潛在的偏誤。

數(shù)據(jù)科學(xué)家自然會(huì)希望確保他們的訓(xùn)練數(shù)據(jù)在被饋入到機(jī)器學(xué)習(xí)算法之前具有代表性、無(wú)偏誤。在數(shù)據(jù)準(zhǔn)備階段使用原生圖數(shù)據(jù)庫(kù)可能有助于將原始信息置于上下文中,避免將偏誤饋入到模型的可能性。

所以看看你的圖的聚類(lèi),如果只有一個(gè)大聚類(lèi),那么就有偏誤,就有問(wèn)題。你需要回過(guò)頭去,確保擁有良好的分布式聚類(lèi)。

神經(jīng)網(wǎng)絡(luò)本身就是圖。這意味著當(dāng)你訓(xùn)練模型時(shí),神經(jīng)網(wǎng)絡(luò)會(huì)發(fā)生變化。如果你呈現(xiàn)一個(gè)圖,并使其易于訪問(wèn)、可變和可視化,那么就可以確定網(wǎng)絡(luò)如何獲取權(quán)重。

換句話說(shuō),從模型生成的任何特定的輸出都很容易追溯起源。可遍歷性是雙向的。

所有這些優(yōu)點(diǎn)是否意味著關(guān)系模型已窮途末路?不太可能。但是正如Shimmin特別指出,圖數(shù)據(jù)庫(kù)是“一項(xiàng)至關(guān)重要的技術(shù),我非常希望看到它更深入地全面集成到傳統(tǒng)的分析工作負(fù)載中。”

原文鏈接:https://thenewstack.io/the-3-underrated-strengths-of-a-native-graph-database/

責(zé)任編輯:武曉燕 來(lái)源: 51CTO技術(shù)棧
相關(guān)推薦

2013-12-18 13:06:33

數(shù)據(jù)庫(kù)安全安全審計(jì)啟明星辰

2023-04-26 11:14:11

IT領(lǐng)導(dǎo)者遠(yuǎn)程工作

2010-05-19 18:11:05

2011-05-19 13:49:09

2011-03-30 13:03:14

數(shù)據(jù)庫(kù)營(yíng)銷(xiāo)

2020-07-13 07:27:16

Python庫(kù)開(kāi)發(fā)

2023-03-06 11:44:37

Postgres數(shù)據(jù)庫(kù)

2022-09-01 23:29:22

MySQLPython數(shù)據(jù)庫(kù)

2010-05-14 14:00:59

MySQL數(shù)據(jù)庫(kù)優(yōu)化

2010-05-17 16:04:40

MySQL數(shù)據(jù)庫(kù)

2010-10-26 13:45:01

Oracle數(shù)據(jù)庫(kù)備份

2009-06-11 13:12:59

Oracle索引創(chuàng)建索引

2022-07-07 14:13:46

云原生數(shù)據(jù)庫(kù)云平臺(tái)

2009-08-10 22:31:00

光纖通道技術(shù)光纖接入

2009-07-14 09:50:06

DB2數(shù)據(jù)庫(kù)設(shè)計(jì)

2010-04-23 12:24:06

Oracle數(shù)據(jù)庫(kù)

2010-09-27 09:40:27

DHCP服務(wù)器數(shù)據(jù)庫(kù)移

2019-09-30 08:00:00

圖數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù)

2010-06-01 16:17:26

2015-05-26 11:32:41

混合云混合云優(yōu)勢(shì)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 国产xxxx搡xxxxx搡麻豆 | 国产精品网址 | 久久久久久国产精品免费免费 | 国产精品久久久久久久久久久久 | 亚洲欧美一区二区三区1000 | 国产乱码精品1区2区3区 | 91麻豆产精品久久久久久夏晴子 | 97久久久久久 | 欧美激情视频一区二区三区在线播放 | 伊人国产精品 | 日韩一二区 | 精品欧美激情精品一区 | 国产精品欧美日韩 | 国产在线视频在线观看 | 欧美性猛交一区二区三区精品 | 亚洲国产成人精品女人久久久 | 欧美日韩亚洲视频 | 国产在线精品一区二区三区 | av黄色网| 高清黄色网址 | 日韩成人国产 | hitomi一区二区三区精品 | 在线成人精品视频 | 黄色日批视频 | 日本黄色激情视频 | 日韩第一页 | 久久精品欧美一区二区三区麻豆 | 国产精品污www在线观看 | 欧美精品黄 | 亚洲欧美一区二区在线观看 | 日韩欧美网 | 国产精品久久久久久久久婷婷 | 免费看a | 国产不卡一区在线观看 | 精品久久一区 | 国产一区二区三区日韩 | 午夜在线影院 | 久久在线| 中日韩av| 一区二区手机在线 | 国产美女一区 |