數(shù)據(jù)發(fā)現(xiàn)在數(shù)據(jù)網(wǎng)格架構(gòu)中的重要性
為什么數(shù)據(jù)發(fā)現(xiàn)很重要?
數(shù)據(jù)發(fā)現(xiàn)是一個(gè)面向業(yè)務(wù)用戶的過(guò)程,可以通過(guò)分析可視化數(shù)據(jù)并理解不同的模式。然而,訪問(wèn)數(shù)據(jù)是每個(gè)數(shù)據(jù)科學(xué)家、軟件開(kāi)發(fā)人員、產(chǎn)品經(jīng)理或業(yè)務(wù)分析師每天都會(huì)遇到的障礙。
無(wú)論我們是數(shù)據(jù)的生產(chǎn)者還是消費(fèi)者,數(shù)據(jù)發(fā)現(xiàn)都會(huì)影響到我們所有人。要使用和分析數(shù)據(jù),我們需要訪問(wèn)數(shù)據(jù),但訪問(wèn)數(shù)據(jù)意味著我們需要知道在哪里存在什么,然后才能分析和操作它,這使得數(shù)據(jù)發(fā)現(xiàn)對(duì)于數(shù)據(jù)專業(yè)人員和行業(yè)查詢數(shù)據(jù)和做出明智的業(yè)務(wù)決策至關(guān)重要。
為什么是現(xiàn)在?
數(shù)據(jù)發(fā)現(xiàn)領(lǐng)域正在不斷變化;我們不能再一次設(shè)置模式目錄并多次使用它了。這種變化本質(zhì)上是由于現(xiàn)代數(shù)據(jù)棧的興起。今天,公司正在從各種不同的來(lái)源收集無(wú)數(shù)的數(shù)據(jù)。
將這些動(dòng)態(tài)來(lái)源的數(shù)據(jù)連接到一個(gè)地方已經(jīng)成為一個(gè)重大挑戰(zhàn),因?yàn)槭褂眠@些數(shù)據(jù)的不再只是一個(gè)集中的數(shù)據(jù)團(tuán)隊(duì)?,F(xiàn)在,工程師、分析師、營(yíng)銷和銷售團(tuán)隊(duì)以及其他職能團(tuán)隊(duì)都在使用這些數(shù)據(jù)。
數(shù)據(jù)的概念也發(fā)生了巨大的變化,從數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)表,到消費(fèi)端的機(jī)器學(xué)習(xí)(ML)模型、分析報(bào)告、商業(yè)智能(BI)儀表板等,以及生產(chǎn)端的倉(cāng)庫(kù)和操作數(shù)據(jù)庫(kù)、api等的Postgres/Kafka上游。
此外,將集中式數(shù)據(jù)倉(cāng)庫(kù)遷移到云中,已經(jīng)改變了從提取、轉(zhuǎn)換和加載(ETL)過(guò)程攝取和處理數(shù)據(jù)的方式,從而將提取、加載和轉(zhuǎn)換(ELT)過(guò)程轉(zhuǎn)換為提取、加載和轉(zhuǎn)換(ELT)過(guò)程,這給企業(yè)留下了更多的數(shù)據(jù)集。再加上數(shù)據(jù)網(wǎng)格體系結(jié)構(gòu)的分散所有權(quán)和分布式數(shù)據(jù)訪問(wèn),數(shù)據(jù)發(fā)現(xiàn)變得比以往任何時(shí)候都更加困難。
這種數(shù)據(jù)的高度專門(mén)化和穩(wěn)定增長(zhǎng)導(dǎo)致我們不知道什么數(shù)據(jù)存在,為什么存在,以及它存在于哪里。所有這些都阻止了組織使用數(shù)據(jù),這使得現(xiàn)在解決這個(gè)問(wèn)題變得更加重要。
發(fā)現(xiàn)在數(shù)據(jù)網(wǎng)格中的作用
數(shù)據(jù)網(wǎng)格的全部概念是認(rèn)識(shí)到我們?nèi)绾谓!a(chǎn)生和消費(fèi)數(shù)據(jù)是解耦的。對(duì)于解耦數(shù)據(jù),常見(jiàn)的問(wèn)題是,如果用戶需要訪問(wèn)不是他們創(chuàng)建的數(shù)據(jù)或服務(wù),他們將如何找到它并學(xué)會(huì)使用它?數(shù)據(jù)網(wǎng)格的這一部分對(duì)數(shù)據(jù)發(fā)現(xiàn)的影響最大。
數(shù)據(jù)網(wǎng)格將集中的數(shù)據(jù)劃分為數(shù)據(jù)域,允許用戶將高質(zhì)量的數(shù)據(jù)產(chǎn)品思維應(yīng)用到數(shù)據(jù)的共享上。數(shù)據(jù)發(fā)現(xiàn)本質(zhì)上是一種在數(shù)據(jù)網(wǎng)格上啟用數(shù)據(jù)和控制平面的能力,這為發(fā)現(xiàn)和標(biāo)記數(shù)據(jù)創(chuàng)造了一個(gè)更好的環(huán)境。
已經(jīng)有數(shù)據(jù)網(wǎng)格模型的公司首先需要一個(gè)數(shù)據(jù)發(fā)現(xiàn)平臺(tái)來(lái)發(fā)現(xiàn)和理解他們的數(shù)據(jù),而數(shù)據(jù)發(fā)現(xiàn)就是從數(shù)據(jù)網(wǎng)格開(kāi)始的。然后,當(dāng)團(tuán)隊(duì)開(kāi)始擁有自己的數(shù)據(jù)的數(shù)據(jù)將標(biāo)簽和所有權(quán),數(shù)據(jù)網(wǎng)格允許這些團(tuán)隊(duì)邀請(qǐng)其他用戶通過(guò)民主化對(duì)數(shù)據(jù)的訪問(wèn),同時(shí)保持完整的治理和控制真理的來(lái)源與分布式所有權(quán)的主要十字路口--這是發(fā)現(xiàn)和它在數(shù)據(jù)網(wǎng)格中的作用。
數(shù)據(jù)治理還與可見(jiàn)性有關(guān),它為數(shù)據(jù)團(tuán)隊(duì)提供了一個(gè)上下文,告訴他們正在進(jìn)行的工作或其他團(tuán)隊(duì)已經(jīng)做了什么,以消除重新發(fā)現(xiàn)或重新構(gòu)建一切的需要。
關(guān)于數(shù)據(jù)網(wǎng)格的問(wèn)題和機(jī)遇
數(shù)據(jù)網(wǎng)格與發(fā)現(xiàn)使團(tuán)隊(duì)了解數(shù)據(jù)生產(chǎn)成為可能,因此他們不會(huì)重復(fù)做無(wú)頭工作。它避免了數(shù)據(jù)團(tuán)隊(duì)必須花費(fèi)大量時(shí)間重新發(fā)現(xiàn)元數(shù)據(jù)的兩種常見(jiàn)場(chǎng)景。首先,當(dāng)企業(yè)雇傭新的專家時(shí),這些專家具備數(shù)據(jù)驅(qū)動(dòng)決策的知識(shí),但缺乏數(shù)據(jù)背景。其次,當(dāng)一個(gè)業(yè)務(wù)單元移動(dòng)到一個(gè)不同的單元一段時(shí)間后返回時(shí),會(huì)發(fā)現(xiàn)元數(shù)據(jù)在這段時(shí)間內(nèi)完全改變了。
在任何給定的時(shí)間,組織都運(yùn)行許多不同的數(shù)據(jù)模型來(lái)將數(shù)據(jù)記錄到倉(cāng)庫(kù)中,并使其對(duì)用戶可用。公司的數(shù)據(jù)倉(cāng)庫(kù)可能有200列和儀表板,它們與一個(gè)操作方面有關(guān)。這使得用戶幾乎不可能知道什么是唯一的真相來(lái)源。
數(shù)據(jù)網(wǎng)格中的發(fā)現(xiàn)有助于建立數(shù)據(jù)生產(chǎn)者和消費(fèi)者之間的平衡,通過(guò)以下實(shí)踐使數(shù)據(jù)更容易被發(fā)現(xiàn)和更可靠:
開(kāi)源激發(fā)了共享所有權(quán)
就像在開(kāi)源社區(qū)一樣,數(shù)據(jù)可靠性和發(fā)現(xiàn)的所有權(quán)取決于與數(shù)據(jù)交互的每個(gè)人。數(shù)據(jù)發(fā)現(xiàn)失敗的主要原因是數(shù)據(jù)沒(méi)有足夠的文檔供用戶獲取值。這種來(lái)自開(kāi)源方法的共同責(zé)任感激勵(lì)用戶解決他們發(fā)現(xiàn)的數(shù)據(jù)問(wèn)題,從而為其他人省去麻煩。
自動(dòng)化洞察力的集成
數(shù)據(jù)文檔對(duì)于更好的發(fā)現(xiàn)至關(guān)重要,特別是對(duì)于產(chǎn)品的生產(chǎn)者來(lái)說(shuō),但與此同時(shí),它只會(huì)創(chuàng)建更多的數(shù)據(jù)表。我們需要的是自動(dòng)化來(lái)提取現(xiàn)有的、可操作的元數(shù)據(jù),以增強(qiáng)發(fā)現(xiàn)透視圖。用戶可以使用自動(dòng)化的洞察力來(lái)培養(yǎng)更好的文檔,并創(chuàng)建傳承來(lái)傳播不同的信息。
簡(jiǎn)化用戶體驗(yàn)
理解如何以及在何處使用數(shù)據(jù)來(lái)簡(jiǎn)化用戶體驗(yàn)是很重要的。比如,這些數(shù)據(jù)主要用于銷售報(bào)告,還是用于產(chǎn)品分析?一旦數(shù)據(jù)分析團(tuán)隊(duì)或業(yè)務(wù)智能團(tuán)隊(duì)可以定義如何查看數(shù)據(jù)分類的結(jié)構(gòu),其他人就可以貢獻(xiàn)和維護(hù)該協(xié)議。簡(jiǎn)化的用戶體驗(yàn)可以幫助文檔化過(guò)程,或者促進(jìn)最初的文檔化工作,這些工作通常在數(shù)據(jù)發(fā)現(xiàn)時(shí)也需要進(jìn)行。
將數(shù)據(jù)視為代碼
在數(shù)據(jù)網(wǎng)格社區(qū)中,將數(shù)據(jù)和元數(shù)據(jù)視為代碼是很常見(jiàn)的。當(dāng)我們創(chuàng)建數(shù)據(jù)產(chǎn)品時(shí),應(yīng)該有使其有效的規(guī)則/文檔,這些規(guī)則應(yīng)該作為構(gòu)建的系統(tǒng)的一部分應(yīng)用。它需要有文檔,包括合規(guī)標(biāo)簽、自動(dòng)身份檢查等。這些集成到數(shù)據(jù)發(fā)現(xiàn)平臺(tái)中的系統(tǒng)大大降低了產(chǎn)生壞數(shù)據(jù)的可能性。
以代碼為中心的發(fā)現(xiàn)
為了實(shí)現(xiàn)有效的數(shù)據(jù)治理(這通常會(huì)導(dǎo)致數(shù)據(jù)遵從性),數(shù)據(jù)發(fā)現(xiàn)應(yīng)該以用戶和代碼為中心。它必須具有編程抽象,其中用戶的數(shù)據(jù)發(fā)現(xiàn)抽象也適用于代碼的數(shù)據(jù)發(fā)現(xiàn),例如,特性或模型注冊(cè)表。它們都需要后端,能夠在運(yùn)行時(shí)可靠地處理相關(guān)查詢,這樣用戶就可以在運(yùn)行時(shí)應(yīng)用正確的策略,而不是將數(shù)據(jù)還原。