從 ETL 到 NoETL 的數(shù)據(jù)架構(gòu)演進(jìn)——Denodo 的創(chuàng)新解決方案
一、數(shù)據(jù)架構(gòu)的演變背景介紹
在探討數(shù)據(jù)架構(gòu)演變之前,先來(lái)看一下當(dāng)前數(shù)據(jù)使用的趨勢(shì)。
從多個(gè)數(shù)據(jù)研究機(jī)構(gòu)(如 IDC、IDG、Gartner 等)的統(tǒng)計(jì)數(shù)據(jù)來(lái)看,數(shù)據(jù)量的膨脹是不可避免的趨勢(shì)。與此同時(shí),數(shù)據(jù)種類(lèi)也日益增多。在傳統(tǒng)的 ETL 時(shí)代,企業(yè)可能僅依賴(lài)少數(shù)幾種數(shù)據(jù)庫(kù)類(lèi)型,但如今,分布式數(shù)據(jù)架構(gòu)、云上數(shù)據(jù)等多種形式,使得大企業(yè)面臨著平均多達(dá)四百多種不同類(lèi)型的數(shù)據(jù)源,以滿(mǎn)足企業(yè)分析需求。
另一個(gè)顯著趨勢(shì)是數(shù)據(jù)的民主化,也稱(chēng)為自主服務(wù),越來(lái)越多的客戶(hù)期望將數(shù)據(jù)交給業(yè)務(wù)單位(BU)進(jìn)行自主分析。過(guò)去,數(shù)據(jù)倉(cāng)庫(kù)(數(shù)倉(cāng))或商業(yè)智能(BI)項(xiàng)目大多由 IT 部門(mén)主導(dǎo),但這種方式已逐漸難以滿(mǎn)足用戶(hù)需求,因?yàn)橛脩?hù)期望能夠自主獲取和分析數(shù)據(jù),而不僅僅依賴(lài)于預(yù)設(shè)的報(bào)表或有限的維度數(shù)據(jù)。
回顧數(shù)據(jù)架構(gòu)的演變歷程,早期數(shù)據(jù)缺乏集中管理,直至 20 世紀(jì) 90 年代,進(jìn)入數(shù)倉(cāng)時(shí)代,ETL 開(kāi)始在企業(yè)中發(fā)揮重要作用。進(jìn)入 2000 年后,隨著數(shù)倉(cāng)的建設(shè)成本及企業(yè)數(shù)據(jù)量、種類(lèi)的不斷增加,如物聯(lián)網(wǎng)(IoT)數(shù)據(jù)的出現(xiàn),數(shù)據(jù)湖等概念應(yīng)運(yùn)而生。盡管數(shù)據(jù)湖允許企業(yè)將數(shù)據(jù)以原始格式存儲(chǔ)在數(shù)據(jù)庫(kù)中,但這也導(dǎo)致了數(shù)據(jù)分散的問(wèn)題,即使有數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)湖的存在,企業(yè)仍面臨跨系統(tǒng)數(shù)據(jù)整合的挑戰(zhàn)。到了 2010 年代,Gartner 提出了邏輯數(shù)據(jù)倉(cāng)庫(kù)的概念,即未來(lái)的數(shù)據(jù)倉(cāng)庫(kù)可以是邏輯上的概念,而不一定需要將所有數(shù)據(jù)實(shí)際存儲(chǔ)在一個(gè)物理存儲(chǔ)體中,這是數(shù)據(jù)管理模式的重大轉(zhuǎn)變。
當(dāng)提及這一概念時(shí),Denodo 提出一個(gè)簡(jiǎn)潔的口號(hào):“停止收集,開(kāi)始連接”。以往企業(yè)致力于收集數(shù)據(jù),將不同平臺(tái)、系統(tǒng)的數(shù)據(jù)匯聚至一個(gè)物理倉(cāng)儲(chǔ),用于分析,而無(wú)論采用數(shù)倉(cāng)還是數(shù)據(jù)湖等方式,基本都需開(kāi)展ETL工作。然而當(dāng)邏輯數(shù)倉(cāng)概念出現(xiàn)后,我們開(kāi)始思考是否能夠轉(zhuǎn)變思路,不再執(zhí)著于將所有數(shù)據(jù)收集整合,而是優(yōu)先嘗試建立連接,至于為何如此,后續(xù)將進(jìn)一步探討。
傳統(tǒng) ETL 旨在解決數(shù)據(jù)孤島問(wèn)題,即將不同系統(tǒng)的數(shù)據(jù)整合到一個(gè)統(tǒng)一的分析平臺(tái)。然而,ETL 在實(shí)際應(yīng)用中存在一些問(wèn)題。例如,在企業(yè)合并時(shí),原有的 ETL 系統(tǒng)往往難以復(fù)用,需要重新構(gòu)建。
無(wú)論是 ETL 還是 ELT,都有眾多工具可以實(shí)現(xiàn)高效的批量數(shù)據(jù)轉(zhuǎn)移,大多數(shù)企業(yè)都有能力在內(nèi)部實(shí)施。但其也存在流程復(fù)雜,時(shí)間和人力成本較高等問(wèn)題。
二、NoETL 的概念與架構(gòu)
NoETL 概念的產(chǎn)生源于實(shí)際需求。
從數(shù)據(jù)使用困境來(lái)看,傳統(tǒng)的數(shù)倉(cāng)和數(shù)據(jù)復(fù)制搬移集成方式在面對(duì)企業(yè)數(shù)字化轉(zhuǎn)型過(guò)程中的新需求時(shí)顯得力不從心。例如,業(yè)務(wù)部門(mén)提出的一次性問(wèn)題或基于外部趨勢(shì)的臨時(shí)性分析需求,通過(guò)傳統(tǒng) IT 方式響應(yīng)時(shí)間過(guò)長(zhǎng)且實(shí)際效用不大。此外,大量未知數(shù)據(jù)(如第三方或政府發(fā)布的一次性數(shù)據(jù))難以通過(guò)傳統(tǒng) ETL 方式整合,以及數(shù)據(jù)科學(xué)家在探索創(chuàng)新過(guò)程中所需的外部數(shù)據(jù)也難以融入傳統(tǒng) ETL 架構(gòu)。
在實(shí)際工作中,許多數(shù)據(jù)具有臨時(shí)性,有時(shí)并不需要持久存儲(chǔ)。面對(duì)臨時(shí)性需求以及探索性需求,采用 ETL 方式將數(shù)據(jù)加載到一個(gè)地方后用戶(hù)才能使用,這種做法極為繁瑣。此外,為滿(mǎn)足簡(jiǎn)單或短暫需求而進(jìn)行數(shù)據(jù)搬移時(shí),所需的能力成本和維護(hù)成本相當(dāng)高昂。例如,一個(gè)數(shù)倉(cāng)可能包含數(shù)千甚至上萬(wàn)張表,但實(shí)際上并不知道哪些數(shù)據(jù)正在被使用,可能為了每月僅查看一次的內(nèi)容而每天搬運(yùn)數(shù)據(jù),合理性存疑。
“NoETL” 概念正是針對(duì)這一問(wèn)題,通過(guò)數(shù)據(jù)虛擬化和實(shí)時(shí)處理等技術(shù),避免傳統(tǒng)的加載流程,無(wú)需把大量數(shù)據(jù)復(fù)制到數(shù)倉(cāng)或數(shù)湖。
從架構(gòu)角度來(lái)看,以往要做一個(gè)分析系統(tǒng),需要執(zhí)行的ETL 操作可能涉及更多環(huán)節(jié),如 Stage、Data Warehouse、Data Mart 等等,一直到前端呈現(xiàn),整個(gè)流程頗為冗長(zhǎng)。而虛擬化技術(shù)(它可視為 NoETL 的一種實(shí)現(xiàn)方式),其特點(diǎn)在于不再進(jìn)行層層的數(shù)據(jù)搬移,前端使用者能夠?qū)崟r(shí)查看數(shù)據(jù)并且進(jìn)行整合操作。如前所述,“NoETL”的關(guān)鍵差異在于數(shù)據(jù)是否需要加載到存儲(chǔ)中,它也需要進(jìn)行數(shù)據(jù)轉(zhuǎn)換(transformation),并且特別注重即時(shí)服務(wù),這是該架構(gòu)的核心需求。
接下來(lái),將進(jìn)一步介紹 Denodo 對(duì)數(shù)據(jù)虛擬化的實(shí)現(xiàn),隨后也會(huì)探討不同廠商在“NoETL”技術(shù)應(yīng)用方面存在的差異。
三、數(shù)據(jù)虛擬化
Denodo 是一個(gè)邏輯上的軟件平臺(tái),其面向的數(shù)據(jù)消費(fèi)者可通過(guò)各種 BI 工具或 API 進(jìn)行操作,背后涉及龐雜的數(shù)據(jù)類(lèi)型。Denodo 能夠連接 200 多種不同的數(shù)據(jù)源,這些數(shù)據(jù)源種類(lèi)繁雜,隨地區(qū)、國(guó)家及產(chǎn)品而異。
在邏輯架構(gòu)方面,所有實(shí)體可對(duì)應(yīng)到邏輯上的一張視圖(view),其可能對(duì)應(yīng)的是 Oracle表、SAP 的 API、Kafka 的主題或云上 API 等等。接著,類(lèi)似于 ETL 中的抽?。╡xtraction)環(huán)節(jié),Denodo 會(huì)讀取這些數(shù)據(jù),之后進(jìn)行轉(zhuǎn)換(transform),多數(shù) NoETL 工具廠商采用 SQL 進(jìn)行開(kāi)發(fā),Denodo 本身也基于 SQL。相比傳統(tǒng) ETL,NoETL 工具對(duì)技術(shù)能力的要求大大降低,因?yàn)槭煜?SQL 語(yǔ)法的人員較多。
Denodo 存在業(yè)務(wù)層與邏輯層,類(lèi)似于數(shù)據(jù)倉(cāng)庫(kù)中的各環(huán)節(jié),如清洗層、轉(zhuǎn)換層、星型模式(star schema)直至報(bào)告層等等,在邏輯概念中同樣存在,只是表現(xiàn)為衍生的派生圖(derived view),通過(guò)建立視圖來(lái)滿(mǎn)足不同需求。
數(shù)據(jù)消費(fèi)者下達(dá) SQL 或 API 查詢(xún)后,Denodo 會(huì)解析 API 或 SQL,依據(jù)業(yè)務(wù)語(yǔ)義層確定所需數(shù)據(jù)源,解析邏輯語(yǔ)法后從不同數(shù)據(jù)庫(kù)抓取必要的數(shù)據(jù)并整合,消費(fèi)者無(wú)需依賴(lài) IT 整理業(yè)務(wù)需求。例如上圖案例中,涉及到營(yíng)銷(xiāo)平臺(tái)上的營(yíng)銷(xiāo)活動(dòng)數(shù)據(jù)、數(shù)據(jù)倉(cāng)庫(kù)中的消費(fèi)數(shù)據(jù),通過(guò) Denodo 可以實(shí)現(xiàn)整合分析。
不過(guò),在實(shí)際運(yùn)營(yíng)中,由于需從不同數(shù)據(jù)源獲取數(shù)據(jù),可能面臨性能問(wèn)題。為此,可根據(jù)業(yè)務(wù)需求設(shè)置緩存(cache),如日常報(bào)表可使用緩存提升性能,臨時(shí)緊急需求可通過(guò)指定參數(shù)直接獲取原始數(shù)據(jù)。在 AI 使用場(chǎng)景下,如數(shù)據(jù)科學(xué)家進(jìn)行全量模式分析且數(shù)據(jù)量巨大時(shí),可調(diào)用外部 MPP 引擎協(xié)助運(yùn)算。
當(dāng)前市場(chǎng)上虛擬化工具眾多,事實(shí)上,虛擬化技術(shù)并非近年才出現(xiàn),就 Denodo 而言,公司自 1999 年起的 25 年來(lái)一直從事相關(guān)業(yè)務(wù)。只是近年來(lái),傳統(tǒng) ETL 相關(guān)需求發(fā)生了變化,使得虛擬化技術(shù)受到更多關(guān)注。
Gartner 指出,虛擬化主要由以下幾類(lèi)廠商提供:其一為獨(dú)立廠商,專(zhuān)門(mén)打造相關(guān)機(jī)制;其二是傳統(tǒng) ETL 即數(shù)據(jù)集成廠商,他們也具備提供部分此類(lèi)能力;其三則是數(shù)據(jù)庫(kù)廠商,憑借數(shù)據(jù)庫(kù)連接能力擴(kuò)展虛擬化功能;此外,部分報(bào)表工具和 API 工具也具備部分?jǐn)?shù)據(jù)虛擬化能力。不同廠家產(chǎn)品各具優(yōu)劣,具體取決于應(yīng)用場(chǎng)景。例如,若企業(yè)已有 ETL,可根據(jù)自身需求選擇是否采用獨(dú)立的專(zhuān)門(mén)工具來(lái)實(shí)現(xiàn)虛擬化功能。
一般而言,提供部分虛擬化能力或擴(kuò)展虛擬化能力的廠商,在安全、建模、數(shù)據(jù)目錄、自助服務(wù)等方面缺乏能力,或者缺乏基于 Presto 的 MPP 引擎,相對(duì)來(lái)說(shuō)耗費(fèi)資源、成本高昂、數(shù)據(jù)交付速度緩慢,無(wú)法在復(fù)雜的數(shù)據(jù)生態(tài)中高效運(yùn)作。Denodo 是數(shù)據(jù)虛擬化當(dāng)之無(wú)愧的全球領(lǐng)導(dǎo)者,多年蟬聯(lián) Gartner 數(shù)據(jù)集成工具魔力象限領(lǐng)導(dǎo)者位置、Forrester 企業(yè)數(shù)據(jù)編織領(lǐng)導(dǎo)者位置。
ETL 與虛擬化在數(shù)據(jù)領(lǐng)域存在緊密關(guān)聯(lián),二者均屬于數(shù)據(jù)集成范疇,在 Gartner 的分類(lèi)中也有所體現(xiàn)。倘若當(dāng)前需求側(cè)重于大量數(shù)據(jù)復(fù)制以及歷史數(shù)據(jù)累積,比如某些系統(tǒng)即便能連接原始數(shù)據(jù),但交易數(shù)據(jù)存儲(chǔ)時(shí)長(zhǎng)有限(如僅一兩年),仍需進(jìn)行累積,并且涉及復(fù)雜的清洗轉(zhuǎn)換工作,例如執(zhí)行數(shù)據(jù)質(zhì)量檢查或復(fù)雜運(yùn)算時(shí),建議采用 ETL 架構(gòu)來(lái)實(shí)施。
而數(shù)據(jù)虛擬化則可以簡(jiǎn)化數(shù)據(jù)訪問(wèn)。以往獲取數(shù)據(jù)可能需要訪問(wèn)諸多數(shù)據(jù)源,且在 Hadoop 上的認(rèn)證等設(shè)定極為復(fù)雜。而通過(guò) Denodo,可以提供統(tǒng)一視圖,這類(lèi)似于構(gòu)建了企業(yè)整體的概念性業(yè)務(wù)模型,其背后可融合結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)庫(kù)。如果企業(yè)中有實(shí)時(shí)性報(bào)表及分析需求,那么數(shù)據(jù)虛擬化技術(shù)將更具應(yīng)用價(jià)值。
傳統(tǒng) ETL 項(xiàng)目與數(shù)據(jù)虛擬化項(xiàng)目相比有諸多差異值得關(guān)注。
首先,傳統(tǒng) ETL 所實(shí)施的項(xiàng)目穩(wěn)定性相對(duì)較高,而虛擬化的優(yōu)勢(shì)則體現(xiàn)在執(zhí)行速度較快。從成本角度來(lái)看,無(wú)論是專(zhuān)業(yè)工程師人力成本還是應(yīng)急投資成本等均是需要考量的因素。Forrester 曾進(jìn)行分析,結(jié)果顯示采用數(shù)據(jù)虛擬化技術(shù)后,項(xiàng)目交付時(shí)間大幅縮短,約減少了 65%。同時(shí),我們面臨著模型頻繁變動(dòng)的情況。例如一個(gè)數(shù)據(jù)倉(cāng)庫(kù)模型可能經(jīng)過(guò)一兩年構(gòu)建完成,但不久后便需再次調(diào)整,這凸顯了靈活性的重要性。而虛擬化項(xiàng)目在靈活性上更具優(yōu)勢(shì)。另外,在跨國(guó)客戶(hù)場(chǎng)景中,還會(huì)遇到數(shù)據(jù)復(fù)制受限的問(wèn)題,比如一些跨國(guó)企業(yè)就面臨此類(lèi)情況。在可靠性方面,由于網(wǎng)絡(luò)因素影響,原始數(shù)據(jù)可能受到?jīng)_擊,若要確保虛擬化項(xiàng)目中數(shù)據(jù)可靠,存在一定難度。并且對(duì)于復(fù)雜的清洗工作,可能仍需借助 ETL 來(lái)完成。最后,數(shù)據(jù)的新鮮度也是一個(gè)要點(diǎn),虛擬化項(xiàng)目中的數(shù)據(jù)更接近實(shí)時(shí)。
四、數(shù)據(jù)虛擬化的實(shí)際應(yīng)用案例
接下來(lái)將簡(jiǎn)要介紹一些案例,旨在讓大家了解如何運(yùn)用 NoSQL 來(lái)解決問(wèn)題。Denodo 本身具備諸多關(guān)鍵技術(shù),有著廣泛的應(yīng)用場(chǎng)景。這些案例展示了使用 Denodo 產(chǎn)品所達(dá)成的成果。在許多情況下,Denodo 所扮演的角色類(lèi)似于商業(yè)智能工具,能夠?yàn)閿?shù)據(jù)科學(xué)家和業(yè)務(wù)用戶(hù)等提供支持。
第一個(gè)案例是國(guó)內(nèi)一家新能源車(chē)制造廠商,其業(yè)務(wù)涉及工廠的一次性扣料相關(guān)工作,由于擁有多個(gè)不同的工廠和庫(kù)房,在生產(chǎn)線上處理此類(lèi)事務(wù)時(shí)面臨挑戰(zhàn)。過(guò)去,他們采用傳統(tǒng)的 ETL 方法,后續(xù)雖然使用了低代碼平臺(tái),但仍需編寫(xiě)代碼。而使用 Denodo 處理相同業(yè)務(wù)、整合不同數(shù)據(jù)時(shí),完全采用無(wú)代碼的拖拉方式,就能實(shí)現(xiàn)跨數(shù)據(jù)源及不同數(shù)據(jù)種類(lèi)的轉(zhuǎn)換。
這個(gè)案例是一家臺(tái)灣的工業(yè)電腦廠商。該廠商希望構(gòu)建一個(gè)企業(yè)級(jí)數(shù)據(jù)庫(kù),因?yàn)樗麄冋J(rèn)為數(shù)據(jù)庫(kù)可集中存儲(chǔ)所有所需數(shù)據(jù)。他們的平臺(tái)連接了三十多種數(shù)據(jù)源,涵蓋 DB、MES 等生產(chǎn)線工廠數(shù)據(jù)以及外部 API 數(shù)據(jù),并且還和臺(tái)灣、內(nèi)地及國(guó)外的一些工廠相連。起初,這個(gè)廠商曾期望構(gòu)建一個(gè)數(shù)據(jù)湖,但最終采用了通過(guò) Denodo 進(jìn)行連接的邏輯架構(gòu),這種架構(gòu)如同中央廚房一般,可將各類(lèi)數(shù)據(jù)源視作產(chǎn)地直售的產(chǎn)品,數(shù)據(jù)進(jìn)入后進(jìn)行業(yè)務(wù)名詞定義、產(chǎn)品分類(lèi)(domain)以及其他業(yè)務(wù)分類(lèi),最終由數(shù)據(jù)消費(fèi)者自主使用數(shù)據(jù)。
從全球領(lǐng)先的車(chē)輛租賃和車(chē)隊(duì)管理企業(yè)案例中可以看到其具備傳統(tǒng) ETL 遷移數(shù)倉(cāng)的特點(diǎn),并且在整個(gè)企業(yè)與消費(fèi)者之間,通過(guò)一種邏輯架構(gòu)來(lái)實(shí)現(xiàn)數(shù)據(jù)編織。
數(shù)據(jù)編織對(duì)于集團(tuán)型企業(yè)具有顯著優(yōu)勢(shì)。如前文所述,對(duì)于大型企業(yè),鑒于其在全球范圍內(nèi)設(shè)有多個(gè)數(shù)據(jù)中心的情況,借助 Denodo 平臺(tái)能夠?qū)崿F(xiàn)各數(shù)據(jù)中心的串聯(lián)。如此一來(lái),企業(yè)內(nèi)的任何業(yè)務(wù)單位,無(wú)論身處何地,均可訪問(wèn)全球范圍內(nèi)的數(shù)據(jù)。
某些政府單位會(huì)做得更復(fù)雜一些。如新加坡政府各個(gè)部門(mén)通過(guò) Denodo 平臺(tái)將不同的數(shù)據(jù)進(jìn)行串聯(lián),實(shí)現(xiàn)了數(shù)據(jù)的即時(shí)整合與訪問(wèn),這種方式被稱(chēng)為數(shù)據(jù)合并(Data Merge)。在這一過(guò)程中,并不需要將所有部門(mén)的數(shù)據(jù)物理地遷移至 Denodo 中存儲(chǔ),而是在需要使用數(shù)據(jù)時(shí),才從各自部門(mén)中調(diào)取所需信息。
五、未來(lái)發(fā)展與展望
在最后一個(gè)章節(jié)中,將探討對(duì)未來(lái)發(fā)展的展望。
目前,通過(guò)使用 Denodo 平臺(tái),我們能夠?qū)崿F(xiàn)實(shí)時(shí)數(shù)據(jù)訪問(wèn),減少數(shù)據(jù)復(fù)制,并擴(kuò)大數(shù)據(jù)覆蓋范圍。同時(shí),還可以建立一套完整且嚴(yán)格的數(shù)據(jù)安全治理體系。這是當(dāng)前數(shù)據(jù)虛擬化的現(xiàn)狀,那么未來(lái)的發(fā)展趨勢(shì)是怎樣的呢?
首先,我們必須繼續(xù)強(qiáng)化實(shí)時(shí)數(shù)據(jù)處理的能力。隨著數(shù)據(jù)種類(lèi)和類(lèi)型的日益增多,我們面臨的需求也更加復(fù)雜,因此需要實(shí)施更長(zhǎng)期的數(shù)據(jù)生命周期管理和推進(jìn)數(shù)據(jù)自主化。當(dāng)然,也會(huì)有更多的人工智能技術(shù)被引入,以支持非技術(shù)用戶(hù)也能輕松訪問(wèn)和理解數(shù)據(jù)。特別是檢索增強(qiáng)生成技術(shù)(RAG)的應(yīng)用將成為重要趨勢(shì)。在臺(tái)灣,一些企業(yè)客戶(hù)已經(jīng)開(kāi)始探索這一領(lǐng)域,例如,用戶(hù)可以通過(guò)以自然語(yǔ)言與聊天機(jī)器人對(duì)話(huà)的方式來(lái)獲取所需數(shù)據(jù)。
綜上所述,ETL 與 NoETL 的主要區(qū)別在于數(shù)據(jù)的實(shí)時(shí)性和靈活性。展望未來(lái),Denodo 的發(fā)展方向?qū)⒅鸩睫D(zhuǎn)向利用 AI 技術(shù)提供輔助。值得注意的是,NoETL 并非旨在完全取代傳統(tǒng)的 ETL 方法,而是提倡企業(yè)在數(shù)據(jù)管理實(shí)踐中結(jié)合兩者的優(yōu)點(diǎn),靈活運(yùn)用實(shí)時(shí)數(shù)據(jù)處理與批處理技術(shù),以實(shí)現(xiàn)更加高效的數(shù)據(jù)管理策略。我個(gè)人認(rèn)為,NoETL 的概念并不是否定 ETL 的重要性,而是強(qiáng)調(diào)在數(shù)據(jù)整合領(lǐng)域,除了 ETL 之外,還有其他方法和技術(shù)可以利用,以適應(yīng)不斷變化的數(shù)據(jù)環(huán)境和業(yè)務(wù)需求。
感謝各位的聆聽(tīng),謝謝!
六、Q&A
Q1:請(qǐng)問(wèn)在 Denodo 中跨多種數(shù)據(jù)源的復(fù)雜關(guān)聯(lián)查詢(xún)是如何實(shí)現(xiàn)并保證查詢(xún)性能的?
A1:在 Denodo 長(zhǎng)達(dá) 25 年的技術(shù)積累中,有一個(gè)在本次分享中未詳細(xì)討論的重要技術(shù)點(diǎn),即查詢(xún)優(yōu)化。在之前的介紹中,我們提到了一張說(shuō)明圖,該圖展示了如何將業(yè)務(wù)語(yǔ)義層的請(qǐng)求優(yōu)化至不同的數(shù)據(jù)源中提取數(shù)據(jù)。這是 Denodo 的一大核心優(yōu)勢(shì)所在。面對(duì)海量數(shù)據(jù),如果沒(méi)有高效的優(yōu)化機(jī)制,在數(shù)據(jù)源層面進(jìn)行必要的整理和轉(zhuǎn)換后再在平臺(tái)上進(jìn)行整合,往往會(huì)成為性能的瓶頸,導(dǎo)致大量不必要的數(shù)據(jù)遷移。
得益于在該領(lǐng)域多年的深耕細(xì)作,Denodo 的獨(dú)特之處在于其強(qiáng)大的查詢(xún)優(yōu)化器,能夠確保在分布式數(shù)據(jù)架構(gòu)中快速獲得所需結(jié)果,而無(wú)需大規(guī)模移動(dòng)數(shù)據(jù)。
Q2:展望未來(lái),您更看好傳統(tǒng)的 ETL 還是更加靈活的 NoETL 方向的發(fā)展?在整體主流趨勢(shì)上,您認(rèn)為將更偏向于哪一方?
A2:我強(qiáng)調(diào)選擇 ETL 或 NoETL 應(yīng)基于具體的業(yè)務(wù)需求場(chǎng)景。正如之前提到的,包括 Denodo 在內(nèi)的許多現(xiàn)有客戶(hù)都在使用 ETL。我認(rèn)為 ETL 是企業(yè)基礎(chǔ)架構(gòu)的一部分,是不可或缺的。然而,隨著業(yè)務(wù)需求的多樣化和創(chuàng)新,NoETL 的應(yīng)用場(chǎng)景將會(huì)逐漸增加。但是,對(duì)于那些不需要通過(guò)數(shù)據(jù)創(chuàng)造更多價(jià)值和收入的機(jī)構(gòu)來(lái)說(shuō),它們可能不會(huì)強(qiáng)烈感受到采用 NoETL 的必要性,比如一些政府部門(mén)只需要制作日?qǐng)?bào)、月報(bào)。
Q3:請(qǐng)問(wèn)在語(yǔ)義管理過(guò)程中需要大量的人工進(jìn)行配置嗎?
A3:以臺(tái)灣某客戶(hù)的項(xiàng)目為例,該項(xiàng)目并未擴(kuò)大團(tuán)隊(duì)規(guī)模,而是完全依靠現(xiàn)有的IT 人員完成。Denodo 憑借其在該領(lǐng)域近二十年的經(jīng)驗(yàn),不僅提供了強(qiáng)大的工具支持,還帶來(lái)了一系列成熟的產(chǎn)品方法論。例如,在構(gòu)建不同的域和應(yīng)用層時(shí),Denodo 提供了一套實(shí)施架構(gòu)指導(dǎo),幫助用戶(hù)高效完成項(xiàng)目。在這個(gè)過(guò)程中,確實(shí)需要進(jìn)行一些業(yè)務(wù)定義工作,這部分工作通常需要人工完成,因?yàn)樵谠缙陔A段,系統(tǒng)中往往未保存這些信息,且相關(guān)信息可能分散在多個(gè)業(yè)務(wù)系統(tǒng)中,需要手動(dòng)收集。值得一提的是,Denodo 現(xiàn)已通過(guò) AI 技術(shù)的整合,能夠?qū)Ρ斫Y(jié)構(gòu)或 SQL 查詢(xún)提供初步建議。這意味著,用戶(hù)不必從零開(kāi)始構(gòu)建語(yǔ)義層,而是可以通過(guò) AI 快速獲得基礎(chǔ)建議,之后再根據(jù)具體情況進(jìn)一步討論和調(diào)整。這種方式大大減少了初期的工作量,尤其是在數(shù)據(jù)治理方面,盡管最終仍需人工審核和確認(rèn),但 AI 的介入顯著提升了效率和準(zhǔn)確性。