成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

為什么云原生數(shù)據(jù)湖值得關(guān)注?

原創(chuàng) 精選
大數(shù)據(jù) 數(shù)據(jù)湖
預(yù)計(jì)中國云原生數(shù)據(jù)湖市場(chǎng)未來會(huì)以39.7%的復(fù)合增長率快速發(fā)展,云原生數(shù)據(jù)湖未來的發(fā)展前景值得我們期待和關(guān)注。

最近幾年,"數(shù)據(jù)湖"正在被越來越多人提起,盡管各方對(duì)數(shù)據(jù)湖的定義并不統(tǒng)一,但這不妨礙企業(yè)紛紛下水實(shí)踐,比如亞馬遜、阿里、騰訊、華為等,都在探索建設(shè)數(shù)據(jù)湖。為何眾多企業(yè)在"數(shù)據(jù)湖是什么"上還沒有達(dá)成共識(shí)的情況下,就開始著手進(jìn)軍數(shù)據(jù)湖領(lǐng)域呢?一個(gè)可能的原因是,數(shù)據(jù)湖將代表大數(shù)據(jù)和AI時(shí)代融合存儲(chǔ)和計(jì)算的全新體系,特別是數(shù)據(jù)湖和云原生結(jié)合以后,這一趨勢(shì)更加明顯。要想理解這一點(diǎn),還要從數(shù)據(jù)湖的發(fā)展說起。

數(shù)據(jù)湖的崛起?

2010年P(guān)entaho公司的創(chuàng)始人兼首席技術(shù)官詹姆斯·狄克遜(James Dixon)首次提出數(shù)據(jù)湖的概念。詹姆斯·狄克遜把數(shù)據(jù)湖中的數(shù)據(jù)比作原生態(tài)的水——它是未經(jīng)處理的,保留原始結(jié)構(gòu)的。

數(shù)據(jù)湖中的水從源頭流入湖中,各種用戶都可以來湖里獲取、蒸餾提純這些水(數(shù)據(jù))。于是,早期業(yè)界和用戶多把數(shù)據(jù)湖定義為一個(gè)集中式的儲(chǔ)存原始格式數(shù)據(jù)的系統(tǒng),可存儲(chǔ)任意規(guī)模的結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化及二進(jìn)制的數(shù)據(jù)。

隨著大數(shù)據(jù)技術(shù)的融合發(fā)展,數(shù)據(jù)湖的邊界不斷擴(kuò)展,內(nèi)涵不斷變化,逐步演變成為集多源異構(gòu)數(shù)據(jù)統(tǒng)一儲(chǔ)存、多范式計(jì)算分析及統(tǒng)一管理調(diào)用的大數(shù)據(jù)綜合解決方案。

這就讓數(shù)據(jù)湖與數(shù)據(jù)倉庫有了很大的不同。

數(shù)據(jù)倉庫誕生于數(shù)據(jù)庫時(shí)代,它的核心思路是把數(shù)據(jù)庫眾多數(shù)據(jù)進(jìn)行一定格式轉(zhuǎn)換后,定時(shí)地復(fù)制到另一個(gè)庫里做列式存儲(chǔ),從而滿足企業(yè)查詢和數(shù)據(jù)分析的需求。

在過去,很多企業(yè)的數(shù)據(jù)以ERP、CRM數(shù)據(jù)為主,數(shù)據(jù)規(guī)模往往是TB級(jí),企業(yè)通常在本地采用數(shù)據(jù)倉庫解決方案來存儲(chǔ)和分析數(shù)據(jù)。但數(shù)據(jù)倉庫這種方式模型范式固定,底層數(shù)據(jù)無法做到多樣變化。

隨著互聯(lián)網(wǎng)的發(fā)展,數(shù)據(jù)量暴增,非結(jié)構(gòu)化數(shù)據(jù)越來越多,企業(yè)業(yè)務(wù)變化越來越快,數(shù)字化轉(zhuǎn)型成為IT行業(yè)的熱點(diǎn),數(shù)據(jù)需要更深度的價(jià)值挖掘,因此需要確保數(shù)據(jù)中保留的原始信息不丟失,應(yīng)對(duì)未來不斷變化的需求。

傳統(tǒng)的數(shù)據(jù)倉庫無法滿足大數(shù)據(jù)時(shí)代企業(yè)對(duì)于實(shí)時(shí)、交互式分析等方面的需求,而數(shù)據(jù)湖擇了"前松后緊"的設(shè)計(jì)思路,初始化階段放棄嚴(yán)格的模式,后置schme,從而獲得更強(qiáng)的靈活性,同時(shí)通過統(tǒng)一存儲(chǔ)和計(jì)算優(yōu)化來保證數(shù)據(jù)的一致性和性能,這就讓數(shù)據(jù)湖開始在大數(shù)據(jù)領(lǐng)域逐漸受到關(guān)注。

發(fā)展至今,數(shù)據(jù)湖已經(jīng)不再局限于某個(gè)技術(shù)、某個(gè)軟件產(chǎn)品,而是涵蓋數(shù)據(jù)湖存儲(chǔ)、數(shù)據(jù)湖計(jì)算、數(shù)據(jù)湖AI的多元化數(shù)據(jù)架構(gòu),滿足企業(yè)級(jí)用戶的生產(chǎn)管理需求。

為何數(shù)據(jù)湖與云原生是最佳組合

隨著以O(shè)racle為代表的數(shù)據(jù)庫中間件越來越難以滿足企業(yè)業(yè)務(wù)迅速變化帶來的數(shù)據(jù)處理需求,IT業(yè)界不斷地產(chǎn)生新的計(jì)算引擎,比如,企業(yè)開始紛紛自建開源Hadoop數(shù)據(jù)湖架構(gòu),原始數(shù)據(jù)統(tǒng)一存放在HDFS系統(tǒng)上,引擎以Hadoop和Spark開源生態(tài)為主,存儲(chǔ)和計(jì)算一體。

但這種架構(gòu)的缺點(diǎn)是需要企業(yè)自己運(yùn)維和管理整套集群,成本高且集群穩(wěn)定性較差。在這種情況下,云上托管Hadoop數(shù)據(jù)湖架構(gòu)(即EMR開源數(shù)據(jù)湖)應(yīng)運(yùn)而生。底層物理服務(wù)器和開源軟件版本由云廠商提供和管理,數(shù)據(jù)仍統(tǒng)一存放在HDFS系統(tǒng)上,引擎以Hadoop和Spark開源生態(tài)為主。這個(gè)架構(gòu)通過云上IaaS層提升了機(jī)器層面的彈性和穩(wěn)定性,使企業(yè)的整體運(yùn)維成本有所下降,但企業(yè)仍然需要對(duì)HDFS系統(tǒng)以及服務(wù)運(yùn)行狀態(tài)進(jìn)行管理和治理,即應(yīng)用層的運(yùn)維工作。

因?yàn)榇鎯?chǔ)和計(jì)算耦合在一起,穩(wěn)定性不是最優(yōu),兩種資源無法獨(dú)立擴(kuò)展,使用成本也不是最優(yōu)。同時(shí),受到開源軟件本身能力的限制,傳統(tǒng)數(shù)據(jù)湖技術(shù)無法滿足企業(yè)用戶在數(shù)據(jù)規(guī)模、存儲(chǔ)成本、查詢性能以及彈性計(jì)算架構(gòu)升級(jí)等方面的需求,也無法達(dá)到數(shù)據(jù)湖架構(gòu)的理想目標(biāo)。

云計(jì)算可以讓數(shù)據(jù)湖發(fā)揮出最大的價(jià)值與作用。云計(jì)算擁有極為靈活、彈性和可擴(kuò)展的計(jì)算存儲(chǔ)資源,使得數(shù)據(jù)的存儲(chǔ)、分析和應(yīng)用變得無比容易;而數(shù)據(jù)湖最大的價(jià)值在于將企業(yè)內(nèi)各種格式的數(shù)據(jù)統(tǒng)一匯聚,在一份數(shù)據(jù)之上進(jìn)行多種分析,高性價(jià)比且高效地挖掘數(shù)據(jù)價(jià)值,特別是數(shù)據(jù)湖的設(shè)計(jì)思路與云計(jì)算天然契合,因此自2010年數(shù)據(jù)湖概念被提出以來,云服務(wù)商是數(shù)據(jù)湖概念走向落地的重要推手。

隨著云原生時(shí)代到來,當(dāng)數(shù)據(jù)湖以云原生(當(dāng)提到云原生時(shí),很多人的第一反應(yīng)是Serverless、容器化這些概念,其實(shí)近些年來,云原生的概念逐步泛化,涵蓋了很多產(chǎn)品服務(wù),從某種程度上講,云原生是一種分布式系統(tǒng)的設(shè)計(jì)范式,這種范式具備彈性、安全、穩(wěn)定等特征)的方式部署時(shí),其強(qiáng)大的性能優(yōu)勢(shì)可以被最大化釋放。

一方面,數(shù)據(jù)湖上云后可以享受云本身帶來的性能提升,如高可用(相較于自建IDC,云環(huán)境擁有更多的資源冗余,一節(jié)點(diǎn)發(fā)生故障可以無縫切換到其他節(jié)點(diǎn),確保業(yè)務(wù)的連續(xù)性)、彈性(云計(jì)算具備動(dòng)態(tài)擴(kuò)充性與可負(fù)擔(dān)性,可以解決海量業(yè)務(wù)帶來的吞吐和IO性能瓶頸,滿足大數(shù)據(jù)分析所需資源的龐大規(guī)模與突發(fā)性質(zhì)的需求)、敏捷(云讓企業(yè)從重復(fù)、復(fù)雜的底層IT工作中釋放出來,同時(shí)其模塊化、松耦合的敏捷架構(gòu)有利于數(shù)據(jù)產(chǎn)品的快速迭代、部署、運(yùn)維與創(chuàng)新)。

另一方面,數(shù)據(jù)湖在云原生的環(huán)境中可以做更多性能優(yōu)化的工作,如豐富的上下文帶來的分析加速,流失處理和批式處理的融合帶來的實(shí)時(shí)數(shù)據(jù)價(jià)值釋放,一站式數(shù)據(jù)管理方案帶來的安全和質(zhì)量改善等。這就讓企業(yè)得以有效利用公有云的基礎(chǔ)設(shè)施,數(shù)據(jù)湖平臺(tái)也有了更多的技術(shù)選擇,比如云上純托管的存儲(chǔ)系統(tǒng)逐步取代HDFS,成為數(shù)據(jù)湖的存儲(chǔ)基礎(chǔ)設(shè)施,并且引擎豐富度也不斷擴(kuò)展。總之,云特有的"池化、彈性、敏捷"等特性,讓數(shù)據(jù)層與應(yīng)用層的很多設(shè)想得以實(shí)現(xiàn),擁抱云原生成為數(shù)據(jù)湖乃至大數(shù)據(jù)的必然選擇

展望云原生數(shù)據(jù)湖的未來

如果對(duì)云原生數(shù)據(jù)湖做一個(gè)概括的話,云原生數(shù)據(jù)湖是大數(shù)據(jù)計(jì)算平臺(tái)借助云計(jì)算理論發(fā)展出來的新技術(shù)產(chǎn)品,其支持異構(gòu)數(shù)據(jù)靈活存儲(chǔ)、計(jì)算資源彈性伸縮,能夠幫助企業(yè)應(yīng)對(duì)當(dāng)前數(shù)據(jù)結(jié)構(gòu)愈發(fā)復(fù)雜、數(shù)據(jù)處理時(shí)效性要求不斷變高的業(yè)務(wù)環(huán)境

也就是說,云原生數(shù)據(jù)湖只是一種架構(gòu)原理,其具體實(shí)現(xiàn)的方式多種多樣,基于EMR可以做云原生數(shù)據(jù)湖,基于Flink也可以做云原生數(shù)據(jù)湖。

不過需要說明的是,雖然中國數(shù)據(jù)湖技術(shù)正在逐年發(fā)展與突破,公有云廠商及其他廠商紛紛在嘗試,但目前在數(shù)據(jù)感知收集及歸類清洗方面存在壁壘和難度,數(shù)據(jù)湖建模經(jīng)驗(yàn)不足。總的來說,我國數(shù)據(jù)湖市場(chǎng)整體發(fā)展處于初期階段,技術(shù)路線不統(tǒng)一,業(yè)內(nèi)產(chǎn)品能力良莠不齊。

從應(yīng)用現(xiàn)狀來看,數(shù)據(jù)湖在國內(nèi)的落地還存在許多痛點(diǎn)。

產(chǎn)品層面,數(shù)據(jù)湖的數(shù)據(jù)治理能力和全鏈路能力仍需要進(jìn)一步加強(qiáng)

就數(shù)據(jù)治理而言,數(shù)據(jù)治理要求在目錄中包含數(shù)據(jù)的分類、規(guī)則,如果企業(yè)對(duì)于數(shù)據(jù)湖的掌控能力不足,會(huì)導(dǎo)致數(shù)據(jù)湖目錄及整體架構(gòu)設(shè)計(jì)不良,湖內(nèi)數(shù)據(jù)未得到充分歸檔或維護(hù),容易形成數(shù)據(jù)沼澤。因缺少上下文元數(shù)據(jù)關(guān)聯(lián),數(shù)據(jù)沼澤無法進(jìn)行數(shù)據(jù)檢索,致使用戶無法有效分析和利用數(shù)據(jù)。

就全鏈路能力而言,現(xiàn)階段國內(nèi)可以提供全鏈路云原生數(shù)據(jù)湖服務(wù)的供應(yīng)商較少,大多廠商僅提供數(shù)據(jù)湖組件的支持,因此下游需求企業(yè)只能采購多家供應(yīng)商來滿足自身從數(shù)據(jù)采集治理到分析可視化的需求。

應(yīng)用層面,云原生數(shù)據(jù)湖的行業(yè)認(rèn)知和人才培養(yǎng)較為薄弱。人才方面,目前大數(shù)據(jù)、AI技術(shù)棧的發(fā)展日新月異,企業(yè)缺乏專業(yè)人才。從企業(yè)內(nèi)部來看,管理者對(duì)數(shù)據(jù)治理一知半解,若在沒有深入梳理企業(yè)業(yè)務(wù)現(xiàn)狀及需求的情況下盲目搭建數(shù)據(jù)湖,追求大而全的概念,可能導(dǎo)致數(shù)據(jù)湖的落地效果不佳。行業(yè)認(rèn)知方面,盡管數(shù)據(jù)的價(jià)值屬性已經(jīng)獲得業(yè)界的廣泛共識(shí),但是選擇觀望的企業(yè)仍舊占絕大多數(shù),數(shù)據(jù)湖在認(rèn)知和推廣上仍面臨多方面的挑戰(zhàn)。

另外,隨著企業(yè)數(shù)字化轉(zhuǎn)型進(jìn)入深水區(qū),數(shù)據(jù)已經(jīng)成為企業(yè)的核心生產(chǎn)要素,而數(shù)據(jù)湖的最大風(fēng)險(xiǎn)之一就是安全性和訪問控制。大量數(shù)據(jù)在沒有任何監(jiān)管的情況入湖泊,一旦某些數(shù)據(jù)包含其他數(shù)據(jù)沒有的隱私和法規(guī)要求,將可能發(fā)生數(shù)據(jù)泄露和遺失,帶來不可估量的后果。

當(dāng)然,任何一個(gè)行業(yè)在發(fā)展初期都會(huì)存在這樣那樣的問題,有不完善的地方恰恰意味著這個(gè)行業(yè)還有發(fā)展的空間。根據(jù)艾瑞咨詢的分析,由于國家政策利好,比如國家接連出臺(tái)《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》《全國一體化大數(shù)據(jù)中心協(xié)同創(chuàng)新體系算力樞紐實(shí)施方案》等文件推動(dòng)大數(shù)據(jù)產(chǎn)業(yè)走向成熟,以及互聯(lián)網(wǎng)技術(shù)高速發(fā)展的驅(qū)動(dòng)、企業(yè)數(shù)字化轉(zhuǎn)型加速等因素,預(yù)計(jì)中國云原生數(shù)據(jù)湖市場(chǎng)未來會(huì)以39.7%的復(fù)合增長率快速發(fā)展。

所以,云原生數(shù)據(jù)湖未來的發(fā)展前景值得我們期待和關(guān)注。

參考資料:https://www.iresearch.com.cn/Detail/report?id=3972&isfree=0

責(zé)任編輯:閆懷德 來源: 51CTO
相關(guān)推薦

2020-04-22 08:40:04

開源云原生容器

2018-10-06 19:10:26

技術(shù)項(xiàng)目云計(jì)算

2020-09-15 12:56:00

數(shù)據(jù)湖架構(gòu)

2018-09-10 12:47:36

Kubernetes云計(jì)算云原生技術(shù)

2022-03-10 09:28:24

Kubernete云原生

2020-10-27 07:08:06

2022-08-31 15:40:13

云原生數(shù)據(jù)

2020-02-25 17:04:05

數(shù)據(jù)庫云原生分布式

2021-10-29 10:12:34

云原生勒索軟件網(wǎng)絡(luò)攻擊

2022-10-14 14:20:20

云原生數(shù)據(jù)倉庫

2024-02-19 18:36:31

通感一體低空經(jīng)濟(jì)5G-A

2021-04-14 14:07:36

云計(jì)算云原生SaaS

2021-03-30 22:34:35

云計(jì)算云原生SaaS

2010-05-11 09:30:02

云計(jì)算廠商

2022-09-01 15:23:21

云原生

2020-08-04 14:20:20

數(shù)據(jù)湖Hadoop數(shù)據(jù)倉庫

2021-08-18 09:00:00

云原生混合云無服務(wù)器

2019-08-27 16:48:07

云原生云計(jì)算微服務(wù)

2020-03-06 10:01:39

云計(jì)算云原生工具

2023-06-05 00:25:32

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 久久视频精品 | 麻豆毛片| 九九久久久| 欧美一区二区三区在线观看视频 | 日韩一区欧美一区 | 国产精品1区 | 九九av| 国产精品欧美一区二区三区 | 搞av.com | 日本天堂视频 | 国产精品久久久久久模特 | 久久久久亚洲精品 | 欧美自拍视频 | 婷婷丁香激情 | 国产亚洲成av人片在线观看桃 | av免费观看网站 | 亚洲精品久久久久久国产精华液 | 久久久不卡网国产精品一区 | 亚洲成色777777在线观看影院 | 天天操夜夜拍 | 欧美一区久久 | 国产精品一区二区三区在线播放 | 欧美综合一区 | 日本一区二区不卡 | 成人av网站在线观看 | 偷派自拍 | 国产成人精品综合 | 国产精品一区二区三级 | 国产激情片在线观看 | 一区二区三区国产好的精 | 国产欧美一区二区三区日本久久久 | 亚洲视频在线观看 | 天天操 夜夜操 | 午夜免费在线 | 国产日产久久高清欧美一区 | 国内精品久久久久久 | 99re视频| 国产在线一区二区三区 | 日本污视频| 欧美日韩国产在线观看 | 中文精品视频 |