成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

DataWorks:阿里全鏈路數據治理實踐

數據庫 新聞
本文將介紹阿里巴巴數據平臺的發展歷程以及阿里云全鏈路數據治理實踐。

01 阿里巴巴數據平臺發展歷史與現狀

1. 阿里巴巴數據平臺發展的四個階段

  • 第一階段:2012年

圖片?

阿里巴巴數據平臺發展的四個階段中的第一個階段大概在2012年。構建數據中臺,一個強大的數據平臺必不可少,數據平臺也可稱為數據中臺的數據底座。阿里巴巴數據平臺發展的四個階段代表著阿里數據中臺發展的四個階段,這四個階段可以看到阿里對整個數據系統的不斷變革以及對數據高效應用的思路。

在第一個階段,阿里的電商業務進入了一個爆發期,淘寶、1688等多個團隊都是基于數據驅動,數據架構基本都基于IOT架構,核心系統都在Oracle上。2年時間內阿里已經建設了全亞洲最大的Oracle集群,但到2010年時Oracle已經無法滿足公司業務計算的需求,不斷出現數據延遲和計算錯誤,而且Oracle計算的成本很高,無法支撐業務發展,為此阿里計劃構建下一代的數據平臺,同時啟動了云梯1和云梯2兩個項目。

云梯1基于開源Hadoop的技術體系搭建,多個業務部門分別構建了自己的Hadoop集群,集群規模一度達4000臺,那時候阿里巴巴也搭建了自己的一個數據同步引擎,也就是現在的DataX,以及第一代的任務調度引擎“天網”,這兩個引擎構建了現在的DataWorks的基礎服務,那時的DataWorks還沒有UI,只是個命令行工具。

云梯2是基于阿里巴巴自研的一個大數據計算服務,也就是現在的MaxCompute,當時集群規模達到了1200臺。這兩個項目當時在阿里內部是競爭關系,并在內部引起了一場廣泛的關于開源和自研的爭議。

  • 第二階段:2015年

圖片?

2012至2015年阿里電商業務飛速發展,同時也涌現出菜鳥、高德、釘釘等多個新興業務,阿里內部也形成了多個不同架構的平臺系統,然后導致數據孤島現象的日益加劇,數據成本飆升。

2013年,云梯1和云梯2兩個集群的規模達到瓶頸,很多業務因此無法繼續開展,阿里集團已經沒有辦法同時去支撐兩套技術路線的同時發展,此時需要做出一個抉擇。當時云梯1的Hadoop集群遇到了無法突破5000臺瓶頸,在業界也無先例,同時數據安全也是一個問題。最終阿里選擇自研的云梯2,并通過“5K”項目突破了5000臺集群的物理極限。

5K項目成功后阿里啟動了“登月計劃”將云梯1的Hadoop集群全面切換到MaxCompute集群。這期間DataWorks也推出了在線IDE,讓數據開發從“命令行+本地IDE”時代進入WebIDE時代。

2015年,阿里云數加平臺發布其核心產品正是MaxCompute和DataWorks。作為數據開發平臺,面臨既要支持集團內部數據的建設,又要支持阿里云上的公共云、專有云上的客戶,阿里集團內部涌現多套的數據平臺,包含對內支撐和對外服務。最終阿里巴巴面對數據平臺的分與合,選擇了建設集團統一數據開發平臺,即將所有數據開發類工具整合到DataWorks。

  • 第三階段:2018年

圖片?

2015年到2018年,數據中臺方法論開始逐步建立,拉開了數據中臺建設的大幕。2015年阿里宣布了數據中臺建設戰略,開始構建符合DT時代的“大中臺、小前臺”組織機制和業務機制,進行從業務數據化到數據業務化的轉變。

隨著計算和數據的不斷增長,數據治理問題凸顯,阿里巴巴開始思考如何將數據中臺的方法論落地平臺層,讓平臺可以更好的支持中臺的建設。在數據平臺側,MaxCompute 達到了10萬臺集群規模,DataWorks構建大規模協同數據開發與治理的一站式能力,服務100+阿里集團BU、20萬+阿里員工的取數用數需求。

  • 第四階段:2021年

圖片?

2018年至2021年我們稱之為云上數據中臺與業務伴生的階段,2018年后阿里的數據平臺業務已經很成熟了,數據中臺達到了一個正循環,可視為數據中臺建設成功的標志。DataWorks支撐建設的數據中臺全面服務業務、支持集團內300+數據應用、MaxCompute智能數倉讓雙11成為日常,目前已能夠以一個比較低的成本實現支持業務的快速增長。

2. 阿里巴巴數據平臺發展現狀

  • “數據效率”成為核心指標

圖片?

企業數據中臺建設的成功與否核心指標就是“數據效率”,阿里從數據規模與彈性、數據的成本、數據的正確性與可維護性、數據利用率四個方面來衡量數據效率,數據治理逐漸被提上日程。

02

阿里巴巴數據治理的實踐

圖片?

阿里巴巴數據治理分為四個階段,也是伴隨著數據平臺的發展階段。

(1)第一階段:數據穩定性治理

圖片

第一階段,也是首要要保障的問題,即數據穩定性。阿里巴巴通過以下幾個方面來保障數據生產的穩定性。

① 穩定可靠的調度服務:通過阿里自研的天網調度系統能很好地支撐每日千萬級別的任務量,并且成功了解決復雜依賴問題。

② 規范化數據開發運維:數據開發、生產環境隔離,確保線上生產的穩定性,任務發布也進行了獨立管控,支持變更卡點和審批。

③ 基線監控:從業務視角定義任務優先級,實現資源管控。

④ 快速恢復:任務出錯自愈,自動生成工單保證快速響應,任務診斷幫助定位原因,批量重刷數據以快速恢復。

⑤ 大促保障:全網強管控,問題節點治理,任務降級能力,分時調度等。

(2)第二階段:數據規范治理

圖片?

第二階段為數據規范治理。阿里巴巴通過數倉規范設計和開發來預防問題的發生,通過核心公共層來減少數據重復建設和確保口徑一致性。基本思路是構建一個指標體系、設計數據模型、數據處理任務開發、數據服務開放。數倉中的核心公共層定義了一條門檻線,進入核心公共層的數據納入強管控以確保數據的規范性。

(3)第三階段:數據安全治理

圖片?

第三個階段,數據安全治理。當前,數據安全已被提高到國家和社會的層面。數據安全治理主要從數據分類分級與權限控制、敏感數據發現與脫敏、數據風險審計、可信計算環境四個方面進行。這里主要提一下數據分類分級,我們支持數據自動打標(如通過血緣關系等),特殊的數據可由人工打標調整,然后基于不同標簽對數據進行更合理管控和使用。

(4)第四階段:數據成本治理

圖片

第四個階段,數據成本治理,這也是阿里巴巴近幾年在持續做的事情。阿里做成本治理為四個步驟,即設定組織成本目標、培養個人成本意識(有工具督促)、計算存儲成本并管控、成本治理評估與運營。阿里巴巴2020年成本治理成效顯著,以10%的數據成本增長支撐了65%的業務增速。

(5) 數據治理總結

圖片?

阿里巴巴的數據治理主要從組織體系、數據資產治理方法論、平臺工具支撐&運營三個方面保障。其中平臺工具是基礎,主要包含了DataWorks、 MaxCompute這兩個平臺的應用,皆在以上四個數據治理階段發揮了重要作用,接下來將繼續為大家解析DataWorks的核心能力。

03 基于阿里云DataWorks的全鏈路數據治理平臺能力

1. 阿里云大數據平臺業務全景圖

圖片?

阿里云自研大數據產品體系主要涵蓋了DataWorks、MaxCompute、Hologres、Datahub等產品,它集中存儲和管理企業數據資產面向數據應用處理和分析數據將數據轉換為業務洞察。通過與阿里云內、外部服務靈活組合,可構建豐富的數據應用。全托管的數據與分析解決方案,可簡化平臺運維、管理投入,提升面向業務的服務能力,加速數據價值實現。

2. DataWorks產品架構

圖片

DataWorks作為一站式數據開發和治理平臺,包含了數據集成、規范設計、數據開發、數據治理、數據分析、數據服務、開放平臺等產品服務,覆蓋了大數據研發和治理的全流程和全生命周期。在大數據引擎支持方面,DataWorks可以支持MaxCompute、實時數倉Hologres、開源大數據平臺EMR和CDH/CDP,可以很好的適配市場上的主流大數據平臺服務。

3. DataWorks 數據治理產品能力

上述的阿里巴巴數據治理的四個階段,DataWorks都提供了相應的產品工具能力支撐。

① DataWorks任務調度與運維

圖片?

DataWorks提供了超大規模任務調度能力、可視化工作流編排、復雜調度邏輯控制、離線&實時任務運維、可視化任務運維操作、任務智能運維診斷等功能。DataWorks的任務調度系統伴隨著阿里巴巴10多年數倉發展和“雙11”的考驗,性能與穩定性業界領先,是保障數據生產穩定產出的基礎。

② DataWorks數據質量管理

圖片

DataWorks數據質量管理提供了對數據完整性、有效性、準確性、唯一性、一致性和合理性的全面評估和保障能力。支持靈活的質量規則定義,包含37種內置模板規則和自定義規則,提供智能規則自動推薦、動態閾值智能預測,通過機器學習來智能確定規則的合理上下限值,減少數據探查的成本,提高質量規則配置效率。同時支持選擇是否阻塞下游任務運行以避免臟數據污染。

③ DataWorks數倉規范設計(數據建模)

圖片?

DataWorks數據建模產品體系包含了數倉規劃、數據標準,維度建模和數據指標。提供了多種建模交互方式,包含可視化數據建模,導入Excel數據模型文檔,通過FML(Fast Modeling Language,一種由DataWorks開源的類SQL數據建模語言)語義化數據建模,并且能夠自動生成ETL偽代碼,實現數據建模與數據開發的無縫銜接。DataWorks數據建模支撐了阿里集團數倉的核心公共層建設,是OneData方法論的產品化實現。

④ DataWorks元數據管理(數據地圖)

圖片?

元數據管理可以說是數據管理和數據治理的基礎。DataWorks數據地圖提供了數據發現、數據類目、數據檢索、數據詳情、數據預覽與探查、數據血緣與影響分析功能。支持異構數據源的元數據自動采集并自動構建數據目錄,支持表級及字段級數據血緣,并基于數據血緣進行影響分析,從而推斷數據變更可能造成的影響范圍,以此來指導數據開發人員進行數據變更影響評估。

⑤ DataWorks數據安全管控

圖片?

DataWorks與MaxCompute提供了金融級數據安全管控能力,包含細粒度數據權限控制、數據分類分級、敏感數據發現與脫敏、數據審計等,覆蓋了數據傳輸安全、數據存儲安全、數據處理安全和數據交換安全的全鏈路數據安全服務。

⑥ DataWorks主動式與可持續數據治理

圖片?

DataWorks在過去多年發展迭代中,沉淀了非常多的數據治理產品工具,但要把這些工具用好,依然依賴于人的經驗能力。很多企業在數據治理的過程中,也面臨數據治理的成效不易評估,治理團隊業績不好衡量,從而導致數據治理過程往往淪為項目制、運動式,不可持續。為解決這樣的問題,DataWorks全新推出了數據治理中心產品,通過問題驅動的方式,幫助企業主動發現待治理問題,然后引導用戶優化和解決問題,再提供數據治理成效的評分模型,幫助企業定量評估數據治理的健康度,從而實現有效的、可持續運營的數據治理過程。

DataWorks數據治理中心產品提供了五個維度的待治理問題的發現能力,包含研發規范、數據質量、數據安全、計算資源和存儲資源。針對這五個維度,產品內置了非常豐富的治理項掃描機制,能夠在事后識別出問題。同時,產品也內置了檢查項攔截機制,在事前和事中提前發現和攔截問題。

針對這五個維度,DataWorks結合在阿里巴巴內部的實踐,設計了一套健康分評估模型,可以有效地定量衡量數據治理的成效。企業可以通過數據治理健康分,快速識別自身短板,然后針對性進行治理,并通過健康分實現評比和考核,從而達到可持續可運營的數據治理,讓數據治理過程有的放矢,不再無從下手。

4. DataWorks 開放平臺助力企業實現個性化數據治理

圖片?

企業的數據治理過程并非標準化的,DataWorks數據治理中心提供的產品能力必然也無法完全滿足企業數據治理中的所有需求。因此一套完善的數據治理平臺必須要支持插件化機制,允許企業自定義數據治理插件。

DataWorks全新升級了開放平臺,在原有OpenAPI基礎之上,新增了開放事件(Open Event)、擴展點(Hook)和擴展程序(Extensions)能力。您可以訂閱DataWorks平臺中開放的事件消息。DataWorks對核心流程中的事件提供了擴展點機制(Hook),當事件發生時,系統會自動中斷流程,同時等待您接收到事件消息并對事件消息進行自定義處理,最后通過OpenAPI將您的處理結果回調給DataWorks,DataWorks將根據您的自定義處理結果選擇執行或者阻斷后續流程,從而實現您對DataWorks處理流程的自定義控制。您訂閱事件、處理事件和回調事件處理結果的程序服務稱之為擴展程序,即插件。通過這種方式,您可以實現各式各樣的自定義數據治理插件,例如任務發布檢查插件、計算費用消耗檢查插件等。

04 下一代數據平臺的智能進化方向

圖片?

數據湖是一個寬進寬出,相對協同比較松耦合的系統。數據倉庫是一個嚴進嚴出,比較嚴格緊耦合的系統。數據湖是數據先進來,然后再開始用,所以是屬于事后建模,可以存儲結構化、半結構化、非結構化數據。數據倉庫是一個嚴格的系統,所以需要事前建模,數據經過轉化清洗進到倉里面,存儲類型變為結構化或者半結構化。數據湖是提供了一套標準的開放接口,來支持更多的引擎,像插拔式的插到這個體系里面,所以它是向所有的引擎開放。數據倉庫向特定引擎開放,但是恰恰因為數據倉庫是一個自閉環系統,它的計算引擎、存儲引擎、元數據之間是可以做到非常深度、垂直的優化,可以獲得一個非常好的性能。整體上來講,數據湖更偏靈活性,數據倉庫更偏企業級能力。

既然數據湖和數據倉庫在企業發展的不同階段均發揮著關鍵的作用,那么有沒有一種技術或者架構可以同時發揮兩者的優勢?通過我們對業界的洞察以及阿里云自身的實踐,我們認為湖和倉正在發生融合,湖倉一體新的數據管理架構可以很好的解決這個問題。湖倉一體作為下一代數據平臺架構,是滿足復雜現狀下架構的靈活升級。

MaxCompute湖倉一體支持連接Hadoop數據湖和OSS數據湖,DataWorks提供了湖倉一體化的開發和管理的升級,支持分鐘級自助打通湖和倉,屏蔽了很多底層的配置細節,從而實現快速的業務洞察。

今天的分享就到這里,謝謝大家。

責任編輯:張燕妮 來源: DataFunTalk
相關推薦

2023-06-19 07:27:50

網易嚴選全鏈路

2023-02-08 19:32:27

大數據

2023-08-07 08:40:24

2020-09-11 10:29:16

騰訊云WeData 全鏈路

2024-07-09 10:53:35

2023-10-09 07:24:58

數據穩定性治理數據處理

2023-07-20 15:46:24

2020-02-26 14:46:39

DataWorks阿里數據開發

2023-01-31 15:27:13

數據治理數據管理

2023-06-01 08:54:08

RabbitMQ確認機制生產端

2021-08-06 11:47:17

食品安全

2023-06-12 07:44:21

大數據數據治理

2024-03-26 06:46:52

大數據數據治理大數據資產治理

2022-12-30 15:27:13

2023-04-10 07:34:30

2024-01-11 08:15:52

大數據成本治理Hadoop

2024-04-22 07:56:32

數據倉庫數據中臺數據服務

2023-10-26 06:55:46

大數據數據倉庫

2021-06-11 13:56:27

大數據DataWorks數據開發
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 能免费看的av | 亚洲精品一二三区 | 成人免费看电影 | 97国产爽爽爽久久久 | 成人在线观看免费 | 日韩中文字幕高清 | 欧美日韩一| 99热碰| 日本黄色大片免费 | 精品欧美一区二区三区久久久 | 99精品免费视频 | 欧美激情一区二区 | 国产精品欧美一区二区三区不卡 | 亚洲精品无 | 一区二区三区四区不卡视频 | 日本中文字幕日韩精品免费 | 国产精品成人一区二区 | 日韩精品免费视频 | 亚洲九九 | 国产传媒在线观看 | 91精品国产一区二区三区香蕉 | 91传媒在线观看 | www.99热这里只有精品 | 国产欧美精品一区二区色综合 | 日韩三极 | 亚洲毛片在线 | 成人在线免费观看视频 | 国产一级视频在线播放 | 欧美视频日韩 | 国产精品久久久久久亚洲调教 | 亚洲精品日韩在线观看 | 黄网站涩免费蜜桃网站 | 中国大陆高清aⅴ毛片 | 中文字幕在线一区二区三区 | 亚洲精品视频在线观看免费 | 一区二区三区在线免费观看视频 | 成人免费在线 | 天堂在线1 | 欧美在线天堂 | 欧美激情国产日韩精品一区18 | 欧美国产亚洲一区二区 |