成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

一文讀懂DataOps

大數據
大部分企業的數據平臺建設要想順利過渡到第三階段,則離不開一個關鍵方法論—DataOps(數據運維)的幫助。

 

[[415382]]

大部分企業的數據平臺建設要想順利過渡到第三階段,則離不開一個關鍵方法論—DataOps(數據運維)的幫助。

DataOps 與 DevOps 十分形似,也有著與 DevOps 類似的軟件開發角色,它是數據工程師簡化數據使用、實現以數據驅動企業的方法,也是企業順利實現第三階段的關鍵。因此,本節將介紹 DataOps 的概念,解釋為什么它對于企業從數據中獲取真正價值、實現數字化運營以及建設數據中臺都非常重要。

一、什么是 DataOps

維基百科對 DataOps 的定義是:一種面向流程的自動化方法,由分析和數據團隊使用,旨在提高數據分析的質量并縮短數據分析的周期。DataOps 的這一定義會隨著時間的推移而變化,但其關鍵目標非常明確:提高數據分析的質量并縮短數據分析的周期。

在 2018 年 Gartner 發布的《數據管理技術成熟度曲線》報告中,DataOps 的概念被首次提出(圖 1)。該報告指出,DataOps雖然可以降低數據分析的門檻,但并不會使數據分析變成一項簡單的工作。與 DevOps 的落地一樣,實施成功的數據項目也需要做大量的工作,例如深入了解數據和業務的關系、樹立良好的數據使用規范和培養數據驅動的公司文化。當然,DataOps 將極大提高人們使用數據的效率并降低使用數據的門檻,公司可以更快、更早、更好地使用數據,且成本和風險更低。


圖 1 Gartner 對 DataOps 的定位



二、 DataOps 解決的問題

大數據的大多數應用可以分為 AI(人工智能)或 BI(商業智能)。此處的 AI 是指廣義的人工智能,包括機器學習、數據挖掘以及其他從數據中獲取以前未知知識的技術。BI 則更多地使用統計方法將大量數據匯總成更簡單的報告,方便人們理解。簡而言之,AI 使用各種數據算法來計算新的東西,BI 則是統計人們可以理解的數字。

編寫 AI 或 BI 程序并不難,你可以基于 TensorFlow 在幾個小時內寫一個人臉識別程序,或者使用 MATLAB 繪制一些數據可視化圖形,甚至用 Excel 也不難實現 AI 或 BI 程序。問題在于,要實際使用生產結果來支持面向用戶的產品或根據這些神奇的數字來決定公司的命運,你需要做的就不只是手動工作了。

根據 Dimensional Research 在 2017 年做的一項調查,對于想要實施大數據應用的公司來說,圖 2 中列出的問題最為困難。


圖 2 大數據實施主要困難



在“ Hidden Technical Debt in Machine Learning Systems ”這篇論文中,Google 的數據分析師研究發現,對于大多數機器學習項目,只有 5% 的時間花在編寫 ML 代碼上,另外 95% 的時間用于設置運行 ML 代碼所需的基礎設施(見圖 3)。


圖 3 Google 關于機器學習中隱藏的技術債的研究



在這兩項研究中,我們可以很容易地看到許多艱苦的工作實際上并不是在編寫代碼。整個基礎設施的準備工作以及高效運行生產級別的代碼是非常費時費力的,而且經常伴隨著各種風險。在 Google 的研究中,他們引用了來自 Twitter 大數據團隊Jimmy Lin 和 Dmitry Ryaboy 的話:“我們的大部分工作可以被描述為‘數據管道工’。”實際上,DataOps 的目的就是使管道工的工作更簡單和高效。

三、 DataOps 的目標功能

DataOps 旨在縮短整個數據分析的周期。它的主要使用對象是數據應用開發人員,包括數據工程師和數據科學家。因此,從搭建基礎架構到使用數據應用的結果,通常需要實現以下功能。

部署:包括基礎架構和應用程序。無論底層硬件基礎設施如何,配置新系統環境都應該快速而簡單。部署新應用程序應該花費幾秒而不是幾小時或幾天時間。
運維:系統和應用程序的可擴展性、可用性、監控、恢復和可靠性。數據應用開發人員不必擔心運維,可以專注于業務邏輯。
治理:數據的安全性、質量和完整性,包括審計和訪問控制。所有數據都在一個支持多租戶的安全環境中以連貫和受控的方式進行管理。
可用:用戶應該能夠選擇他們想要用于數據開發和分析的工具,隨時拿到他們可用的數據,并根據需要輕松開發和運行數據分析應用。應將對不同分析、ML、AI 框架的支持整合到系統中。
生產:通過調度和數據監控,可以輕松地將分析程序轉換為生產應用,構建從數據抽取到數據分析的生產級數據流水線,并且數據應該易于使用并由系統管理。

簡而言之,DataOpsi 遵循類似于 DevOps 的方法:從編寫代碼到生產部署的路徑(包括調度和監控)應由同一個人完成,并遵循系統管理的標準。與提供許多標準 CI、部署、監控工具以實現快速交付的 DevOps 類似,通過標準化大量大數據組件,新手可以快速建立生產級的大數據應用并充分利用數據的價值。

四、 DataOps 的主要技術

DataOps 的主要方法論仍處于快速發展階段。像 Facebook 和Twitter 這樣的公司通常會有專門的數據平臺團隊(Data Platform Team)處理數據運營并實現數據項目。但是,它們的實現方式大多與公司現有的 Ops 基礎設施集成,因而不適用于其他公司。不過我們可以從它們的成功中學習經驗,并建立一個可以由每家公司輕松實施的通用大數據平臺。要構建 DataOps 所需的通用平臺,一般需要以下技術。

云架構:必須使用基于云的基礎架構來支持資源管理、可擴展性和運營效率。
容器:容器在 DevOps 的實現中至關重要,在資源隔離和提供一致開發、測試、運維環境中的作用也至關重要。
實時和流處理:目前來看,實時和流處理在數據驅動平臺中變得越來越重要,它們應該是現代數據平臺中的“一等公民”。
多分析引擎:MapReduce 是傳統的分布式處理框架,但Spark 和 TensorFlow 等框架日常使用越來越廣泛,應該進行集成。
集成的應用程序和數據管理:應用程序和數據管理(包括生命周期管理、調度、監控、日志記錄支持)對于生產數據平臺至關重要。DevOps 的常規實踐可應用于應用程序管理,但是數據管理及應用程序與數據之間的交互需要很多額外的工作。
多租戶和安全性:數據安全性可以說是數據項目中最重要的問題,如果數據無法得到保護,數據使用也就無從談起。該平臺應為每個人提供一個安全的環境,使每個人都可以使用這些數據并對每個操作進行授權、驗證和審核。
DevOps 工具:該平臺應為數據科學家提供有效的工具,以分析數據并生成分析程序,為數據工程師提供大數據流水線的工具,并為其他人提供消費數據和結果的方法。


五、 DataOps 與數據中臺

DataOps 的核心任務是提高數據分析的質量并縮短數據分析的周期,是高效打造數據中臺的必經之路,因此可以將 DataOps作為數據中臺建設必須參考的一個方法論。要建設一個高效的業務 IT 系統,采用 DevOps 并不是必要條件,但是絕大部分公司會采取 DevOps 的方法論和技術體系,因為這是經過實踐檢驗的高效和普適的方式。

與 DevOps 一樣,DataOps 的使用與發展也是一個需要正確工具和正確思維加持的持續過程。DataOps 的目標是以正確的方式更容易地實現大數據項目,以達到用更少的工作量從數據中獲得最大的價值的目的。

在過去幾年中,隨著云計算和容器技術的成熟,大數據操作的標準化成為可能。加之數據驅動的企業文化被廣泛接受,DataOps 終于準備好進入大家的視野。我們相信這一運動將降低實施大數據項目的門檻,使每個企業和機構都能夠更容易地獲取數據的最大價值。

可以看到,DataOps 與數據中臺需要解決的問題其實是類似的,都希望能夠更快、更好地實現數據價值,支持數字化運營,但是二者強調的重點不同:

數據中臺強調的是數據的統一管理和避免重復開發,是數據能力的抽象、共享和復用;
DataOps 強調的是數據應用的開發和運維效率,就像DevOps 解放了開發人員的生產力一樣,DataOps 希望通過提供一整套工具和方法論,來讓數據應用的開發和管理更加高效。

不過,雖然如此,但二者都是解決現有大數據平臺問題的必經之路。數據中臺強調的是戰略層次的布局,必須有一個中臺來承擔所有數據能力的管理和使用;DataOps 強調的是戰術層面的優化,如何讓各個開發和使用實際數據應用的人員更加高效。可以說數據中臺描述了最終的目標,而 DataOps 提供了一條實現這個目標的最佳路徑。

以上內容摘自《云原生數據中臺:架構、方法論與實踐》部分章節。

 

 

責任編輯:趙立京 來源: 智領云科技
相關推薦

2023-12-22 19:59:15

2023-11-27 17:35:48

ComponentWeb外層

2023-05-20 17:58:31

低代碼軟件

2022-07-05 06:30:54

云網絡網絡云原生

2022-07-26 00:00:03

語言模型人工智能

2022-12-01 17:23:45

2022-10-20 08:01:23

2021-12-29 18:00:19

無損網絡網絡通信網絡

2018-09-28 14:06:25

前端緩存后端

2022-09-22 09:00:46

CSS單位

2025-04-03 10:56:47

2022-11-06 21:14:02

數據驅動架構數據

2019-06-13 21:31:19

AI

2019-08-23 12:12:49

MQ消息隊列

2025-02-10 07:10:00

多模態embeddingsAI

2021-09-04 19:04:14

配置LogbackJava

2019-04-24 12:30:36

2021-04-06 11:03:12

加密貨幣比特幣貨幣

2024-08-09 12:44:45

JavaScript原型鏈鏈條

2021-12-16 14:45:09

https架構服務端
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 精品伦精品一区二区三区视频 | 欧美精品欧美精品系列 | 日韩精品成人网 | 精品欧美一区二区中文字幕视频 | 黄色成人在线 | 在线一级片 | 草草在线观看 | 爱草在线| 久久av一区二区三区 | 亚洲综合区| 欧美日韩在线看 | 成年网站在线观看 | 99精品久久久 | 精品乱码一区二区 | 日韩av在线一区二区三区 | 欧美精品欧美精品系列 | 夜夜操天天艹 | 亚洲国产精品人人爽夜夜爽 | 99精品欧美一区二区三区综合在线 | aaa精品| 龙珠z在线观看 | 免费在线观看h片 | 国产乱码精品1区2区3区 | 亚洲福利视频一区二区 | 亚欧洲精品在线视频免费观看 | 久久精品视频免费观看 | 欧美精品综合在线 | 日本三级电影在线观看视频 | 成人精品一区 | 2021天天干夜夜爽 | 俺去俺来也www色官网cms | 曰韩一二三区 | 日韩一区在线播放 | 亚洲综合一区二区三区 | 欧美一级高潮片免费的 | 久久久成人一区二区免费影院 | 久久久精品综合 | 亚洲精品一区二区在线观看 | 国产一区二区三区高清 | 国产精品毛片一区二区在线看 | 性欧美精品一区二区三区在线播放 |