成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

手把手教你設(shè)計(jì)大數(shù)據(jù)流水線

大數(shù)據(jù)
本文介紹大數(shù)據(jù)流水線的標(biāo)準(zhǔn)工作流程,以及設(shè)計(jì)大數(shù)據(jù)架構(gòu)流水線時(shí)需要考慮的各種工具和流程。

[[441053]]

 在數(shù)據(jù)架構(gòu)中,數(shù)據(jù)流水線一般以數(shù)據(jù)為起點(diǎn),以洞見為終點(diǎn)。如何從起點(diǎn)到終點(diǎn),取決于一系列的因素。圖1展示了一個(gè)數(shù)據(jù)架構(gòu)下的數(shù)據(jù)流水線。

圖1 大數(shù)據(jù)架構(gòu)設(shè)計(jì)中的數(shù)據(jù)流水線

如圖1所示,大數(shù)據(jù)流水線的標(biāo)準(zhǔn)工作流程包括以下步驟:

1)通過合適的工具收集數(shù)據(jù)(攝取)。

2)持久化存儲(chǔ)數(shù)據(jù)。

3)數(shù)據(jù)處理或分析。從存儲(chǔ)中獲取數(shù)據(jù),對(duì)其進(jìn)行操作,然后將處理后的數(shù)據(jù)再次存儲(chǔ)。

4)數(shù)據(jù)被其他處理/分析工具使用,或者被同一工具再次處理,從數(shù)據(jù)中獲得進(jìn)一步的結(jié)果。

5)為了使結(jié)果對(duì)業(yè)務(wù)用戶有用,使用商業(yè)智能(BI)工具將結(jié)果可視化,或者將結(jié)果輸入機(jī)器學(xué)習(xí)算法中進(jìn)行預(yù)測。

6)一旦將合理的結(jié)果呈現(xiàn)給用戶,這就為他們提供了對(duì)數(shù)據(jù)的洞見,然后他們可以采用這些數(shù)據(jù)進(jìn)行進(jìn)一步的業(yè)務(wù)決策。

你在流水線中部署的工具決定了獲得結(jié)果的時(shí)間,也就是從數(shù)據(jù)被創(chuàng)建到能從中獲得洞見之間的延遲。在考慮延遲的同時(shí),設(shè)計(jì)數(shù)據(jù)架構(gòu)的最佳方法是確定如何平衡吞吐量與成本,因?yàn)楦叩男阅芎碗S之而來的低延遲通常會(huì)導(dǎo)致更高的成本。

大數(shù)據(jù)處理流水線設(shè)計(jì)

許多大數(shù)據(jù)架構(gòu)所犯的關(guān)鍵性錯(cuò)誤之一是,試圖用一個(gè)工具包辦數(shù)據(jù)流水線的多個(gè)階段的數(shù)據(jù)處理。用一個(gè)服務(wù)器機(jī)群來端到端地處理從數(shù)據(jù)存儲(chǔ)、轉(zhuǎn)換到數(shù)據(jù)可視化的整個(gè)流水線可能是最簡單,但它也是最容易發(fā)生故障的。這種緊耦合的大數(shù)據(jù)架構(gòu)通常不能根據(jù)你的需求提供吞吐量和成本的最佳平衡。

建議數(shù)據(jù)架構(gòu)師對(duì)流水線進(jìn)行解耦,特別是將存儲(chǔ)和處理分為多個(gè)階段,這樣做有很多好處,包括提高容錯(cuò)能力。例如,如果在第二輪處理中出了問題,或者專門用于處理該任務(wù)的硬件出現(xiàn)故障,不必從流水線的起點(diǎn)重新開始,系統(tǒng)可以從第二個(gè)存儲(chǔ)階段恢復(fù)。將存儲(chǔ)與各個(gè)處理層解耦,使你有能力對(duì)多個(gè)數(shù)據(jù)存儲(chǔ)進(jìn)行讀寫。

圖2說明了設(shè)計(jì)大數(shù)據(jù)架構(gòu)流水線時(shí)需要考慮的各種工具和流程。

為大數(shù)據(jù)架構(gòu)進(jìn)行工具選型時(shí),應(yīng)該考慮以下幾點(diǎn):

  • 數(shù)據(jù)結(jié)構(gòu)。
  • 最大可接受的延遲。
  • 最低可接受的吞吐量。
  • 系統(tǒng)終端用戶的典型訪問模式。

圖2 大數(shù)據(jù)架構(gòu)設(shè)計(jì)中的工具與流程

數(shù)據(jù)結(jié)構(gòu)會(huì)影響數(shù)據(jù)處理工具以及存儲(chǔ)位置的選擇。數(shù)據(jù)的順序及要存儲(chǔ)和檢索的數(shù)據(jù)對(duì)象的大小也是必不可少要考慮的因素。獲得結(jié)果的時(shí)間取決于解決方案如何權(quán)衡延遲、吞吐量和成本。

用戶訪問模式是另一個(gè)需要考慮的重要因素。有些作業(yè)需要定期快速連接許多相關(guān)的表,有些作業(yè)則需要每天或按更低頻率使用存儲(chǔ)的數(shù)據(jù)。有些作業(yè)需要比較來自各種數(shù)據(jù)源的數(shù)據(jù),而有些作業(yè)只需要從一個(gè)非結(jié)構(gòu)化表中提取數(shù)據(jù)。了解終端用戶最常使用數(shù)據(jù)的方式將有助于確定大數(shù)據(jù)架構(gòu)的廣度和深度。接下來,我們將更加深入地探討大數(shù)據(jù)架構(gòu)中的每個(gè)流程和涉及的工具。

本文摘編自《解決方案架構(gòu)師修煉之道》,經(jīng)出版方授權(quán)發(fā)布。(ISBN:9787111694441)轉(zhuǎn)載請(qǐng)保留文章出處。

責(zé)任編輯:武曉燕 來源: 數(shù)倉寶貝庫
相關(guān)推薦

2011-01-10 14:41:26

2011-05-03 15:59:00

黑盒打印機(jī)

2025-05-07 00:31:30

2014-07-26 14:44:01

Databricks連城Spark

2021-09-30 18:27:38

數(shù)據(jù)倉庫ETL

2021-07-14 09:00:00

JavaFX開發(fā)應(yīng)用

2023-05-10 15:08:00

Pipeline設(shè)計(jì)模式

2024-01-07 12:47:35

Golang流水線設(shè)計(jì)模式

2017-02-14 21:00:33

大數(shù)據(jù)機(jī)器學(xué)習(xí)廣告檢測

2016-11-17 12:00:07

Hadoop系統(tǒng)大數(shù)據(jù)數(shù)據(jù)分析

2020-11-27 07:38:43

MongoDB

2017-05-18 12:45:35

數(shù)據(jù)分析數(shù)據(jù)理解數(shù)據(jù)

2011-02-22 13:46:27

微軟SQL.NET

2021-02-26 11:54:38

MyBatis 插件接口

2021-12-28 08:38:26

Linux 中斷喚醒系統(tǒng)Linux 系統(tǒng)

2021-06-08 09:49:01

協(xié)程池Golang設(shè)計(jì)

2011-04-21 10:32:44

MySQL雙機(jī)同步

2023-04-26 12:46:43

DockerSpringKubernetes

2022-01-08 20:04:20

攔截系統(tǒng)調(diào)用

2022-12-07 08:42:35

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 放个毛片看看 | 国产成人高清在线观看 | 国产传媒在线观看 | 欧美在线不卡 | 一区二区三区亚洲视频 | 中文字幕精品一区 | 久久精品二区 | 日日夜夜91| 夜夜夜操 | 蜜桃av鲁一鲁一鲁一鲁 | 99精品久久久久久中文字幕 | 中文字幕1区 | 91就要激情 | 久久国产精品一区二区三区 | 日韩精品在线免费观看 | 国产999精品久久久久久 | 老司机成人在线 | 午夜激情免费 | 国产精品一区在线观看 | 日本不卡一区二区三区在线观看 | 91不卡 | 色婷婷av777 av免费网站在线 | 91精品国产一区二区三区蜜臀 | 国产日韩一区二区三区 | 亚洲国产精品久久人人爱 | 亚洲国产精品va在线看黑人 | 中文字幕一区二区三区精彩视频 | 亚洲精品国产第一综合99久久 | 精品1区2区3区4区 | 九九在线视频 | 秋霞影院一区二区 | 99re6热在线精品视频播放 | 亚洲精品久久 | 精品日韩一区二区 | 在线日韩精品视频 | 亚洲婷婷六月天 | 日韩欧美国产精品 | 国产精品免费在线 | 日日日干干干 | 天堂资源最新在线 | 欧美性生活免费 |