成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

漫談大數(shù)據(jù)平臺(tái)架構(gòu)

安全 云安全 大數(shù)據(jù)
近年來(lái),互聯(lián)網(wǎng)公司中大數(shù)據(jù)平臺(tái)的建設(shè)和安全一直是熱點(diǎn)。筆者計(jì)劃發(fā)兩篇文章參與一下討論,一篇架構(gòu)+一篇安全。本文不依托于任何一家大廠的平臺(tái)架構(gòu),用通俗的語(yǔ)言介紹一下大數(shù)據(jù)平臺(tái)的整體架構(gòu)。

近年來(lái),互聯(lián)網(wǎng)公司中大數(shù)據(jù)平臺(tái)的建設(shè)和安全一直是熱點(diǎn)。筆者計(jì)劃發(fā)兩篇文章參與一下討論,一篇架構(gòu)+一篇安全。本文不依托于任何一家大廠的平臺(tái)架構(gòu),用通俗的語(yǔ)言介紹一下大數(shù)據(jù)平臺(tái)的整體架構(gòu)。

下面用兩個(gè)問(wèn)題開(kāi)篇:

  • 什么是大數(shù)據(jù)平臺(tái)?是將互聯(lián)網(wǎng)產(chǎn)品和后臺(tái)的大數(shù)據(jù)系統(tǒng)整合起來(lái),將應(yīng)用系統(tǒng)產(chǎn)生的數(shù)據(jù)導(dǎo)入大數(shù)據(jù)平臺(tái),經(jīng)過(guò)計(jì)算后導(dǎo)出給應(yīng)用系統(tǒng)使用。
  • 為什么大數(shù)據(jù)平臺(tái)在互聯(lián)網(wǎng)行業(yè)非常重要?大數(shù)據(jù)平臺(tái)將互聯(lián)網(wǎng)應(yīng)用和大數(shù)據(jù)產(chǎn)品整合起來(lái),將實(shí)時(shí)數(shù)據(jù)和離線數(shù)據(jù)打通,使數(shù)據(jù)可以實(shí)現(xiàn)更大規(guī)模的關(guān)聯(lián)計(jì)算,挖掘出數(shù)據(jù)更大的價(jià)值,從而實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)。大數(shù)據(jù)平臺(tái)使得大數(shù)據(jù)技術(shù)產(chǎn)品可以落地應(yīng)用,實(shí)現(xiàn)了自身價(jià)值。

總體來(lái)說(shuō):大數(shù)據(jù)平臺(tái)可以分為四個(gè)部分:數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)輸出和任務(wù)調(diào)度管理。

一、數(shù)據(jù)采集

按照數(shù)據(jù)源可以分為如下4點(diǎn):

1. 數(shù)據(jù)庫(kù)數(shù)據(jù)

目前比較常用的數(shù)據(jù)庫(kù)導(dǎo)入工具有Sqoop和Canal。

Sqoop 是一個(gè)數(shù)據(jù)庫(kù)批量導(dǎo)入導(dǎo)出工具,可以將關(guān)系數(shù)據(jù)庫(kù)的數(shù)據(jù)批量導(dǎo)入到 Hadoop,也可以將 Hadoop 的數(shù)據(jù)導(dǎo)出到關(guān)系數(shù)據(jù)庫(kù)。

Sqoop 適合關(guān)系數(shù)據(jù)庫(kù)數(shù)據(jù)的批量導(dǎo)入,如果想實(shí)時(shí)導(dǎo)入關(guān)系數(shù)據(jù)庫(kù)的數(shù)據(jù),可以選擇Canal。Canal是阿里巴巴開(kāi)源的一個(gè) MySQLbinlog 獲取工具,binlog 是 MySQL 的事務(wù)日志,可用于MySQL數(shù)據(jù)庫(kù)主從復(fù)制,Canal 將自己偽裝成 MySQL 從庫(kù),從 MySQL 獲取binlog。

2. 日志數(shù)據(jù)

日志是大數(shù)據(jù)平臺(tái)重要數(shù)據(jù)來(lái)源之一,應(yīng)用程序日志一方面記錄各種程序執(zhí)行狀況,一方面記錄用戶的操作軌跡。Flume 是大數(shù)據(jù)日志收集常用的工具。Flume 最早由 Cloudera 開(kāi)發(fā),后來(lái)捐贈(zèng)給 Apache 基金會(huì)作為開(kāi)源項(xiàng)目運(yùn)營(yíng)。

3. 前端程序埋點(diǎn)

所謂前端埋點(diǎn),是應(yīng)用前端為了進(jìn)行數(shù)據(jù)統(tǒng)計(jì)和分析采集數(shù)據(jù)。

用戶的某些前端行為并不會(huì)產(chǎn)生后端請(qǐng)求,比如用戶頁(yè)面停留時(shí)間、用戶瀏覽速度、用戶點(diǎn)選又取消等等。這些信息對(duì)于分析用戶行為等都很有價(jià)值。但是這些數(shù)據(jù)必須通過(guò)前端埋點(diǎn)獲得,有些互聯(lián)網(wǎng)公司會(huì)將前端埋點(diǎn)數(shù)據(jù)當(dāng)作最主要的大數(shù)據(jù)來(lái)源,用戶所有前端行為,都會(huì)埋點(diǎn)采集,再輔助結(jié)合其他的數(shù)據(jù)源,構(gòu)建自己的大數(shù)據(jù)倉(cāng)庫(kù),進(jìn)而進(jìn)行數(shù)據(jù)分析和挖掘。

對(duì)于一個(gè)互聯(lián)網(wǎng)應(yīng)用,當(dāng)我們提到前端的時(shí)候,可能指的是如下幾類:

  • App 程序,比如一個(gè) iOS 應(yīng)用或者 Android 應(yīng)用,安裝在用戶的手機(jī)或者平板上;
  • PC Web 前端,使用 PC 瀏覽器打開(kāi);
  • H5 前端,由移動(dòng)設(shè)備瀏覽器打開(kāi);
  • 微信小程序,在微信內(nèi)打開(kāi)。

這些不同的前端使用不同的開(kāi)發(fā)語(yǔ)言開(kāi)發(fā),運(yùn)行在不同的設(shè)備上,每一類前端都需要解決自己的埋點(diǎn)問(wèn)題。

埋點(diǎn)的方式主要有手工埋點(diǎn)、自動(dòng)化埋點(diǎn)和可視化埋點(diǎn)。

手工埋點(diǎn)就是前端開(kāi)發(fā)者手動(dòng)編程將需要采集的前端數(shù)據(jù)發(fā)送到后端的數(shù)據(jù)采集系統(tǒng)。通常公司會(huì)開(kāi)發(fā)一些前端數(shù)據(jù)上報(bào)的 SDK,前端工程師在需要埋點(diǎn)的地方,調(diào)用 SDK,按照接口規(guī)范傳入相關(guān)參數(shù),比如 ID、名稱、頁(yè)面、控件等通用參數(shù),還有業(yè)務(wù)邏輯數(shù)據(jù)等,SDK 將這些數(shù)據(jù)通過(guò) HTTP 的方式發(fā)送到后端服務(wù)器。

自動(dòng)化埋點(diǎn)則是通過(guò)一個(gè)前端程序 SDK,自動(dòng)收集全部用戶操作事件,然后全量上傳到后端服器。自動(dòng)化埋點(diǎn)有時(shí)候也被稱作無(wú)埋點(diǎn),意思是無(wú)需埋點(diǎn),實(shí)際上是全埋點(diǎn),即全部用戶操作都埋點(diǎn)采集。自動(dòng)化埋點(diǎn)的好處是開(kāi)發(fā)工作量小,數(shù)據(jù)規(guī)范統(tǒng)一。缺點(diǎn)是采集的數(shù)據(jù)量大,很多數(shù)據(jù)采集來(lái)也不知道有什么用,白白浪費(fèi)了計(jì)算資源,特別是對(duì)于流量敏感的移動(dòng)端用戶而言,因?yàn)樽詣?dòng)化埋點(diǎn)采集上傳花費(fèi)了大量的流量,可能因此成為卸載應(yīng)用的理由,這樣就得不償失了。在實(shí)踐中,有時(shí)候只是針對(duì)部分用戶做自動(dòng)埋點(diǎn),抽樣一部分?jǐn)?shù)據(jù)做統(tǒng)計(jì)分析。

介于手工埋點(diǎn)和自動(dòng)化埋點(diǎn)之間的,還有一種方案是可視化埋點(diǎn)。通過(guò)可視化的方式配置哪些前端操作需要埋點(diǎn),根據(jù)配置采集數(shù)據(jù)??梢暬顸c(diǎn)實(shí)際上是可以人工干預(yù)的自動(dòng)化埋點(diǎn)。

4. 爬蟲(chóng)系統(tǒng)

通過(guò)網(wǎng)絡(luò)爬蟲(chóng)獲取外部數(shù)據(jù)用于行業(yè)數(shù)據(jù)支撐,管理決策等。由于涉及到敏感內(nèi)容,不做更多的展開(kāi)。

二、數(shù)據(jù)處理

大數(shù)據(jù)平臺(tái)的核心,分為離線計(jì)算和實(shí)時(shí)計(jì)算兩類。

1. 離線計(jì)算

由MapReduce、Hive、Spark 等進(jìn)行的計(jì)算處理。

2. 實(shí)時(shí)計(jì)算

由Storm、SparkSteaming 等流式大數(shù)據(jù)引擎完成,可以在秒級(jí)甚至毫秒級(jí)時(shí)間內(nèi)完成計(jì)算。

三、數(shù)據(jù)輸出

大數(shù)據(jù)處理與計(jì)算產(chǎn)生的數(shù)據(jù)寫(xiě)入到 HDFS 中,但應(yīng)用程序不會(huì)到 HDFS 中讀取數(shù)據(jù),所以必須要將 HDFS 中的數(shù)據(jù)導(dǎo)出到數(shù)據(jù)庫(kù)中。除了給用戶提供數(shù)據(jù),大數(shù)據(jù)平臺(tái)還需要在一些后臺(tái)系統(tǒng)中給運(yùn)營(yíng)和決策層提供各種統(tǒng)計(jì)數(shù)據(jù),這些數(shù)據(jù)也寫(xiě)入數(shù)據(jù)庫(kù),被相應(yīng)的后臺(tái)系統(tǒng)訪問(wèn)。

四、任務(wù)調(diào)度管理

將上面三個(gè)部分有效整合和運(yùn)轉(zhuǎn)起來(lái)的是任務(wù)調(diào)度管理系統(tǒng),它的主要作用是:

  • 合理調(diào)度各種 MapReduce、Spark 任務(wù)使資源利用最合理
  • 盡快執(zhí)行臨時(shí)的重要任務(wù)
  • 對(duì)作業(yè)提交、進(jìn)度跟蹤、數(shù)據(jù)查看等功能

簡(jiǎn)單的大數(shù)據(jù)平臺(tái)任務(wù)調(diào)度管理系統(tǒng)其實(shí)就是一個(gè)類似 Crontab 的定時(shí)任務(wù)系統(tǒng),按預(yù)設(shè)時(shí)間啟動(dòng)不同的大數(shù)據(jù)作業(yè)腳本。復(fù)雜的大數(shù)據(jù)平臺(tái)任務(wù)調(diào)度還要考慮不同作業(yè)之間的依賴關(guān)系。開(kāi)源的大數(shù)據(jù)調(diào)度系統(tǒng)有 Oozie,也可以在此基礎(chǔ)進(jìn)行擴(kuò)展。

如上就是大數(shù)據(jù)平臺(tái)整體架構(gòu)的介紹,下一篇會(huì)聚焦大數(shù)據(jù)平臺(tái)安全,敬請(qǐng)期待~

責(zé)任編輯:趙寧寧 來(lái)源: FreeBuf
相關(guān)推薦

2021-02-22 10:55:59

大數(shù)據(jù)大數(shù)據(jù)平臺(tái)數(shù)據(jù)平臺(tái)建設(shè)

2020-12-17 19:15:48

大數(shù)據(jù)大數(shù)據(jù)平臺(tái)架構(gòu)數(shù)據(jù)平臺(tái)建設(shè)

2019-12-24 08:11:39

大數(shù)據(jù)架構(gòu)數(shù)據(jù)開(kāi)發(fā)

2021-02-22 10:32:53

大數(shù)據(jù)大數(shù)據(jù)平臺(tái)大數(shù)據(jù)技術(shù)棧

2011-08-12 11:14:42

大數(shù)據(jù)數(shù)據(jù)分析平臺(tái)架構(gòu)

2014-07-24 09:08:07

大數(shù)據(jù)平臺(tái)架構(gòu)

2017-02-28 21:23:34

大數(shù)據(jù)采集架構(gòu)分析

2017-06-19 13:10:59

大數(shù)據(jù)大數(shù)據(jù)平臺(tái)架構(gòu)

2017-06-20 09:54:18

大數(shù)據(jù)架構(gòu)數(shù)據(jù)分析

2017-06-22 11:03:58

大數(shù)據(jù)大數(shù)據(jù)平臺(tái)架構(gòu)技術(shù)

2017-12-01 19:02:33

Airbnb大數(shù)據(jù)平臺(tái)

2020-09-15 18:46:54

數(shù)據(jù)平臺(tái)Lambda架構(gòu)

2021-02-22 11:03:25

大數(shù)據(jù)大數(shù)據(jù)平臺(tái)架構(gòu)

2017-08-10 14:30:52

大數(shù)據(jù)數(shù)據(jù)采集架構(gòu)分析

2015-08-31 14:57:11

大數(shù)據(jù)處理

2016-01-28 10:26:59

大數(shù)據(jù)平臺(tái)大數(shù)據(jù)采集架構(gòu)分析

2015-11-18 17:00:15

醫(yī)療大數(shù)據(jù)醫(yī)療信息化

2018-09-21 15:26:45

大數(shù)據(jù)管理系統(tǒng)

2018-09-13 14:34:12

大數(shù)據(jù)BIG DATAVolume

2018-09-16 15:40:06

大數(shù)據(jù)平臺(tái)數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 国产精品一区二区三区久久 | 天天摸天天看 | 少妇av片| 一区二区三区欧美在线 | 成人一区二区三区在线观看 | 精品国产欧美日韩不卡在线观看 | 91久久精品国产91久久性色tv | 在线看亚洲 | 亚洲欧美日韩国产综合 | 国产精品高清一区二区三区 | 国产精品久久久久久婷婷天堂 | 免费黄色a视频 | 欧美精品一区二区三区视频 | 福利视频一区 | 国产区视频在线观看 | 国产精品免费一区二区三区四区 | 久久精品一区二区三区四区 | 免费看的黄网站 | 日本久久精品视频 | 婷婷综合激情 | 韩国精品在线观看 | 蜜桃视频成人 | av在线一区二区三区 | 精品亚洲一区二区三区四区五区高 | 欧美xxxⅹ性欧美大片 | 国产小视频精品 | 国产精品美女久久久久久久久久久 | 在线三级电影 | 成人在线播放网址 | 国产日韩欧美中文字幕 | 成人免费在线播放视频 | 国产视频中文字幕在线观看 | 欧美 日韩 国产 一区 | 天天综合网天天综合 | 精品国产乱码久久久久久久久 | 国产精品 欧美精品 | 日本不卡一区 | 视频一区二区中文字幕日韩 | 99亚洲精品 | 久久99精品久久久久久秒播九色 | 精品免费国产视频 |