成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大數據平臺架構技術選型與場景運用

大數據

[[194750]]

一、大數據平臺

大數據在工作中的應用有三種:

  • 與業務相關,比如用戶畫像、風險控制等;
  • 與決策相關,數據科學的領域,了解統計學、算法,這是數據科學家的范疇;
  • 與工程相關,如何實施、如何實現、解決什么業務問題,這是數據工程師的工作。

數據工程師在業務和數據科學家之間搭建起實踐的橋梁。本文要分享的大數據平臺架構技術選型及場景運用偏向于工程方面。 

 

 

 

如圖所示,大數據平臺***個要素就是數據源,我們要處理的數據源往往是在業務系統上,數據分析的時候可能不會直接對業務的數據源進行處理,而是先經過數據采集、數據存儲,之后才是數據分析和數據處理。

從整個大的生態圈可以看出,要完成數據工程需要大量的資源;數據量很大需要集群;要控制和協調這些資源需要監控和協調分派;面對大規模的數據怎樣部署更方便更容易;還牽扯到日志、安全、還可能要和云端結合起來,這些都是大數據圈的邊緣,同樣都很重要。

二、數據源的特點 

 

 

 

數據源的特點決定數據采集與數據存儲的技術選型,我根據數據源的特點將其分為四大類:

  • ***類:從來源來看分為內部數據和外部數據;
  • 第二類:從結構來看分為非結構化數據和結構化數據;
  • 第三類:從可變性來看分為不可變可添加數據和可修改刪除數據;
  • 第四類,從規模來看分為大量數據和小量數據。

內部數據

來自企業內部系統,可以采用主動寫入技術(push),從而保證變更數據及時被采集。 

 

 

 

外部數據

企業要做大數據的話肯定不會只局限于企業內部的數據,比如銀行做征信,就不能只看銀行系統里的交易數據和用戶信息,還要到互聯網上去拉取外部數據。

外部數據分為兩類:

  • 一類是要獲取的外部數據本身提供API,可以調用API獲取,比如微信;
  • 另一類是數據本身不提供API,需要通過爬蟲爬取過來。 

 

 

 

這兩類數據都不是我們可控制的,需要我們去獲得,它的結構也可能跟我們企業內部數據的結構不一樣,還需要進行轉換,爬蟲爬取的數據結構更亂,因此大數據平臺里需要做ETL,由ETL進行數據提取、轉換、加載,清洗、去重、去噪,這個過程比較麻煩。爬蟲爬過來的數據往往是非結構性的、文檔型的數據,還有視頻、音頻,這就更麻煩了。

結構化數據 & 非結構化數據 

 

 

結構化和非結構化數據在存儲時的選型完全不同,非結構化數據偏向于文件,或者選擇NoSQL數據庫;考慮到事務的一致性,我們也可能選擇傳統的數據庫。

不變可添加數據

如果數據源的數據是不變的,或者只允許添加(通常,數據分析的事實表,例如銀行交易記錄等都不允許修改或刪除),則采集會變得非常容易,同步時只需要考慮最簡單的增量同步策略,維持數據的一致性也相對變得容易。

對于大數據分析來說,我們每天在處理的數據大部分是不可變更的。正如Datomic數據庫的設計哲學就是數據為事實(fact),它是不可變的,即數據是曾經發生的事實,事實是不可以被篡改的,哪怕改一個地址,從設計的角度來說也不是改動一個地址,而是新增了一個地址。交易也是如此。

可修改可刪除數據

銀行的交易記錄、保險單的交易記錄,互聯網的訪客訪問記錄、下單記錄等都是不可變的。但是數據源的數據有些可能會修改或刪除,尤其是許多維表經常需要變動。要對這樣的數據進行分析處理,最簡單的辦法就是采用直連形式,但直連可能會影響數據分析的效率與性能,且多數數據模型與結構可能不符合業務人員進行數據分析的業務訴求。如果采用數據采集的方式,就要考慮同步問題。

大數據量

針對大數據量,如果屬于高延遲的業務,可以采用batch的處理方式,實時分析則需要使用流式處理,將兩者結合就是Lambda架構,即有實時處理、又能滿足一定的大數據量,這是現在比較流行的大數據處理方式。 

 

 

 

三、數據存儲的技術選型

大數據平臺特征:相同的業務數據會以多種不同的表現形式,存儲在不同類型的數據庫中,形成一種poly-db的數據冗余生態。

先把數據源進行分類,然后根據其特點判斷用什么方式采集,采集之后要進行存儲。數據存儲的技術選型依據有三點:

  • ***點取決于數據源的類型和采集方式。比如非結構化的數據不可能拿一個關系數據庫去存儲。采集方式如果是流失處理,那么傳過來放到Kafka是***的方式。
  • 第二點取決于采集之后數據的格式和規模。比如數據格式是文檔型的,能選的存儲方式就是文檔型數據庫,例如MongoDB;采集后的數據是結構化的,則可以考慮關系型數據庫;如果數據量達到很大規模,***放到HDFS里。
  • 第三點是分析數據的應用場景。根據數據的應用場景來判定存儲技術選型。

場景一:輿情分析

做輿情分析的時候客戶要求所有數據存放兩年,一天600多萬,兩年就是700多天×600多萬,幾十億的數據。而且爬蟲爬過來的數據是輿情,做了分詞之后得到的可能是大段的網友評論,客戶要求對輿情進行查詢,做全文本搜索,并要求響應時間控制在10s以內。

我們后來選擇用ES,在單機上做了一個簡單的測試,大概三億多條數據,用最壞的查詢條件進行搜索,保證這個搜索是全表搜索(基于Lucence創建了索引,使得這種搜索更高效),整個查詢時間能控制在幾秒以內。 

 

 

 

如圖所示,爬蟲將數據爬到Kafka里,在里面做流處理,去重去噪做語音分析,寫到ElasticSearch里。我們做大數據的一個特點是多數據庫,會根據不同的場景選擇不同的數據庫,所以會產生大量的冗余。

場景二:商業智能產品

BI產品主要針對數據集進行的數據分析以聚合運算為主,比如求合、求平均數、求同比、求環比、求其他的平方差或之類的標準方差。我們既要滿足大數據量的水平可伸縮,又要滿足高性能的聚合運算。選擇Parquet列式存儲,可以同時滿足這兩個需求。 

 

 

 

場景三:Airbnb的大數據平臺

Airbnb的大數據來自兩塊:一是本身的業務數據,二是大量的事件。數據源不同,采集方式也不一樣。日志數據通過發送Kafka事件,而線上數據則通過Sqoop同步。數據存儲選擇HDFS集群,然后通過Presto對Hive表執行即席查詢。S3是一個獨立的存儲系統。 

 

 

 

四、數據處理 

 

 

 

數據處理分為三大類:

  • ***類是從業務的角度,細分為查詢檢索、數據挖掘、統計分析、深度分析,其中深度分析分為機器學習和神經網絡。
  • 第二類是從技術的角度,細分為Batch、SQL、流式處理、machine learning、Deep learning。
  • 第三類是編程模型,細分為離線編程模型、內存編程模型、實時編程模型。

結合前文講述的數據源特點、分類、采集方式、存儲選型、數據分析、數據處理,我在這里給出一個總體的大數據平臺的架構。值得注意的是,架構圖中去掉了監控、資源協調、安全日志等。 

 

 

 

左側是數據源,有實時流的數據(可能是結構化、非結構化,但其特點是實時的),有離線數據,離線數據一般采用的多為ETL的工具,常見的做法是在大數據平臺里使用Sqoop或Flume去同步數據,或調一些NIO的框架去讀取加載,然后寫到HDFS里面,當然也有一些特別的技術存儲的類型,比如HAWQ就是一個支持分布式、支持事務一致性的開源數據庫。

從業務場景來看,如果我們做統計分析,就可以使用SQL或MapReduce或streaming或Spark。如果做查詢檢索,同步寫到HDFS的同時還要考慮寫到ES里。如果做數據分析,可以建一個Cube,然后再進入OLAP的場景。

這個圖基本上把所有的內容都涵蓋了,從場景的角度來分析倒推,用什么樣的數據源、采用什么樣的采集方式、存儲成什么樣子,能滿足離線、內存、實時、流的各種模型,都能從圖中得到解答。 

責任編輯:龐桂玉 來源: 36大數據
相關推薦

2021-02-22 10:32:53

大數據大數據平臺大數據技術棧

2019-12-12 10:22:16

大數據平臺大數據安全大數據

2021-02-22 10:55:59

大數據大數據平臺數據平臺建設

2020-12-17 19:15:48

大數據大數據平臺架構數據平臺建設

2019-12-24 08:11:39

大數據架構數據開發

2011-08-12 11:14:42

大數據數據分析平臺架構

2015-08-31 14:57:11

大數據處理

2014-07-24 09:08:07

大數據平臺架構

2017-02-28 21:23:34

大數據采集架構分析

2017-06-19 13:10:59

大數據大數據平臺架構

2017-06-20 09:54:18

大數據架構數據分析

2020-07-10 08:50:37

大數據銀行技術

2017-12-01 19:02:33

Airbnb大數據平臺

2017-01-07 11:45:43

醫療健康大數據虛擬化

2020-09-15 18:46:54

數據平臺Lambda架構

2021-02-22 11:03:25

大數據大數據平臺架構

2017-08-10 14:30:52

大數據數據采集架構分析

2016-01-28 10:26:59

大數據平臺大數據采集架構分析

2017-10-16 14:29:36

2023-04-21 13:15:01

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久在线| 国产精品精品视频一区二区三区 | 久久www免费人成看片高清 | 国产精品资源在线 | 精品久久久久久久久久久院品网 | 一区二区三区视频在线 | 91看片网址| 国产日韩精品一区二区 | 日本不卡一区二区 | 亚洲精品一区二区二区 | 成人在线精品视频 | 欧美久久久久久 | 久久在看 | 欧美日韩在线成人 | 亚洲精品久久久一区二区三区 | 在线视频一区二区三区 | 午夜天堂精品久久久久 | 欧美福利精品 | 久久精品国产一区 | 久久中文免费视频 | 日韩成人在线一区 | 日本久久久一区二区三区 | 国产区在线免费观看 | 狠狠干av | 黄色一级电影免费观看 | 欧美日韩综合视频 | 欧美精产国品一二三区 | 91视频.com| 欧产日产国产精品99 | 三级国产三级在线 | 国产视频久久 | 欧美一级艳情片免费观看 | 国产精品一区二区在线 | 精品免费在线 | 动漫www.被爆羞羞av44 | 久热免费 | 一区二区三区高清不卡 | 亚洲高清在线观看 | 国产欧美日韩一区 | 色网在线看 | 国产91av视频在线观看 |