大數據到底應該如何學？大數據生態圈技術組件解析

作者：小山豬的沙塔 2020-12-17 11:04:22

大數據作為一個熱門的技術標簽，在學習、工作和生活領域中被廣泛學習和使用。通過大數據的概念我們能能夠了解到它的特點，但是大數據能夠解決什么樣的問題，能夠應用在哪些領域，應該學習哪些內容，側重哪一方面呢？本文詳細的講述了數據的產生、數據的收集和管理、如何學習大數據、數據的開發和數據開發工程師的主要工作以及需要掌握的技能，同時也簡短的介紹了數據分析的知識。

大數據的基本概念

什么是大數據

要說什么是大數據我想大家多少已經有所了解了，很多落地的案例已經深入到了我們的生活中。大數據具有數據量大、數據類型豐富復雜、數據增長速度快等特點，一切的數據分析必須建立在真實的數據集上才會有意義，而數據質量本身也是影響大數據分析結果的重要因素之一。

作為學習者，我們關心的應該是大數據能夠解決什么樣的問題，能夠應用在哪些領域，應該學習哪些內容，側重哪一方面。

簡單來說，我們需要學習的就是一系列的大數據生態圈技術組件，以及貫穿整個數據分析流程的分析方法和思維，并且思路更加重要一些！只有明確了數據分析場景與流程，我們才能夠確定需要整合哪些大數據組件來解決這一問題。

下面我們將一起推開這一領域的大門~

數據是如何采集的

大數據分析的第一步就是對數據的收集和管理，我們需要先來了解一下數據是如何產生的？又是被如何捕獲的？那些看似雜亂的數據真的能被分析嗎？

主動的數據產生與用戶行為數據收集

主動產生的數據比較好理解，在我們使用互聯網或者各種應用的過程中，通過填寫提交表單就會產生數據。類似的，我們在線下環境中，比如銀行開卡、紙質表格的填寫，最終都會變成電子數據流入到系統中。通常，我們會將這一類行為歸為用戶注冊，通常會是產生數據的起點。（當然，有些時候我們分析的數據也可能并不關心用戶自身的信息。）除此之外，通過使用一些平臺的功能，用戶會上傳和發布各種類型的數據，如文本類信息、音頻、視頻等，這都是數據產生和積累的方式。

對于用戶行為數據更多的來自于應用埋點和捕獲，因為用戶使用應用必須通過鼠標點擊或者手指觸碰來和用戶界面進行交互。以網頁應用（網站）為例，對于鼠標的所有行為基本上都可以通過事件監聽的方式來捕獲，鼠標在某個區域停留的時間、是否進行點擊，我們甚至可以根據用戶的行為數據刻畫出整個頁面的熱力圖。

在不同的應用場景中，我們可以對行為類型、功能模塊、用戶信息等維度進一步的劃分，做更加深入的分析。

結構化數據與非結構化數據

最常見的結構化數據就是存儲在關系型數據庫中的數據，如MySQL、Oracle等，這些數據都具備一個特點，就是十分規范。因為關系型數據庫屬于寫時模式，也就是說不符合預先設定的數據類型和規范的數據不會通過校驗，存不到數據庫中。除數據庫中的數據以外，那些能直接導入到數據庫中的數據文件我們也可以把它們視為結構化的數據，如：CSV格式。這些數據通常需要具備統一的列分隔符、行分隔符，統一的日期格式等等。

對于非機構化的數據指的就是除結構化數據以外的另一大類數據，通常沒有預期的數據機構，存儲在非關系型數據庫中，如：Redis、MongoDB，使用NoSQL來進行操作。也可能是非文本類型的數據，需要特別對應的手段來處理和分析。

大數據真的能預測嗎

問起大數據到底能不能預測，倒不如來說一說大數據是如何預測的。如果結合人工智能領域來說的話就比較復雜了，就說比較簡單的場景：用統計分析的方法進行輔助決策，或者用經典數據挖掘算法進行模型的訓練。既然是預測，那就有可能準確，也有可能不準確，分析者需要做的就是合理的使用各種數據維度，結合相應的算法或統計分析方法，去訓練或擬合出一個潛在的規律。這個過程就好比，給了我們三個點（1，1）、（2，2）、（3，3），我們可以大概猜到它的函數式有可能為y=x一樣。當然，實際的分析過程要比這復雜的多得多，畢竟有很多函數式都可以滿足這三個點，但到底哪一個是我想要的規律呢？這就需要理論知識與行業經驗并重，不斷的打磨和優化才能夠得到一個可靠的模型。

但是我們可以明確的一點是，大數據的預測也好、推薦也好，都是基于算法的，是數學的，也是科學的，但并不會百分之百的準確。

什么是大數據開發

了解了什么是大數據，接下來介紹一下大數據開發這一崗位，先直接上崗位描述（JD：Job Description）給大家感受一下。然后來說明一下大數據開發工程師的主要工作，最后再來總結一下需要掌握的技能。

京東大數據開發工程師JD

小米大數據開發工程師JD

滴滴大數據開發工程師JD

主要工作

從上面的崗位描述中我們可以發現大數據開發工程師一般會與業務進行對接，要么是基于某一個場景進行有針對性的數據處理，要么是打造一個大數據產品。在這里我們也需要糾正一個小小的概念，可能有些小伙伴認為有大數據崗位需求的公司一定是一個自身具備大量數據、有著大量用戶積淀的公司，其實不然。

除了分析公司自身業務數據以外，同樣可以打造一款通用的大數據產品，大家可以參考我的另一篇文章：如何用開源組件“攢”出一個大數據建模平臺。所以大數據的崗位雖然不像普通的開發工程師那么多，但是需求依然存在。

如果是分析公司自身的業務數據，一般會更偏重于使用大數據組件和算法庫，構建出一個可行的數據分析方案。大家可以看出，現在完全不涉及算法的大數據崗位已經比較少了。這里的算法指的并不是數據結構，而是指機器學習庫，與數據挖掘相關的算法，至少要知道如何控制算法的輸入與輸出，算法能夠解決的問題，可能不會涉及到親自建模，在大數據分析的小節中會詳細介紹。

如果是開發一個大數據產品，比如建模平臺，或者是致力于解決數據采集、數據可視化的解決方案。那么這比較適合從開發工程師轉行大數據開發工程師的小伙伴，相當于在開發一個應用的基礎上又增加了底層的大數據組件。這就要求我們既需要懂得原始的服務端框架的那一套，又能夠駕馭大數據開發API。

掌握技能

從事大數據開發需要掌握的技能可以概括為以下幾個方面：

操作系統：Linux（基本操作、軟件維護、權限管理、定時任務、簡單Shell等）

編程語言：Java（主要）、Scala、Python等

數據采集組件及中間件：Flume、Sqoop、Kafka、Logstash、Splunk等

大數據集群核心組件：Hadoop、Hive、Impala、HBase、Spark（Core、SQL、Streaming、MLlib）、Flink、Zookeeper等

素養要求：計算機或大數據相關專業

什么是大數據分析

說到數據分析師，這不是本文的重點，因為門檻相對較高，另一方面更偏數學、統計學方向，更多的是與數據、算法打交道，編程的產物通常不是應用，而是一個算法模型。我們還是先來看一看相關的JD：

小紅書數據分析師JD

京東數據分析師JD

新浪微博數據分析師

主要工作

如果說大數據開發的崗位需求是一條一條的話。。。那么數據分析師的崗位需求大概率是一篇一篇的。。。

從上面的要求的中可以看到，每一個崗位都講業務場景介紹的很詳細，畢竟，數據分析師的主要工作之一是建立算法模型，這是垂直領域的深耕。通常我們無法直接使用那些已經存在的算法，必須要進行評估、優化、或是組合使用。除此之外，你還必須擁有這一領域的業務經驗，才能夠很好的勝任。

掌握技能

算法工程師需要掌握的技能可以概括為以下幾個方面：

編程語言：Python、R、SQL等
建模工具：MATLAB、Mathematica等
熟悉機器學習庫及數據挖掘經典算法
數學、統計學、計算機相關專業，對數據敏感

應如何學習大數據

上面介紹了和大數據相關的兩個主要工作崗位，其實與大數據相關的崗位還有很多，真正歸納起來，ETL工程師也可以說擦邊，因為隨著數據量的不斷增大，無論是銀行內部還是大數據服務公司都在從傳統ETL工具向大數據集群進行過渡。

涉及到了這么多的技術點，如何學習才更加高效呢？首先好入門的自然是大數據開發，對于Linux的操作系統和編程語言的部分沒什么過多說明的，不要覺得有些東西沒用就跳過，有些時候編程思想和解決問題的方法同樣很重要，課本上有的一定要扎實。對于和大數據相關的組件，看上去十分的繁雜，很多小伙伴可能都是鉆研于每個組件的用法、算子、函數、API，這當然沒有錯，但是同時一定不要忘記埋在其中的主線，那就是：完整的數據分析流程。在學習的過程中一定要了解各組件的特點、區別和應用的數據場景。

離線計算

在離線計算場景下，使用的都是歷史數據，也就是不會再發生改變的數據。在數據源確定以后，這些數據不會再增加、也不會再更新，比較適合對實時性要求不高的場景。大多數情況下是周期性的計算某一個指標或執行一個Job，運算耗時基本上可以控制在分鐘級。
數據源：數據文件、數據庫中的數據等
數據采集：Sqoop、HDFS數據上傳、Hive數據導入等
數據存儲：HDFS
數據分析：MapReduce、Hive QL
計算結果：Hive結果表（HiveJDBC查詢）、導出至關系型數據庫

實時計算

實時計算所面對的數據是不斷的流入的，要能夠使用合適的組件處理實時流入的數據。有些時候單位時間內的數據流入會比較多，消費的比較慢。有些時候單位時間內的數據流入會比較少，消費的會比較快。所以在采集數據時一方面要保證數據不丟失，同時還需要有中間件來管理好數據。在進行實時計算時可以使用微批次的方式也可以使用其他方式，同時要處理好計算結果合并的問題，實時展示最新的結果。

數據源：日志文件增量監聽等
數據采集：Flume
中間件：Kafka
數據分析：Spark-Streaming，Flink等
計算結果：HBase

以上只是簡單的列舉了一些實現不同場景數據流程的組件整合方案，詣在告訴大家一定要善于發現和總結不同組件的特點，把合適的組件放在合適的位置，這也是面試官經常喜歡問的場景題目。

其實每個組件的使用方法和調用API并沒有很復雜，重點還是在于流程化、一體化、把組件之間連接起來，不斷的滲透和強化數據分析和處理的思路，能夠把一個需求直接翻譯成數據分析方案，這才是學習的重點。

責任編輯：梁菲來源：大數據文摘

大數據大數據技術數據分析

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大數據到底應該如何學？大數據生態圈技術組件解析

大數據的基本概念