破解迷霧：關于大數據與Hadoop的九大誤區

作者：核子可樂譯 2015-06-23 10:04:06

這些毫無根據的印象涉及所需技能儲備、技術方案類型以及技術匹配方式等多個層面，盲目偏信只會將大家引入歧途。

大數據分析目前已經成為技術業界的主流趨勢，每一家企業都開始將此類方案視為實現自身差異化優勢的核心甚至是求得生存的關鍵所在。有鑒于此，關于大數據的各種誤解也開始不斷涌現。這些誤區不僅可能將大家引入歧途，甚至會讓各位把寶貴的資源投入到根本走不通的發展路線當中。另外，此類誤區的存在當然也會導致大家錯過將預算資源投向更具意義的業務實踐方法的機會。

在今天的文章中，我們將一同了解九大千萬不可輕易著道的大數據與Hadoop相關認識誤區。

誤區一：我們能夠輕松雇用到數據科學家

最近，我們公司某合作企業的一位售前工程師提到了尋找一位數據科學家到底有多困難。出于好奇，我詳細詢問了他們列出的合格人員條件，但答案實在是……他們需要需要一位數學博士，擁有計算機科學與MBA教育背景，此外還需要在這幾大領域當中擁有實踐經驗。看到這里我不禁要問：“你們要招的這位得有多大年紀，九十歲？”

下面來看實際情況：

• 優秀的數學家往往傾向于使用Python，而且通常需要業務人士為其提供幫助。

• 優秀的計算機科學人才確實擁有一定程度的數學認知。

• 優秀的計算機科學人才在處理一定數量的問題后能夠理解企業業務。

• 業務型人才了解數學知識。

• 專業人士往往擁有很強的知識指向性。

• 領導者應負責將上述人才匯聚起來并協同工作。

由于前面提到的這家企業找不到合適的數據科學家人選，因此只能建立起擁有跨學科專業知識的工作小組。而這也是大部分企業必須采取的解決思路。

誤區二：關于大數據的一切都是新生事物

技術人員總是喜歡拋棄過去，而他們所宣揚的首選工具要么前所未見、要么會產生大量后續問題。但這種印象與實際情況并不相符。

舉例來說，Kafka分布式消息系統被廣泛描述為一款大數據必需的新型工具產品。不過與其它消息系統比較起來，它的功能集顯得非常孱弱而且還遠稱不上成熟。要說其中真正的新生事物，Kafka在架構方面專門針對Hadoop平臺而且在設計思路中引入了大量分布式概念。如果能夠接受其種種缺陷，那么Kafka確實具備相當的實用性。

也就是說，有時候我們需要使用更為復雜的路由及保障手段。在這類情況下，我們可以使用ActiveMQ或者其它更為穩定可靠的選項。

誤區三：機器學習才是解決問題的正道

我估計約有85%的朋友會將機器學習視為一種簡單統計方案。但事實上，我們的常見問題往往只需要通過簡單的數學與分析機制即可解決，因此不要好高騖遠、先從這里起步比較好。

誤區四：你很特別

正如哲學家Dirden曾經說過，“你沒什么特別。你并不像雪花那樣精致而且獨一無二。”這里要向大家公布了項調查結果。目前技術業界當中，約有半數從業者忙于編寫同樣的ETL腳本，旨在為大部分同類數據源進行同樣的自定義分析處理。而且在任何規模的企業當中，都有很多部門可能在重復著這方面的工作。

不用說，好好咨詢一下是著手推進大數據工作的最佳前提。

誤區五：Hive速度極快

Hive速度并不快。它并不能在速度上給人留下深刻的印象。沒錯，其新版本已經得到了顯著改善，但它仍然沒辦法帶來良好的性能水平。它的規模擴展能力出色，不過大家可能需要準備好多種工具來將Hadoop與SQL加以匹配。

誤區六：我們可以使用少于十二節點的集群

Hadoop 2+幾乎已經能夠運行在十二節點集群之上——但如果節點數量進一步減少，那么大家恐怕會面臨漫長到令人抓狂的啟動時間。另外，我們在其上運行的任何任務都會極為緩慢——有時候甚至根本無法完成。（當然，在十二節點集群上運行個‘hello world’還是不成問題的。）Hadoop 2運行所需要的線程更多，這意味著我們需要為其提供更多節點與更大內存容量。

由于可以將數據集駐留在內存當中，Spark能夠將HDFS載入時間控制在最低水平。

誤區七：數據節點的解決方案在于虛擬化

來自供應商的答案是“錯”。IT團隊亦會在這個問題上猶豫不決。在這里我們要強調，不，大家不能在SAN上部署數據節點。而且如果將管理節點放在虛擬機系統當中，那么日志寫入、任何記錄延遲狀況乃至數據節點的低IOPS或高延遲都有可能成為整套體系的性能瓶頸。

也就是說，Amazon Web Services以及其它同類方案能夠在解決這些問題的同時，繼續保持管理工作擁有合理的性能水平與可擴展能力。當然，大家也可以或者說需要將其從內部文件服務器及外部企業宣傳網站當中剔除出去，同時有效管理自己的硬件與虛擬化資源。

請記住：吞吐能力與延遲呈正比關系。HDFS會在不同場景下對二者作出權衡。

誤區八：每個問題都屬于大數據問題

如果大家打算在數TB級別的數據集當中將數個字段與數條狀態進行匹配，那么這并不能算是大數據問題。千萬不要把每一種分析需求都先入為主地劃分到大數據范疇當中。

誤區九：我們沒有什么大數據

盡管大數據在定義上確實是對龐大數據機進行處理——不太準確，但也可以這么表達——但大數據解決方案對于小規模數據集也同樣擁有良好的處理效果。因此，千萬不要在處理小數據時想當然地將大數據分析機制排除在外。大家完全可以在面對數GB規模的數據時，仍然享受到Hadoop或者其它大數據技術成果所帶來的便利——當然，具體情況要具體分析。

此外，我們往往擁有著一些自己并不知曉的大數據資產。很多在習慣上會被企業直接丟棄的數據當中，實際包含有大量有價值信息。任何一家員工在五十名或者以上的企業都有可能擁有大數據——即使是規模更小的公司，也可以利用大數據思路進行資產管理（例如財務數據等）。

原文鏈接：

http://www.infoworld.com/article/2936947/big-data/debunked-9-big-data-and-hadoop-myths.html

責任編輯：王雪燕來源： 51CTO

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

破解迷霧：關于大數據與Hadoop的九大誤區