你不知道的!Hadoop 十大事實揭秘
事實1:Hadoop 不單單是一個產品。剛接觸大數據的人通常認為 Hadoop 是數據科學新時代的關鍵產品。實際上,Hadoop 不單單是一個產品,還是一個生態系統。它由多個開源產品(在 Apache Hadoop 基金會的支特下開發)組成。它們就像幕后引擎一樣將大數據轉換為做出更明智、更快決策所需的寶貴知識。Apache Hadoop基金會的產品包括 MapReduce、HDFS、Hive、HBase、Pig、Sqoop、 Oozie、Hue、Zookeeper 和 Flume 等。這些產品能夠以特定方式組合用于特定的業務分析以及相關的數據源。
事實2:Hadoop 不僅來自 Apache,還是一個基于社區的生態系統。Hadoop解快方案庫包含來自 Apache 基金會的多個產品,同時也包含來自大數據領城眾多供應商的很多產品。隨著 Hadoop 的發展,越來越多社區和供應商加人其中,以使其盡可能全面和通用。
事實3:Hadoop 是一個開源社區項目。任何人都可以免費使用Hadoop 作為開源軟件庫。Hadoop可以從Apache 網站 www.apache.org獲取。一些初創公司為其他公司提供基于Hadoop庫及其擴展特性的打包解改方案,其中擴展特性是根據各戶的特定需要和需求定制的。
事實4:Hadoop 和MapReduce 是兩個互補的產品。谷歌在發明 HDFS之前就開發了 MapReduce。因此,MapReduce不依賴 HDFS, 而是與其他非HDFS的數據存儲技術(包括一些最常見的數據庫管理系統)一起工作 (現在仍然可以一起工作)。
事實5:HDFS 是一個文件系統,而不是一個關系型數據庫管理系統。Hadoop 主要處理分布式環境中的文件(而不是表和記錄)。因此,其數據粒度是文件級的,且沒有SQL 查詢、關系型數據庫、用于快速檢索的有意索引以及對索引數據的快速訪問等與關系型數據庫管理系統相關的常見功能。但是,作為回報,HDFS 能夠在文件級別執行關系型數據庫管理系統無法執行的操作。
事實6:Hive 看起來像 SQL,但不是標準 SQL。Hive 是用于操作關系型數據庫管理系統中數據的標準 SQL 的變體。對于熱悉 SQL 的數據分析師來說,學習使用Hive 編寫代碼是一個相對快速和簡單的過程。大數據領域的很多人相信并希望,隨著每次迭代,Hive 將更接近于SQL 的語法,而且,在不久的某個時候,標準SQL將很容易被用于處理 Hadoop 系列產品中的數據。
事實7:Hadoop 不能替代數據倉庫。從歷史上看,數據倉庫旨在處理企業的結構化數據,通常是關系型數據。隨著大數據的出現,數據倉庫因為無法處理非結構化數據而受到批評。Hadoop 系列產品的目標是通過處理數據倉庫無法處理的非結構化數據類型來補充(不是取代,至少目前還不是)數據倉庫。
事實8:Hadoop 支持分析。雖然Hadoop 已被互聯網公司廣泛使用并被兩極分化,但是它可以支持任何類型的分析,而不僅僅是網絡分析(如分析網絡日志和其他基于互聯網的數據)。例如,Hadoop 在分析物聯網數據方面發揮了重要作用,物聯網數據主要是由運輸、能源、零售、制造(如預測性維護)、電信和網絡安全等行業的機器和傳感器生成的。
事實9:MapReduce 不僅僅是分析。雖然 MapReduce 和分析之間存在著密切關系,但是這種關系并不是排他性的。雖然 MapReduce 是一個通用的執行引擎(它能夠處理沙及并行編程、網絡通信和容錯的各和復雜任務),但是它不僅限于分析應用。相反,它可以用來執行任何類型的計算任務。
事實10:Hadoop 不僅與數據量相關,而且還與數據的多樣性相關。HDFS 不僅可以處理非常大的分布式文件,而且還可以處理不同類型的文件。這個過程相當簡單,任何類型和大小的數據都可以使用在 HDFS 中構建的非常簡單和直接的過程進行存儲(集中或分布式)和管理。
作者簡介:杜爾森·德倫(Dursun Delen),俄克拉荷馬州立大學博士。Business Analytics的Spears和Patterson主席、衛生系統創新中心研究主任,以及俄克拉荷馬州立大學斯皮爾斯商學院管理科學和信息系統的杰出貢獻教授。《預測性分析:基于數據科學的方法(原書第2版)》《商業分析:基于數據科學及人工智能技術的決策支持系統(原書第11版)》《規范性分析:循證管理與最優決策》作者。
本文摘編于《預測性分析:基于數據科學的方法(原書第2版)》,經出版方授權發布。(書號:9787111718345)轉載請保留文章出處。