成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

為什么Spark在數據科學界這么紅?

大數據 Spark
Streaming, Spark Machine Learning(MLlib)Spark SQL 和 Spark GraphX, 這些組件是當下互聯網生態需求的大綜合,可以說整個數據應用鏈,Spark 都完美的提供了解決方案,那么它不紅,都沒理由了!

[[285671]]

今天是2019年,要是有誰說有十年大數據工作經驗,我是不信的。因為 Spark 正式應用才多少年?看過下面文章的你,應該就知道了,2012 年移交 Apache Spark, 就算他是 Spark 的 Committer, 滿打滿算才 7 年。

如果是 2006 年 Hadoop 一代長老呢,那肯定有 10 年大數據經驗了,但依然只能說是半吊子的大數據工程師,因為真正有實時大數據平臺的年代,要從 2012 年 Apache Spark 正式推出算起。

Spark 是 Apache 的頂級項目,一舉一動都在整個社區的矚目之下。凡是由 Apache 推動的項目,自然大概率是比較成功的。回想 Google 當年沒將 Big Table, Map Reduce, GFS 及時的推廣到 Apache 落地,反而被后來者 Hadoop 奪得了頭魁,甚為惋惜。想知道Google 錯過這段好時機,可以看我的這篇文章《繼螞蟻金服OceanBase之后,騰訊也祭出了大殺技》

最初時,Spark 孵化于加利福尼亞大學(University of California) 伯克利分校(Berkeley)的大數據實驗室( AMPLab).說起這個實驗室,還有兩個巨頭產品, Apache Mesos 和 Alluxio. 看官可能對這兩產品不是很了解,沒關系,這里也不打算講,以后再細說。

2006 年, Hadoop 基于 Google 的三駕馬車,先于 GCP 而被世人所知。除了分布式存儲擴充了商業關系型數據庫的存儲容量外,Map Reduce 更是一大創舉,讓分布式計算取得了開創新的進展。但 Map Reduce 的原理注定了它的致命缺陷,中間數據集要存盤,以致于丟失了性能上的戰略牌。被 Spark 的內存式彈性分布數據集(Resilient Distributed Dataset)撿了個漏。于是 Spark 于 2009 年橫空出世,彌補了 Hadoop 性能上的缺陷,由此也搶到了一塊市場。

Hadoop 本來被期望很高,直指機器學習與人工智能,科學家已經嘗試在 Hadoop 上研發機器學習的軟件庫,但由于中間數據要存盤的這一致命缺陷,導致最終很多實時計算項目爛尾,而科學家們在另外一個項目,叫做 Mesos(分布式集群管理) 上取得長足進展,索性在 Mesos 上建立 Spark(分布式計算) 來替代 Hadoop.

由此可見,Hadoop 之所以會被 Spark 打敗,完全是市場新興的訴求(機器學習與人工智能)使然。Spark 的出生,就是為了解決機器學習的困境。

當然,說 Spark 打敗 Hadoop 有些不嚴謹,就像說 Apple 的 iOS 打敗 Google 的 Andriod 一樣,兩者是補充,滿足了不同的市場需求而已。Spark 與 Hadoop 在應用場景上,只是互相補充罷了,畢竟實現 Spark 的硬件要求比 Hadoop 要高很多,成本也就不一樣了。這些都是廠商不會直接告訴你的。

Hadoop 先于 Spark 3 年出世,那么做為 Spark 如何快速從 Hadoop 中奪取屬于自己的市場呢?從頭建立自己的分布式管理,還是利用 Hadoop 已有市場,與 Hadoop 兼容 ,只拋出自己的分布式計算引擎呢?很顯然, 聰明人都會選后者,沒必要從頭建立一個輪子啊。所以很快的,社區對于 Spark 的接受也相當輕松。社區的推廣在很大程度上也助推了 Spark 的應用鋪貨。

Spark 流行的基礎原因說的差不多了,那再說點高級應用。軟件發生到現在這個時間段,真不是哪家軟件能解決某個問題而已了,而是哪家軟件能提供一整套應用鏈,就用那家。所以開放性就決定了軟件體系能走多遠。

就跟編程語言一樣的,原本的 Visual FoxPro, Visual Basic, Delphi 本是解決 MIS 系統的最有效編程工具,但隨著 web, mobile 應用需求的出現,這些工具再也跟不上需求發展的步伐了,逐漸就被市場給拋棄了。

縱觀 現在主流的編程語言,Java, Python, 哪一個不是包羅萬象,既可以玩的了 C/S 傳統開發,又駕馭的了 B/S 的潮流,甚至在 mobile 應用上也能對付。Spark 也一樣,除了能玩轉數據 CRUD(Create, Retrieve, Update, Delete), 更能匹配當下數據科學的潮流,比如批量,實時 ETL, 比如集成各種數據分析,數據挖掘的算法,高效的去完成機器學習。

Spark 在擁抱內存式分布計算的同時,順應時勢間接容納了 Spark Streaming, Spark Machine Learning(MLlib)Spark SQL 和 Spark GraphX, 這些組件是當下互聯網生態需求的大綜合,可以說整個數據應用鏈,Spark 都完美的提供了解決方案,那么它不紅,都沒理由了!

責任編輯:未麗燕 來源: 今日頭條
相關推薦

2013-12-04 10:00:56

PythonR語言數據科學家

2017-03-10 09:32:45

谷歌KaggleAI

2019-08-26 09:47:56

數據科學家數據分析

2019-12-25 14:00:26

數據科學人工智能科學家

2020-02-14 13:53:33

Python 開發編程語言

2022-07-28 19:31:39

AlphabetDeepMind擴展數據庫

2019-07-05 15:52:03

數據科學家大數據機器學習

2023-05-08 15:09:49

AI開源

2020-02-16 20:43:49

Python數據科學R

2017-06-07 11:57:19

互聯網

2023-03-26 21:03:54

GPT-4人工智能

2025-01-21 09:30:00

AI科學技術

2020-02-03 08:00:00

機器學習人工智能AI

2022-02-14 13:59:47

數據數據孤島大數據

2019-12-11 14:23:50

大數據商業 價值分析

2018-08-16 08:03:21

Python語言解釋器

2019-08-30 14:58:47

JavaScript程序員編程語言

2024-02-26 21:15:20

Kafka緩存參數

2013-03-04 10:10:36

WebKit瀏覽器

2022-06-02 08:03:19

PyCharmPython代碼
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 一级片在线视频 | 一区二区三区精品视频 | 日日夜夜精品视频 | 日本黄色大片免费看 | 中文字幕一区二区三区在线观看 | 欧美一级视频 | 亚洲精品一区二区三区丝袜 | 国产精品中文字幕在线 | 操操网站| 999久久久久久久久 国产欧美在线观看 | 国产精品视频一区二区三区 | 国产毛片久久久 | 久久乐国产精品 | 国产伦精品一区二区三区视频金莲 | 99久久精品一区二区成人 | 免费a大片 | 欧美a级成人淫片免费看 | 一区免费观看 | 做a的各种视频 | 日本三级日产三级国产三级 | 国产色婷婷精品综合在线手机播放 | 欧美日本一区二区 | 国产精品亚洲一区二区三区在线 | 国产成人在线视频 | 午夜免费观看网站 | 五月免费视频 | 视频在线一区二区 | 伊人网一区 | 成人午夜免费福利视频 | 日本在线一区二区 | 日本韩国欧美在线观看 | h视频在线免费观看 | 久久久网| 亚洲精品乱码久久久久v最新版 | 国产精品久久网 | 91免费在线视频 | 91麻豆精品国产91久久久久久久久 | 久久精品国产亚洲 | 亚洲成人久久久 | 亚洲 欧美 日韩 精品 | 日本三级电影在线观看视频 |