成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

是英雄還是狗熊?大數據那些事之SparkSQL

大數據 Spark
SparkSQL最主要的東西有兩個,一個是DataFrame全面取代了RDD。我必須為這個叫聲好。作為一個根紅苗正的關系數據庫思想熏陶出來的人,帶有RDD的Spark總給我一種干爹干媽做的數據處理的產品的感覺。用上DataFrame頓時有回到親爹親媽做的產品的感覺。期間的差距,可能是無法言語表達的。

SparkSQL是Spark新推出來的一個模塊。關于SparkSQL的八卦其實知道的不多,但是技術上倒能說幾句。

早先我文章提到了Shark是個失敗的作品。這個觀點從Shark出來不久我就這樣覺得了。SparkSQL的論文承認Spark團隊也認為Shark是一條胡同走到黑的選擇。既不能夠對本地的RDD做查詢,也不能有效和其他的Spark的模塊交互。英雄所見略同。當然狗熊所見也差不多。至于是英雄還是狗熊,各位看官自己判斷。

SparkSQL最主要的東西有兩個,一個是DataFrame全面取代了RDD。我必須為這個叫聲好。作為一個根紅苗正的關系數據庫思想熏陶出來的人,帶有RDD的Spark總給我一種干爹干媽做的數據處理的產品的感覺。用上DataFrame頓時有回到親爹親媽做的產品的感覺。期間的差距,可能是無法言語表達的。

DataFrame看起來像表了,有metadata了,既打開了做optimization的空間,又能夠很好的和其他的Spark模塊結合起來。的確是Spark一步領先步步領先的必然選擇,是大殺器。DataFrame一出,Spark的地位就真的牢固起來了。

第二個東西就是SparkSQL有了一個optimizer。這個optimizer粗看起來其實也沒什么特殊的。作為在好幾個optimizer里改過code的人,這個optimizer一看就是關系數據庫的套路。有logical的pass有physical的pass。但是我覺得有幾點是不同的。***點是rule本身是用Scala寫的。作為一個functional programming的語言,寫tree matching寫起來是得心應手。用Scala來寫rule的確是非常的有意思和有意義的一個選擇。第二是它有很多extension point。這就使得它用起來可獲展性好。至于CodeGen成JVM bytecode,自從有了LLVM在數據庫里面折騰,就算不上特別的驚艷了。但是起碼的好處是不管什么語言無論是python還是java用SparkSQL,性能差距都不大了。

至于這個東西的未來發展,我覺得optimization現在在SQL相關的操作和其他操作之間還是要間斷的。如果前面一堆sql的操作,中間有個machine learning的call,接下來又有一個sql的操作,optimization其實很難說把這三個捆在一起,做一個global的optimization。User-defined operator摻和的優化是很有意思又很難的。

另外我很能理解為什么現在系統是rule-based。Cost-based的東西在這種大規模分布式的系統下,很多時候怎么去cost就是個問題,不如Rule來得實用。能做固然是牛逼,但是其實能起作用的地方有限。我想如果我來,也會先上rule看看再說,也許這輩子都不上cost-based了。當然我聽說在Spark Summit上,華為來的同學們上了一個cost-based optimizer。我不知道是不是華為的底蘊非常的牛,還是人有多大膽,地有多大產了。

責任編輯:武曉燕 來源: 36大數據
相關推薦

2016-10-24 22:50:56

GFS大數據Google

2016-10-24 22:57:05

2018-01-04 13:29:13

租房租房網站安全

2015-09-01 11:31:50

數據英雄

2022-10-26 09:57:52

VectorRustC++

2015-08-27 17:08:46

大數據

2013-09-23 09:52:22

云計算大數據

2016-10-24 22:41:06

大數據Google

2013-07-30 14:21:28

大數據

2021-07-27 10:52:27

iOS WKWebView容器

2016-10-27 14:28:59

Hadoop系統大數據

2018-02-01 16:25:55

2021-07-09 13:58:16

MySQL數據庫運維

2023-07-31 08:21:22

語法校對器Pick

2013-10-31 11:46:37

2012-09-26 10:59:52

大數據云計算云服務

2019-09-30 08:23:47

Hash表哈希表Java

2011-05-19 16:47:50

軟件測試

2012-05-01 08:06:49

手機

2017-05-15 21:50:54

Linux引號
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久夜视频 | 久久免费精品 | 一本在线 | 久久精品国产免费一区二区三区 | 国产精品国产a级 | 欧美日韩精品一区二区天天拍 | 国产中文一区二区三区 | 自拍偷拍在线视频 | 视频一区二区三区四区五区 | 日本不卡一二三 | 日韩综合在线 | 日本不卡一区二区三区 | 免费观看av | 成人不卡一区二区 | 久久久久久久一区 | 国产线视频精品免费观看视频 | 精品视频一区二区三区四区 | 日韩欧美手机在线 | 亚洲国产一区二区三区, | 亚洲高清av在线 | 国产精品www | 亚洲性视频| 欧美中文| 天啪 | 黄免费在线 | 欧美一区二区在线视频 | 精品国产一区二区国模嫣然 | 国产资源在线视频 | 欧美在线观看一区二区 | 国产高清一区二区三区 | 91欧美激情一区二区三区成人 | 亚洲久视频 | 一区二区三区视频 | www.日本三级 | 少妇特黄a一区二区三区88av | 亚洲不卡在线观看 | 国产免费拔擦拔擦8x高清 | 国产乱精品一区二区三区 | 日韩不卡在线 | 成人精品一区二区三区中文字幕 | 日本二区|