成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Spark1.2新特性概述

云計算 服務器 Spark
Spark Contributor、Spark布道者陳超通過本文總結了Spark 1.2版本的新特性,其中包括Spark Core、Spark Streaming、MLlib、GraphX、Spark SQL等方面,方便大家了解學習。

[[124991]]

Spark1.2 居然真的在12月份發布了,我表示略感意外,我一直以為稍微跳個票要到明年一月初才能發的。這次更新有172個開發者參與,并且有1000多個commits。這真是一個了不起的數字。本次版本給我們帶來了很多新特性,并且也有不少的性能優化點。我說幾個比較重要的吧。

Spark Core:

1、在傳大量數據的情況下,communication manager終于換成netty-based的實現了。之前的實現慢的要死是因為每次都要從磁盤讀到內核,再到用戶態,再回到內核態進入網卡,現在用zerocopy來實現了。(想起來沒,Kafka也是用的這個)。

2、shuffle manager換成sort based了,在shuffle數據比較大的時候,性能會有提升。不過也有不少人認為這個Hadoop的sort是一樣的,微博上也有人提出了這一點,本想回復解釋時,發現連城已經回復了。其實目前Spark的sort只是按照Partition key排序,Partition內部目前是不排序的,不過就算內部要排序,也是比較容易實現的。而Hadoop是按照每個Partition內的每個KV排序的。

Spark Streaming :

終于“號稱”支持fully H/A模式了。以前當driver掛掉的時候,可能會丟失掉一小部分數據。現在加上一層WAL(write ahead log),好多地方都在用這玩意兒,還記得HBase的write path嗎?每次寫到memstore之前都會寫到一個叫HLog的地方,以防止數據丟失。回到這個問題,每次receiver收到數據后都會存在hdfs上,這樣即使driver掛掉,當它重啟起來后,還是可以接著處理。當然WAL的實現也還是那樣子,到driver重啟后,要recover data,并且也要clean掉那些過時的數據。

當然,我還要特別提醒下 unreliable receivers和reliable receivers這兩個事情,有興趣的自己去看下什么個情況吧。

MLlib:

這里最重大的改變應該是Pipeline了,很多從事機器學習的朋友肯定會有興趣的。MLlib的老大祥瑞在北京已經談過這個了,這里不展開,需要指出的是,目前MLlib是用SchemaRDD來代表數據集的。也就是說,打通了Spark SQL與MLlib間的通道。話說在一起吃飯時我揪著祥瑞談了一些DataBricks Cloud的事情,沒問MLlib的事情,就知道他回來度個假,PR已經急劇增加了。

GraphX:

國內這塊用的比較多的要數淘寶明風他們團隊了。更多詳情,請咨詢淘寶技術部,哈哈,開玩笑的。這一版本最引人注意的應該是給出了stable api,這意味著你們不用擔心現在寫的代碼以后還要由于API的變化而改動了。插播廣告,下周杭州Spark Meetup,會有GraphX的一個精彩主題。

Spark SQL:

把這塊放***的原因是,Spark SQL真是太火了,所以你們要提PR就趕快提,趕快響應,趕快merge,不然保不準在短時間內就給你來個conflict。這版本最重要的特性毫無疑問應該屬于external data source吧,套用連城PPT上的一句話,push predicates to datasource, 什么意思呢,譬如你要從HBase取數據后做一些篩選,一般我們需要把數據從HBase全取出來后在Spark引擎中篩選,現在呢,你可以把這個步驟推到Data Source端,讓你在取數據的時候就可以篩選。當然,這塊肯定還會有很大的改動。

另一點必須要指出,我以前在很多場合都提醒大家,Spark SQL中緩存表一定要用cacheTable(“tableName”)這種形式,否則無法享受到列式存儲帶來的一系列好處,但是很多朋友仍然采用rdd.cache這種原生的方式來緩存,社區也意識到這樣不行,所以現在無論是cacheTable還是直接cache,都是表達相同的語義,都能享受到列式存儲帶來的好處。

就寫到這里,本版本改動較大,希望大家盡早升級。

原文鏈接:http://mp.weixin.qq.com/s?__biz=MjM5NTc2MTg3Mw==&mid=201641685&idx=1&sn=1b75be3d774bb3f26b6714674dbefc64&scene=2&from=timeline&isappinstalled=0#rd

責任編輯:Ophira 來源: scala
相關推薦

2010-10-08 09:54:30

IBM AIX 7

2009-07-30 14:55:43

ASP.NET 2.0

2010-07-20 10:19:06

Wine 1.2

2010-03-05 08:56:14

JSFUnit 1.2

2011-05-20 09:35:22

JDK7

2011-03-15 09:33:18

SQL Server 集成服務

2017-11-13 08:44:19

Android Stu移動數據庫Kotlin

2014-12-22 09:57:27

Spark分布式數據集大數據

2010-07-07 14:30:22

SQL Server

2009-06-19 11:38:15

JavaFX 1.2

2009-07-30 15:17:16

ASP.NET 2.0

2009-10-20 15:06:40

綜合布線產品

2009-06-03 16:10:34

OpenSolaris

2014-07-15 14:48:26

Java8

2024-09-11 09:30:58

IDEA工具編程

2021-02-22 11:51:15

Java開發代碼

2009-01-16 10:01:57

MySQL復制特性測試

2010-06-03 17:02:15

2010-01-15 18:30:50

VB.NET Dlli

2011-11-08 10:17:34

Ubuntu 12.0特性
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 男女啪啪网址 | 美女一级黄 | 国产sm主人调教女m视频 | 亚洲精色| 在线视频 亚洲 | 国产日韩久久久久69影院 | 日韩在线欧美 | 精品无码久久久久久国产 | 国产精品一区二区三区在线 | 视频一区二区在线观看 | 888久久久 | 成人精品啪啪欧美成 | 日韩一区二区三区在线观看视频 | 成人精品啪啪欧美成 | 国产成人在线视频 | 日本欧美在线视频 | 国产午夜精品一区二区三区四区 | av在线一区二区三区 | 国产精品国产成人国产三级 | 男女羞羞视频大全 | 欧美日韩久久精品 | 午夜精品久久久久久久久久久久久 | 国产一区亚洲二区三区 | 国产91久久精品一区二区 | 在线观看亚洲 | 中文字幕乱码一区二区三区 | 亚洲精品免费观看 | 成人免费三级电影 | 91成人午夜性a一级毛片 | 国产一区二区三区四区三区四 | 69av在线视频 | 精品啪啪| 成人黄在线观看 | 在线视频国产一区 | 午夜成人免费视频 | 欧美九九九 | 亚洲狠狠爱| 亚洲精品综合一区二区 | 欧美精品一区二区在线观看 | 99re在线播放 | 国产精品久久久久久婷婷天堂 |