Databricks連城:Spark打造一體化大數據流水線
2014年7月25日-26日,由51CTO傳媒主辦的2014 WOT全球軟件技術峰會在北京富力萬麗酒店召開。秉承專注技術、服務技術人員的理念,自2012年以來,WOT品牌峰會成功舉辦了三屆,積累了大量的技術專家資源,獲得了廣大IT從業者和技術愛好者的一致認可,成為了業界重要的技術分享交流平臺以及人脈拓展平臺。
本次會議分為8個技術主題,分別是:數據庫技術與應用,互聯網架構分析,高效的技術團隊,敏捷開發,實時計算與數據分析,移動應用,自動化運維,開源技術。51CTO作為本次峰會的主辦方,將全程視頻、圖文直播報道這場數據的盛宴。
作為實時計算與數據分析專場“干貨分享”的講師, Databricks工程師連城先生為我們帶來了主題為《Spark SQL:一體化大數據流水線的重要拼圖》的主題演講。分享了Spark技術在大數據分析中的應用現狀及展望。
連城老師目前專注于以Spark為主的大數據分析系統,Spark SQL為Spark提供了原生的SQL關系查詢能力,并進一步增強了Spark操縱結構化數據的能力。演講伊始,連城率先分享了當今大數據的問題以及數據分析流程,通常的做法是在hadoop之上刻畫框架。因此所有流程是基于HDFS,所得到的是有效的數據處理結果占比全部數據處理的比例并不高。
基于Spark的統一的大數據分析組件
彈性分布式數據集可以有效地解決這一問題,Spark開源實現高速、兼容性、接口易用、程序精簡等優勢。
以上是51CTO.com記者從一線為您帶來的精彩報道。后續我們還有更加精彩的獨家報道,敬請關注。