阿里巴巴通用計算平臺負責人關濤:企業級大數據計算平臺的演進
計算的價值絕不止于計算本身,而是帶來更多的洞察和更強的驅動。
在2018杭州云棲大會主論壇上,阿里巴巴通用計算平臺負責人關濤表示,“最初我們希望數字化阿里巴巴,后來,希望把數字化普惠到企業層面,現在開始數字化一個城市。”同時,他還從計算力、聯合計算、智能化、企業級服務能力四個方面介紹了阿里巴巴統一大數據計算平臺的探索與實踐。
數字化城市背后的計算能力
MaxCompute是阿里巴巴9年前做飛天系統的三大件之分布式計算部分。9年后的今天,它已經成為可以承載EB級的數據存儲能力,百PB級的單日計算能力,公共云覆蓋國內外十幾個國家和地區,專有云包含城市大腦在內部署了超過100+套。
ET城市大腦作為杭州城市背后的數據支撐系統,無疑是對數字和計算的一個***要求。要想做到算得起,算的快,算的準,必須有一個強大的計算平臺。
從系統架構上看,MaxCompute底層包含異構的計算集群,通過統一的元數據管理和調度系統聯動在一起。向上提供包括批計算、流計算、內存計算、機器學習、迭代等一系列計算能力。
計算平臺:計算力是最核心的指標
2015年GraySort 競賽中,MaxCompute用377秒完成了100TB數據排序,獲得世界冠軍。2016年拿下CloudSort***成績,這表明不僅算得快,而且算得便宜。
2017年挑戰TPCX-Bigbench 100TB的30個query指標,成為***個測試通過的計算引擎。2018年在同樣100TB規模上,性能指標提升了一倍。另外在超小型10TB規模的指標上,性能超過其他開源競品3倍。
“通過對計算力的持續升級,使得計算力更便宜,智能化更普惠。”
計算下推比數據上移更高效
通常用戶上云,數據不會在一個系統里。對于在線服務,數據通常會在數據庫里支撐前臺業務,對于半結構化log和非結構化的音視圖等數據通常存儲在數據湖里。前端數據庫的數據有非常豐富的index的支持,可以算的非常高效,后端是超大規模存儲,中間是一個大數據體系,把結構化數據以列式的方式存儲下來,支撐超大規模的數據計算。
但這樣會面臨的一個挑戰就是用戶如何把所有數據放在一起來算,得到一個***的結果?面對這種挑戰,通常有兩種解法,一種是數據上移概念,就是把所有數據上移到同一系統中,上傳同步后進行計算。而此時會有三個問題,一是出現數據冗余,相當于把同樣數據備份了一到兩份;二是同步存在延遲,在延遲里無法進行計算;三是實時性會受到影響。
“基于此提出了聯合計算的概念,我們認為計算下推比數據上移更高效。”
什么是聯合計算呢?就是不需要數據同步,通過在大數據系統中的一個作業,可以聯動其它系統。每一部分都依賴于當時系統***的優化,做***的決策,在這個層面上實現數據之間的聯動和打通。
Auto Data Warehouse讓大數據自動駕駛
五年前阿里巴巴正面對數據爆發式增長的巨大挑戰,以人的理解力,無法理解這些數據之間的關系和作業之間的關系,因為它太過于復雜。數據有沒有冗余?計算是不是可以復用?如果某個作業失敗了,某個數據出了問題,到底影響面有多大?
所以五年前,從最基本的數據可發現開始,然后做數據血緣,找到數據間的關系,看數據冷熱之間分離能力,再看數據自動優化。***,當有一張新數據表進來時,可以自動去找關聯關系,這就是Auto Data Warehouse數據自動駕駛系統。這套系統在阿里巴巴內部實現了在計算優化上提升了35%,在數據冗余去重層面降低了20%的存儲能力,在資源規劃上,提升了超過75%的計算效率。
MaxCompute是面向企業的完整服務,不只是單一引擎
杭州城市大腦除了對系統計算力的要求之外,還包含穩定性,容災能力,可恢復能力,以及彈性能力等。當遇到突發情況時要有預警能力和自恢復能力。所有能力總結成一個詞就是“企業化的能力。” MaxCompute不止是計算引擎,而是一套完整的企業化服務。
除計算外,MaxCompute還包含賬號、項目管理、數據安全、監控、金融性容災等系統等。今年新推出了DQC數據正確性驗證系統,并全新升級了DataWorks開發和調試平臺,具備數據集成,作業pipline管理系統,可實現與機器學習、數據分析和BI平臺的聯動。
“計算力,聯合計算,智能化和企業級服務能力,構成完整的面向企業的大數據平臺,阿里巴巴用整套大數據計算能力,持續驅動數字中國。”