在數據中淘金前要準備好三件利器
原創作者:張玉
如果說阿里巴巴是國內最有價值的商業數據公司,你同意嗎?我們都知道阿里巴巴旗下有7大業務,其中像淘寶和天貓每天都會產生大量的交易數據,據統計2011年,淘寶注冊用戶達到5億,每天在線商品數超過8億件,形成了電子商務生態圈。
隨著互聯網技術及行業的不斷發展,越來越多復雜的互聯網平臺或應用架構產生,大規模數據的處理需求日益明顯,而如何有效挖掘這些大數據也正在成為大家關注的焦點。在這種形式下,云計算應運而生。云計算滿足了企業對海量數據的低成本、高效處理,實現了不同類型數據的大量存儲與海量計算。如何在“大數據”技術上用云計算構建下一代數據倉庫、如何有效分析挖掘數據已經成為熱門話題。
阿里巴巴集團數據平臺總監張東暉
如果說阿里巴巴是國內最有價值的商業數據公司,你同意嗎?我們都知道阿里巴巴旗下有7大業務,其中像淘寶和天貓每天都會產生大量的交易數據,據統計2011年,淘寶注冊用戶達到5億,每天在線商品數超過8億件,形成了電子商務生態圈。2011年11月11日,日成交超過100萬的店鋪有421家,日成交超過10萬的店鋪有1644家。日成交金額達到52億。如果說阿里巴巴坐在金山上,也許一點都不為過。
在2012阿里云開發者大會大數據與大規模計算專場,阿里巴巴集團數據平臺總監張東暉表示,做到數據掘金,要做到三件事情:1.好的商業模型,像阿里金融一樣2.強大的數據團隊3.淘金工具
ODPS是構建在飛天內核上的大規模分布式數據處理服務,提供海量數據處理服務,這個系統主要是做離線處理。據張東暉介紹,這個ODPS系統有效幫助用戶解決和六大基本問題,張暉介紹,目前數據處理系統面臨六大挑戰
***,高可用系統,飛天開放平臺的內核本身是一個很好的分布式系統,對于大數據處理不丟數據。
第二,對電子商務能夠做數字業務,其工作量是非常大的,規模的要求是大到幾萬臺機器都不能滿足需要。
第三是安全性,比其他的一般處理的安全性,商業數據的安全要求非常高,隨著技術的進步數據一定是要放在一起的,但是在一個很大的集群中,支付寶的數據完全隔離,不會被非法地訪問,也不會被非法的任務破壞,這是一個很大的挑戰。
第四是正確性,正確性需要滿足阿里金融無擔保貸款,這是一個非常難的事情,一旦擔保數字算的不對的話,會帶來很大的問題。所有的數據都是要保證分毫不差。
第五,是服務型,包括多租戶,我們后面從技術上講一些技術的挑戰。
第六,低成本,集群的調度系統,包括飛天的調度系統,是做的非常出色的。調度系統是滿重要的,另外業務和工作的調度也更高一層,這需要充分利用資源,根本的解決方案只是靠底層的調度還是不夠的,這也是ODPS做的比較多的。
責任編輯:張玉
來源:
51cto