羅李：基于Hadoop數據服務平臺

作者：簫韻 2013-04-27 10:07:04

Hadoop最重要的兩項服務是HDFS和MapReduce，阿里通過分組對資源做了切分，HDFS通過文件數和空間的配額做限制，mapreduce是做slot的限制。數據可以在阿里的平臺上方便的共享，計算資源通過分時共享，白天進行開發和測試任務，晚上進行生產任務。

　　2013年4月26日-27日，由51CTO傳媒集團旗下WOT（World Of Tech）品牌主辦的2013大數據全球技術峰會在北京富力萬麗酒店召開。本次峰會將圍繞大數據基礎架構與上層應用的生態系統，解決大規模數據引發的問題，探索大數據基礎的解決方案，激發數據挖掘帶來的競爭力，讓數據發出聲音。51CTO作為本次峰會的主辦方，將全程視頻、圖文直播報道這場數據的盛宴，更多內容請點擊專題：2013大數據全球技術峰會。

2013大數據全球技術峰會專題

[[71730]]

來自于阿里巴巴集團分布式團隊成員羅李與在場觀眾分享，阿里的大數據發展經歷幾個階段。

首先是單機版。但是面臨著容量問題，一臺機器放不下怎么辦?同時單機的性能也不能達到要求。

之后阿里用了市面上流行的分布式數據庫方案，容量和計算能力比單機版翻了好幾倍，當時滿足淘寶和阿里巴巴業務的發展。但發展到一定程度后，這種方式的問題初見端倪，首先容量有限制，作為一款商業軟件，它的價格不菲，按照容量收費導致軟件越用越貴。同時在大數據場景下，系統的穩定性也不是特別好。

再后來阿里內部有一些部門開始使用Hadoop，08年時阿里擁有7-8個大大小小的Hadoop集群，從十幾臺到一兩百臺，基本用于處理離線數據處理。但各個集群都各自為政獨立發展，卻又有千絲萬縷的聯系，雖相互依賴，但集群規模和運行水平卻參差不齊，所以集群的穩定性一直是一個問題，***的問題就是集群重復建設，高成本，低效率。

那么什么才是適合阿里巴巴的大數據解決方案?

云梯Hadoop服務集群

• HDFS - 海量數據存儲服務

• 分組，通過quota(空間/文件數)限制：/group/taobao

• 數據共享：淘寶/天貓/一淘/B2B/支付寶

• MapReduce - 大規模分布式計算服務

• 分組，slot限制，按需申請，集中分配和調度

• 生產 / 開發 / 測試共享集群，白天開發，晚上生產

• 服務特色

• 單一大集群

• 多用戶共享

• 計算分時

• 資源按需申請，按使用量計費

云梯提供的其他Hadoop服務有哪些?

其實這些服務都來自于Hadoop開源生態圈，并且可以很方便的吸收進來，這就是使用開源軟件的優勢。

最重要的服務是Hive，如果要遷移oracle的任務，就必須提供SQL語法的支持，hive做到了。之后阿里平臺發展壯大也主要是hive的功勞，現在阿里平臺上80%以上的作業是hive的。同時還提供了streaming，mahout，pig等工具。

阿里的HBase服務區別于獨立的HBase集群，hbase機器和云梯其他slave機器是共享的，和其他的Mapreduce任務共享一個HDFS，阿里期望在云梯大規模數據和計算能力背景下，吸收HBase存儲服務的特色，為云梯用戶提供更好的在線服務體驗。

[[71731]]

結尾：以上是51CTO.com記者從一線為您帶來的精彩報道。后續我們還有更加精彩的獨家報道，敬請關注。

責任編輯：王程程來源： 51CTO

大數據全球技術峰會阿里淘寶

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

羅李：基于Hadoop數據服務平臺