WOT架構師系列訪談(2)——阿里巴巴朱金清
編者按: 51CTO 2014 WOT全球軟件技術峰會將在2014年7月25-26日在北京富力萬麗酒店召開。從本周開始,我們將陸續公布會議內容,并針對即將參會的架構師訪談,以便大家進一步了解會議內容。會議詳細議程見: http://wot.51cto.com/2014/。
本次訪談的對象是阿里巴巴的朱金清(花名:穆公)。在本次的WOT軟件技術峰會中,朱金清老師將在數據庫技術領域,帶來阿里巴巴在HBase方面的實戰分享。
講師簡歷:
阿里巴巴數據庫技術專家朱金清,目前在淘寶/阿里數據庫技術團隊從事MySQL/HBase數據庫的數據管理和開發。人民大學數據庫方向碩士,師從孟小峰教授,期間也玩過搜索、爬蟲、數據挖掘等東西,主要做的是寫論文和demo原型的開發;碩士畢業之后在百度從事鳳巢等MySQL廣告數據庫的管理調優工作、曾主導過鳳巢歷史上***的數據庫拆分工作(1拆N)。
朱金清(@淘穆公)
以下是對朱老師的訪談實錄:
記者:阿里巴巴HBase集群的規模會到何種程度?
朱金清:我們總共在線加離線是有上千臺的機器,相對來說我估計應該算是國內比較大的。我知道有用HBase可能有幾家:小米、360和新浪,大概是這樣。我們這邊單獨的***的集群在搜索,一個集群有二三百臺左右。
記者:HBase在阿里巴巴,主要應用在哪些方面?
朱金清:在很多地方都用到了,包括kv型行數據、append型的數據、日志業務、還要所有的歷史數據,我們現在也都是放在HBase上。如果你要實時查詢數據,或者是要查詢歷史數據,比如說我們的以往的訂單,都可以用HBase。
記者:HBase的優化工作,阿里是如何來做的呢?
朱金清:***個就是說我們在一個業務上,就是說上線之前,我就幫它決定好,這個東西可能用什么樣的存儲更好。不能出現不清楚HBase用了多久后,可能性能還沒有多好,再來換一個其他更好的。這是選型階段的優化,或者說是評審的優化。
還有一個就是每一臺機器性能優化,相當于上線之后的優化了。我們分為兩個方面,一個就是有硬件的解決方案,我們現在也有上SSD這個硬件,然后來提高隨機讀的性能,因為 HBase隨機讀性能相對來說是比較一般的,而 MySQL我覺得達不到那么好。
還有一個就是相當于我們在進程,在HBase這個代碼上面進行優化。比如說我們現在也有后端的研發團隊也有做了二級索引的方案。就是提高這個讀查詢的性能,然后在代碼上面做了一些優化。現在我們也有軟硬件結合的方式,就是說這個代碼改了,然后用了 SSD 或者 FusionIO這種硬件,然后讓它的讀取和查詢都變得很好。
記者:HBase優化的時候,有哪些注意事項?
朱金清:對于優化,我們建議簡單的需求不要直接通過進入代碼來搞定。如果說在外圍或者配置參數能搞定的話,直接外圍或者配置修改來搞定。因為這樣的話,我可能升級代價也小。
性能優化還有一個就是說我們也希望說這個不是說什么場景我都去優化,就是對通用的,比如說這個東西做了一點就能很多集群都能提升,那這個產品我們更傾向通用問題的解決。
阿里、百度、京東、淘寶、谷歌、Facebook、Tesla都到2014 WOT全球軟件技術峰會了,你還等什么?這些***的公司將***對外公開技術,涵蓋八大主題,共有40+課程,部署實施、運維開發、大數據、Spark、敏捷開發一個都不少。除了***手的經驗之外,還有未來兩三年的技術趨勢,你會讓自己錯過這樣的技術大會嗎?