51CTO專訪褚霸:阿里集團與去IOE這條路
原創【51CTO 特約報道】目前越來越多的企業開始采用高性能的硬件搭建自己的服務器,而且高性能硬件也日趨成熟。CPU的核心數越來越多,內存越來越大并且價格變得更加低廉,SSD設備的性能也遠遠超越以前的IO設備,萬兆網絡也逐步成為一種主流。但是企業在購買的時候需要如何選擇呢?只是一味購買新的硬件設備往往會對企業本身造成不良后果,甚至帶來沉重的經濟負擔。
余鋒(花名:褚霸)
在2012年7月8日阿里技術嘉年華上記者遇到淘寶核心系統數據庫組-高級技術專家余鋒(花名:褚霸)。在會上,褚霸以《利用新硬件提升數據庫性能》為題分享了淘寶在利用高性能新硬件的寶貴經驗。
從硬件到軟件再到軟硬結合
隨著業務需求的不斷增加,企業意識到需要增加自身在軟硬件方面的投入,大家都紛紛把目光投入到新硬件采購上來。對于淘寶如此龐大的業務量而言,性能與成本之間就存在著很微妙的關系。褚霸表示:“在性能與成本上來說,整個阿里集團擁有軟件的定制能力,硬件是根據軟件本身的特點進行采購的,做一些定制化的東西。成本上來講需要控制在合理的范圍內,需要高性能,但是成本不能夠太過分。其實對于硬件來說投錢下去就可以見到效果,軟件上面投錢下去不一定能很快的看到效果。”
就在當天的大會上我們不難看出,不論是哪個行業,大家多多少少都在關注高性能硬件這方面的東西,只不過沒有淘寶下了那么大的力氣。褚霸認為:“未來大家也都會走我們這樣的一條路,這是未來的一個趨勢。”
大家不難看出,在互聯網剛剛起步的那幾年企業購入大批硬件設備,比如IBM小型機、EMC的存儲;當企業業務發展到一定程度的時候,高額的硬件成本讓不少企業開始轉向采用軟件開發解決企業內部業務需求,當軟件開發達到一定程度的時候企業就開始逐步采用定制化的高性能硬件提升軟件性能。這樣就形成了一個從硬件到軟件在到軟硬結合的趨勢。
阿里集團與去IOE的這條路
淘寶從很多年以前就開始籌備去IOE計劃,并且淘寶是目前國內去IOE做的做徹底也是最成功的一家。去IOE是一項非常龐大并且負復雜的項目,不單單是底層數據庫的變化,硬件也要跟著變。
褚霸告訴記者:“在項目剛剛開始的時候,我們在前端也做了很多工作,前端需要把數據庫進行弱化,之前對Oracel數據庫用的比較狠,在開始需要對Oracle數據庫進行弱化處理,之后在將其替換掉然后在進行其他的事情。”
去IOE本身就是一場革新,一場企業內部的技術革新。這對于企業內部的IT技術團隊來講也是一次更新與交替的時刻。對于工程師而言,尤其是Oracle DBA就面臨這選擇:轉型為MySQL數據庫工程師還是離職繼續做Oracle DBA。這對于企業IT部門來說是一個巨大的沖擊。
面對這樣的變化集團龐大的數據庫團隊又是如何面對的呢?作為數據庫項目組的主要負責人,褚霸告訴記者:“這種沖擊對于整個團隊并沒有造成太大的沖擊,這是一個公司整體的規劃,并且從很早的就開始籌備,從上到下已經形成一個共識,支持的力度很大。這件事是一個系統的工程,大家一塊塊的去做,前端做好了,后面自然而然的就要去接,中間做好了,后端的也就順其自然的開始做。”
之前網上的一篇博文《去IOE:去掉“IE”就Ok?》指出,硬件:去“IE”利人利己;去留Oracle 各有理由,量力而行。淘寶又是如何判斷O的去留呢?
對于淘寶來說在業務系統搭建之初,整個阿里集團有98%以上的軟件系統和業務都采用Oracle數據庫提供數據服務。褚霸針對這個問題告訴記者,Oracle數據庫性能很穩定,不過他需要小型機與EMC存儲這種高性能硬件做搭載。但是對于淘寶來講,去掉Oracle數據庫的原因還是因為數據庫本身已經不能滿足業務需求,這才是替換它的根本。
內部團隊之間的協同工作
不論企業在進行何等策略性改變的時候,相關的準備工作需要進行認真的考慮,尤其是在各個部門之間的協調。褚霸告訴記者:“我來淘寶就一直帶數據庫團隊,我們這個組實際上就是維護整個集團的MySQL數據庫,提高它的性能以及在集群上的可用性。但是大家也可以在一些開源項目中看到核心數據庫組做出的貢獻,比如TFS分布式文件系統。”
談到TFS,褚霸接著說:“TFS是我們其他組的項目,但是數據庫與底層系統是相通的嘛,過去我們花了很多時間去研究I/O、設備以及文件系統等等,內核組也做了很多文件系統的優化。組與組織間會相互之間影響,看起來組與組之間是扁平的,但是實際上相互之間還是有很多聯系的。”在去IOE計劃實施之初,整個集團內部的團隊之間也是進行協同工作,項目進展到哪一步,哪一個組就要及時完成自己負責的那部分。
整個阿里巴巴集團進行去IOE運動是為了提高業務的可擴展性,并且構建符合自身業務需求的定制化服務。對于大多數企業來說,構建符合自身業務需求的服務才是最終根本。
【編輯推薦】