VMware王蔚東:Hadoop虛擬化大有可為
近日,IT168記者有幸采訪到了VMware高級經理王蔚東先生,其2012年加入VMware公司,負責虛擬化和云計算領域中數據存儲、管理及利用的咨詢和解決方案。在數據倉庫、大數據及數據分析有多年的經驗。
▲VMware高級經理王蔚東
Hadoop在國內發展進入快速增長期
Hadoop是一項開源技術,目前網絡上大概有上千個論壇、社區,技術門檻也比較低。據王蔚東介紹,從2008年開始,很多國外的互聯網企業就開始采用Hadoop,目前,也有很多傳統企業開始部署Hadoop, 比如AT&T、沃爾瑪等。
“目前在國內,我們知道像淘寶、京東等很多企業已經開始使用Hadoop,而更多的企業也已經開始嘗試使用。由于企業對數據的重視度不斷提高,市場競爭的加劇,也由于Hadoop及相關大數據技術有了很大的完善,Hadoop服務提供商越來越多,國內的電信、電銷、物流等行業的需求非常強烈,Hadoop在國內的的應用會進入到一個快速增長期。”
VMware助力Hadoop與虛擬化結合
傳統虛擬化給企業帶來好處已經眾所周知,無論是叢IT系統構建,還是從運行維護,乃至運營管理,我們都實實在在地感受到它的好處。“Hadoop被用來解決企業大數據的問題,我過去看到,大多數的應用場景是單獨建立一個x86服務器的集群來跑map/reduce任務,隨著數據量和數據查詢分析任務的增加,服務器的數量也要不斷增加。這時,就帶來了一系列新的問題,首先這個Hadoop集群需要有IT人員來專門維護和管理,其次,我們知道日常Hadoop任務是會有波峰波谷的分布,往往是某一時段,任務會比較密集,機器的CPU、IO和存儲會非常繁忙,而其它時間,機器就比較空閑,存在資源浪費的情況。”王蔚東表示。
由此,很多使用和嘗試Hadoop的企業,就希望能夠把這樣一個越來越大的Hadoop集群放到自己的云平臺里,能夠統一管理和使用。除此之外,我們知道,Hadoop本身是一項開源的技術,雖然入門容易,但是要大規模企業級應用,還存在非常多的困難。比如安裝部署、Fix Bug、升級等等,即使目前有一些Hadoop的商用版,可以提供部分的現場服務,但是也會導致使用者的整體擁有成本大大增加。
據王蔚東介紹,目前VMware就是要解決這個問題。據了解,從2012年初, VMware就與Apache Hadoop社區展開合作,開始推廣一個開源項目—Serengeti,通過把Apache Hadoop節點從底層物理基礎架構剝離,VMware可以將云基礎架構的優勢帶給Hadoop,包括快速部署、高可用性、最佳資源利用率、靈活和安全多租戶。
“事實上,很多Hadoop發行版的廠家,都曾提出來Hadoop不適合在虛擬化平臺上運行,理由是Hadoop的特點是在本地磁盤上運行,而虛擬化都是在共享磁盤上;而且虛擬機增加了額外開銷,在虛擬機上運行Hadoop性能會變慢。”但Serengeti推出后,徹底改變了這些看法。多數人知道Vsphere的工作模式是將數據存儲到共享磁盤,其實Vsphere也支持本地磁盤,這完全取決于用戶的應用場景。
目前,Serengeti被大量下載和試用,并獲得了廣泛的認可。 “VMware決定把它嵌入到Vsphere里,也就是說任何購買Vsphere5.5的用戶, 都可以免費獲得一個組件,它可以用來部署和管理Hadoop.這個組件叫作 Vsphere Big Data Extension,簡稱BDE。BDE作為商用軟件,在可靠性,性能方面,要遠遠高于Serengeti。同時,它還支持多數市場上主流的Hadoop發行版, 如MP/R,Cloudera,Pivotal HD,Intel等等。”王蔚東介紹說。
事實上,盡管Hadoop被證明可以與虛擬化進行結合,但人們不得不擔心性能問題。王蔚東表示,由于安裝了虛擬機,會占用服務器的一部分內存和CPU,會導致系統整理性能有所下降,把Hadoop裝到虛擬機上,肯定會帶來部分性能的下降,關鍵是下降幅度有多大。“比如,我們正在為國內一家比較大的企業做POC,他們是VMware的老用戶,對虛擬化的了解程度很深,我們在向他們推薦我們的解決方案時,開門見山地提出對性能的擔憂,提出了十多項性能測試指標,包括Terasort、K-means性能等。與物理環境的Hadoop比,整體測試結果表明,性能損失基本保持在15%的范圍內,一些指標如NoSQL并發、訪問、數據的吞吐能力、HIVE處理能力等,都與物理環境的Hadoop十分接近。”
致力于降低Hadoop使用門檻
據王蔚東介紹說,其工作大部分都與云計算相關,BDE是其工作中比較重要的一部分。“我們的CEO Pat Gelsinger提出了三個戰略即軟件定義的數據中心、混合云和終端用戶計算,在這三個方面,都與大數據有直接的關系。比如軟件定義的數據中心,針對于不同的應用場景,我的團隊就要提供方案,快速部署和全面管理Hadoop集群。同時我們也在嘗試把Hadoop作為一項服務,部署到PAAS層,以降低它的使用門檻,為企業中各類使用者提供靈活可控的大數據服務。”
Hadoop作為一項技術,目前確實非常流行。王蔚東老師介紹說,國內的開發者和試用的企業已經有了很多了解,搞的比較好的發行版有MP/R, Cloudera;Horntworks;常去他們的網站會得到比較新的知識,另外大家也都別忘了Apache Hadoop社區,上面有最新的進展。目前,國內的開發者和企業, 早已不滿足Hadoop的知識學習和研究,更關注Hadoop的具體應用。
“我們的團隊,也在最近推出了自己的博客(http://vbigdata.blog.51cto.com/),里面有我們提出Hadoop虛擬化的概念,技術架構和細節,圍繞著Hadoop虛擬化會出現的各種問題,也會有Hadoop虛擬化的應用實踐。這里,我歡迎大家到我們的博客上進行交流,在大數據領域和我們共同成長。”
關于Hadoop中國技術峰會,王蔚東老師表示幾乎每屆都會參加,“前幾年主要是Hadoop技術的介紹和推廣,更偏重純技術,但是這個峰會對國內普及Hadoop為主的大數據相關技術產生了巨大的推動作用。近一、兩年,會議的重心產生了些變化,即由純技術+學術轉變到技術+應用,我認為這是一個可喜的變化,證明Hadoop終于開始在國內廣泛應用了,同時也催生了一些新的角色,如Data Scientist,Data Governor。”
這些變化,也直接證明了國內,大家真正開始重視數據,逐漸把數據作為一種潛在的資源進行保護和利用。Hadoop是一項開源技術,隨著這項技術逐漸成熟,勢必會有更廣泛的應用,但是應用的深度和廣度,需要眾多的解決方案提供商,Hadoop專家,數據管理專家,成熟的企業應用需求,類似一套完整的生態系統保證,同時,我們也希望這次峰會能提供契機, 幫助國內Hadoop領域開始建立這樣的一套生態系統。
據悉,在本次大會上,王蔚東老師將會為大家介紹VMware在虛擬Hadoop技術方面的最新進展,如對YARN 的支持,如何做到對Hadoop集群的靈活控制。在應用方面,會介紹如何解決傳統物理Hadoop集群數據安全性的問題。“同時我也非常樂意把我們在國內外的一些最新的成功案例介紹給大家,還包括我們從著手開始一個項目到方案落地的一整套實施模式。另外, 也會和大家一起探討未來Hadoop的發展方向,聽聽大家對Hadoop在虛擬平臺上的看法;把Hadoop技術引入BI系統,是否可以取代現在的一體機等等。”