HortonworksTed Yu:中國參與國際交流正在加速
原創【51CTO.com原創稿件】2016年11月25-26日,WOT2016大數據峰會在北京粵財JW萬豪酒店召開,50多位大數據領域一線專家、數據技術先行者齊聚現場,在圍繞數據智能、大數據商業、區塊鏈、實時計算、系統架構、NoSQL等前沿技術話題展開深度交流和溝通探討的同時,分享大數據領域***實踐和最熱門的行業應用。
在WOT2016大數據技術峰會的上午KeyNote主題專場,Hortonworks高級技術成員HBase核心貢獻者Ted Yu發表了演講,會后記者采訪了他,請他為大家分享了他的技術感悟。
Ted Yu告訴記者,他演講的題目是TinyLFU,它用很多辦法來減少對于原數據的內存化應用,能夠在占用非常小內存的情況下,達到比較高的性能。
一點都不宅的技術分享者
Ted Yu說話的語速很快,又夾雜著大量英文技術術語。在他演講時,坐在記者身邊的一位聽眾和別人小聲討論,贊嘆他的思維邏輯縝密。在采訪中記者也發現,Ted Yu很善于交談,作為一個在大數據行業非常活躍的技術研發者,Ted Yu身上絲毫沒有技術宅男不善言辭的標簽。
對此Ted Yu的解釋是,這是歷史原因造成的。他接觸HBase比較早,迄今已經六年了。近幾年他開始回國參加一些行業討論活動。通過交流他發現,國內近幾年在大數據方面成長非常快,Hadoop技術傳入中國后得到技術人員的追捧,此外國內的技術人員把開源的技術理解得十分透徹,并且產生了自己的技術,不止一個大數據的平臺,這是非常可喜的現象。“我回國也希望將大數據方面新的動向帶給大家,同時也同國內同行取經。”
反饋社區的必備前提
在開源社區,很多人都坦言中國技術人員對社區的回饋較少。對Ted Yu有不同的看法。他說像Hadoop、HBase國外發起的這些開源項目,不論編程還是交流都是英文,國內的技術人員英文水平參差不齊,有人很難用英文去表述清楚自己的思想,這樣就帶來了一定的局限性。但是Ted Yu也認為,這幾年,這種情況正在逐漸改善。
Ted Yu還用Apache HBase作為示例,他表示Apache HBase管理非常民主,當有人提出解決技術的方案時,需要用英語表明這個方案要解決什么問題、這個方案是怎么設計的、有哪些長處和短處。其他人來看提議時,會結合自己的實際經驗。大家還更看重這個解決方案在解決問題的同時,能否兼顧別人的需求。
“如果不能的話,大家會更擔心引入這個技術方案會不會使整體的穩定度下降。像Hadoop、HBase、Spark相對于成熟的產品來講,一般不能允許出現穩定性下降的。” Ted Yu表示,這就需要程序員花相當多的時間和社區溝通,對于中國程序員而言又存在時差問題,所以溝通可能沒有那么及時。
當然,Ted Yu也承認,語言和時差都是次要問題,關鍵是要有信心用英語把技術問題描述清楚。此外寫代碼也要規范,這樣才能夠被北美主流的開發員和公司所接受。
Hbase的今年和明年
當記者問及Ted Yu所研發領域的動態時,Ted Yu表示數據隨著時間的流逝不停有新的數據進來,為了減少compaction i/o放大,現在已經進入production。另外在讀路徑上,HBase是用JAVA寫的,不管用CMS,都會面臨GC調優問題。對于不同的workload都會有不同的參數。最終解決辦法把很多數據存放下JAVA堆下面。去年主要做的是讀路徑上,包括小米還有英特爾的開發員在做寫路徑,寫路徑上offheap明顯是難了。“但是我覺得到明年還是有望解決的,這個好處就是,如果你用HBase在后臺支持你的業務的話,穩定性會明顯提高。”
此外Ted Yu還介紹到,HBase在讀路徑上堆到JAVA下面,他參與的是備份層面。在關系數據庫大家做的容災就是定期把數據進行備份,如果出現容災的話,再把備份的數據返回到異地機群,他希望在今年12月能夠提交到master branch。
采訪***,Ted Yu從自己關注的領域與大家分享了他對大數據的理解。“個人精力有限,我最多還是關注HBase、Phoenix是和HBase直接相關的項目,主要有HBase、Phoenix、Spark、Flink這四個項目,我覺得這四個項目在2016年發展很快,進入2017年,Spark在SQL查詢上能夠在性能上迅速地拉近和Hive的差距,大有在很多方面替代Hive的趨勢。”
【51CTO原創稿件,合作站點轉載請注明原文作者和出處為51CTO.com】