引領穿越星際迷航——專訪星環號領航員孫元浩
“宇宙,人類最后的邊疆。這是星艦企業號的航程。它繼續的任務是去探索未知的新世界,找尋新的生命和新的文明,勇敢地航向前人所未至的領域。”這是《星際迷航》里的經典臺詞。第一次走進星環科技的辦公室,就仿佛置身于科幻世界的太空飛船,到處彌漫著創新的沖動。
《三體》中的星環集團聚集了最優秀的一批科學家
光陰好像流水飛快,不知不覺間我們已然涌入大數據的時代:凡事都在拿數據說話,就連我們平時吃飯用的筷子,也趕上了大數據的班車,可以神奇地鑒定出地溝油,更不用說可視眼鏡,智能手環什么的了。
《三體》中的星環集團聚集了人類最優秀的一批科學家,建造成太陽系的第一艘超光速飛船——星環號,星環科技的創始人兼CTO孫元浩表示,星環科技故借此命名,希望匯聚最優秀的研發團隊,立志打造成國內外領先的大數據基礎技術廠商。
在孫元浩眼里,創新一詞更多地與創業公司聯系在一起,他認為每一次技術的演變都是源起于小公司為解決現實問題而進行的新技術開拓。他認為創業者們應該滿懷信心地投身到改變世界的事業當中,一旦有了idea以后,就需要努力嘗試把這些idea變成現實,這就是創新的要義所在,無論成功與否。
一直以來,從人們所艷羨的公司辭職,回歸于起步階段的初創企業,這樣的職業生涯轉變不僅需要極大的勇氣,更需要對行業未來趨勢有十足的把握。當下,大數據創業需要的不是拉拉隊,而是實干家。孫元浩,正是一位有夢想,有魄力的年輕實干家。通過和他近兩個小時的交流,可以看出他是一位邏輯思維能力超強的技術大咖,他陽光,有激情,并且在他身上透著敏銳的市場洞察力,頑強的拼搏與不服輸的霸氣。
是否做了自己熱愛的事情?是否為實現自己的夢想盡了最大的努力?這是創業者執著的來源。
一直以來都堅信終將有一款自己的產品,可以完全超越美國人
孫元浩,作為英特爾自研商用版Hadoop解決方案曾經的團隊領導者,一直以來都堅信終將有一款中國自己的產品,可以完全超越美國人。這并不是一種盲目的自信。雖然截至目前,國內大部分企業的核心數據庫系統還大都是來自國外公司的產品。但鑒于中國企業的應用場景非常復雜,很少有國外產品能夠不經修改就可以順暢運行。而且在中國,由于用戶數量龐大,中國企業的數據量普遍要高于國外企業一個數量級。國外公司在進行產品設計時,是根據國外仿真的用戶數來構架的,遇到中國的用戶數量,系統出現問題的幾率就會大大增加。中國的電信運營商、銀行、交通等領域,數據量和復雜程度要遠超國外同類企業,急需新一代數據處理技術來解圍,而目前國外公司的產品還不能很好地滿足國內用戶的需求。
就技術而言,孫元浩和他的團隊完全可以和國外公司站在同一個起跑線上:同步開發產品,同時開展競爭。他相信團隊有信心和能力做出優秀的產品,為中國客戶提供更好的服務。
在中國這么一個巨大的市場,尤其是有如此多的問題需要解決,因此完全有必要有一家本土公司,能夠承擔起這樣的歷史使命,能推動這個技術的變革,開發頂尖的技術。孫元浩希望星環能夠成為這樣一家偉大的公司,作為大數據的領先者,推動這個產業的轉型,解決中國市場的一些特殊問題。同時也希望星環能夠去開拓全球市場。因為在中國市場發展技術,會面對在其他市場所無法想象的挑戰,歐洲國家的基礎數據量及其復雜程度遠低于中國,即使美國的數據量也比中國小一個數量級。能夠在中國的大數據領域取得成功的公司,從技術角度來看,其產品在世界范圍被廣泛應用也是理所當然的。
孫元浩一直堅信中國一定會誕生這樣一家公司,去接受這樣的歷史使命。
2013年,星環科技創立,致力于Hadoop之上的高效計算引擎和數據分析算法的研發。作為公司創始人兼任CTO,而不是CEO。CTO孫元浩,是星環號的領航員。
Transwarp取自《星際迷航》中超光速飛船的曲率引擎
天下武功,唯快不破。武俠世界的金科玉律,同樣適用于當前日趨激烈的商業競爭,不敗的秘訣,就在于洞悉并快速響應市場需求的變化。隨著現在傳感器網絡、物聯網的發展,數據產生的速度越來越快,當然在互聯網里面早就有實時數據產生,使得實時大數據的技術慢慢開始得到更多的關注。
然而傳統處理方法是將電子儀器產生的數據存入數據庫后再統一分析,一旦設備增多和數據增長,延時就越來越高。利用流處理技術在數據產生的時候就進行實時處理可以極大地提高企業的反應速度和工作效率。
而Hadoop、Spark等架構就能夠滿足這樣的需求。它們提供節點通信,實現計算任務的分配,以及容錯擴展等等問題,最終實現對分布式系統中各個節點計算能力的聚合。尤其是Hadoop,在節點間傳遞計算過程,而不是傳遞數據,能夠用更少的帶寬更快地推進大數據的處理。孫元浩表示,自去年星環科技就部署了較多的流處理集群,來處理從用戶產生的實時數據到傳感器產生的數據。其公司產品Transwarp Data Hub(TDH)正是基于Hadoop和Spark的分布式內存分析引擎和實時在線大規模計算分析平臺,相比開源Hadoop版本有10x~100x倍性能提升,可處理GB到PB級別的數據。而其中的Transwarp正是取自《星際迷航》中超光速飛船的曲率引擎,就是努力將Spark打造成為Hadoop系統的下一代引擎。
據孫元浩介紹,星環與其合作伙伴為某省公安廳交通管理部門部署了全省范圍的交通監控系統,采用分布式隊列實時采集全省各個交通卡口的車輛信息,使用流式計算集群對過車記錄進行實時統計和監測,并實現上述多種實時分析應用,系統處理信息的端到端延時在2秒以內,較好地提高了交通管理的效率。截止到目前,星環科技已經部署了6個省,本月還會再部署兩個省。
星環在以Hadoop/Spark為代表的大數據底層技術領域功底扎實,在國內已然擁有最多的企業級Hadoop實施案例,觸角已延伸到交通安全、金融、電信、醫療、能源等各行各業,中國正需要這樣一個能在大數據Hadoop領域不輸國外公司,甚至超越他們的基礎平臺級的技術公司,星環科技有望填補這一空白。
大數據和云計算終將走向融合,星環科技的目標是要做中國的“甲骨文”
縱觀國外,已然涌現了一大批以大數據為依托的創業公司,加上IT界眾多老牌公司的加入,大家都想在大數據這一廣闊市場中分得一杯羹。而國內的情況是,大數據領域內的公司雖然很多,但大部分是以大數據應用為主,敢于挑戰大數據Hadoop平臺技術的公司少之又少。星環是這少之又少中的一個佼佼者,孫元浩坦言,星環信息科技的目標就是要做中國的“甲骨文”!
提到大數據,就必須要講到安全。國內金融機構對外資的高依賴度將直接導致金融數據被國外廠商掌控,威脅我國金融安全。此前,棱鏡門等事件暴露的國家信息安全問題,使得國內“去IOE”掀起高潮,必須努力擺脫外資數據、技術公司的束縛,當然包括金融界在內的多個傳統行業對于IT的國產化需求也在不斷加大。在金融業,已經有許多的銀行IT部門正在嘗試使用國產的基礎軟件或是開源的框架、產品,特別是數據庫領域,這種趨勢更加明顯。
孫元浩認為,大數據技術在銀行的應用前景被廣泛傳播,通過綜合處理銀行自有結構化交易數據以及外部互聯網/政府數據,可以提升精細化客戶管理水平以及進行大數據征信降低風險等。據他介紹,曾有股份制銀行把一些復雜的貸款風險控制邏輯在多個MPP數據庫和Hadoop發行版上進行過嘗試,傳統數據庫對于龐大的數據量及其運算表現得力不從心。可見,當數據量與日俱增,而傳統的MPP數據庫形態卻未改變,企業面臨的將是已過時的技術緩慢地處理日新月異的數據,這在追求高效的大數據時代顯得岌岌可危,銀行需要一個更高效的數據處理工具。
在全球去IOE的大背景下,Hadoop技術已成為公認的替代傳統數據庫的大數據產品。其開源Hadoop平臺親民的價格設置是其最具吸引力的特質所在,而它容納全部數據類型的能力則是另一大亮點。Hadoop的誕生是劃時代的數據變革,但關系數據庫時代的存留也為Hadoop真正占領數據庫領域埋下了許多的障礙,因為業務人員對SQL語言及工具更加熟悉。對SQL(尤其是PL/SQL)的支持一直是Hadoop大數據平臺在接手舊數據時代時亟待解決的問題。Hadoop對SQL數據庫的支持度一直是企業用戶最關心的訴求點之一,也是他們選擇的Hadoop平臺的重要標準。
7月22日,由星環科技牽頭成立了國內首個Hadoop技術及應用推廣聯盟,希望打造一個完整的Hadoop技術與產業鏈,加速國內Hadoop大數據技術的市場推廣。在第二天的中國Hadoop技術峰會上,孫元浩詳細介紹了如何在Hadoop上實現分布式事務處理,以保障分布式數據的一致性。他從十五年前EricBrewer的一篇演講入手,提出了Hadoop技術發展中分布式事務處理一致性的困難。他從CAP定理開始,提出了實現一致性的矛盾所在,尤其是保障一致性與可用性的困難。但是隨后孫元浩進行了ACID詳解,理論上闡述了實現分布式一致性的可行性以及星環科技對分布式事務處理一致性的兩種解決方案。并同時通過演示展現了星環科技Transwarp Inceptor對當前分布式事務處理一致性問題解決的處理方案及其優越性。
他認為,Hadoop的興起并不是一個產品代替另一個產品,而是在硬件發展到一定階段一種計算模式代替另一種計算模式。當前,TDH已從數據倉庫的補充轉變成了其替代品,已經大大提升了數據分析的效率,當然受益于其對SQL的完整支持以及對ACID數據一致性的支持,某股份制銀行開始把一些復雜的貸款風險控制邏輯遷移到TDH Hadoop平臺上進行運算。可見,Hadoop全面主導數據庫的時代開始了,這也是大數據時代真正來臨的標志性突破。
自過去的一年,知名的云計算公司以及軟件、操作系統、系統集成廠商、配置管理軟件、大數據廠商以及開源軟件都在向Docker靠攏。微軟也稱將在下一個版本的Windows Server中支持Docker。孫元浩認為,大數據和云計算終將走向融合。那星環又做了哪些準備來應對如此快速變化的市場呢?其正在為大數據應用量身定做TOS云操作系統。在過去,Hadoop on Docker大數據平臺的部署,只在單機情況下實現過,而且過程繁瑣,耗時很長。雖然類似Pivotal方案也實現過一鍵部署,但是單機的小規模部署對于Hadoop這樣的大數據平臺并不具有實際意義。TOS基于Docker和Kubernetes,支持一鍵部署TDH,讓TDH和其他Docker應用共享集群,過去,幾百臺規模集群的Hadoop on Docker的部署,從未有人實現過,這也是Hadoop on Docker難以落地應用的主要原因之一。而一鍵規模化部署則更是繞過了Hadoop on Docker在市場的適應期,降低了安裝和使用的成本,使企業用戶可以更早更快地使用該技術,是在Hadoop技術發展和推廣中舉足輕重的一個技術突破。其基于優先級的搶占式資源調度和細粒度資源分配,讓大數據應用可以輕松的擁抱云服務。
產品創新就是功能定義+技術實現,需要有遠大格局的具體實踐者
遠=近=永恒。當前,“互聯網+”給各個產業的創新發展帶來無限可能,但無論如何“+”,不變的還是產品本身的質量、品牌、以及滿足用戶需求這些核心點。
孫元浩坦言,不管科技如何變化,模式如何變化,對于做產品而言,以功能定義+技術實現的本質是不變的。弄懂了市場想要什么,就幾乎可以有針對性地提供創新產品和服務。
大數據帶來的挑戰也是跨行業、跨領域的。數據挖掘需要的是復合型人才。目前星環業務正在快速擴展,已在北京等地設立分公司和辦事處。最后,孫元浩呼吁有激情的大數據人才,懷揣著共同的夢想,能齊聚一堂,不做大數據的拉拉隊,立志都成為大數據的實干家!
訪后記
無論什么領域,引領穿越星際迷航,都是一次世界觀的改變。