開源社區不反哺很危險
大數據時代,英特爾同樣“Inside”,而且,意味著更多X86架構產品的使用。
不止于此,英特爾在2013年初也推出了自己的Hadoop發行版。今年3月,英特爾又以7.4億美元入股Hadoop生態系統中大名鼎鼎的Cloudera公司,占股18%。
“目前,英特爾和Cloudera各自的Hadoop發行版已經實現了結合。”8月27日,英特爾行業合作與解決方案部中國區總經理凌琦在接受21世紀經濟報道記者專訪時表示。
凌琦說,目前大數據還處在比較初級的階段,還有很長的路要走,但他毫不懷疑未來大數據是一座金礦,“很興奮,就像上世紀90年代剛接觸PC時那種感覺”。
同時,凌琦強調,Hadoop開源社區有公認的反哺機制,一些廠商如果將其封閉起來,不僅違背了這個開源社區的機制,未來可能脫離主流面臨落伍的風險,“而這將帶來客戶遷移風險”。
大數據需要靜下來
《21世紀》:你怎么理解大數據,現在會不會炒得太熱?
凌琦:數據一直存在,不過數據類型、規模的不同,以及從中挖掘出價值的可能性,帶來了大數據的概念。今天的很多數據獲取是先不結構化,因為結構化的過程中,很多價值丟失了。當然這并不意味著排斥結構化數據。
現階段,大數據蘊含的價值和潛力還沒有完全發揮出來,這類似于互聯網,剛誕生時上面的應用也很少,但未來充滿無限想象。從這一點來看,熱一點無可厚非。
從概念的角度來看,現在大家都接受了大數據是個重要事情的判斷,再炒還有多大意義呢?無非就是讓大家對它重視起來,僅此而已。
當然,很多人在講大數據,但沒有講到大數據具體能夠做些什么東西,還沒有做到對大數據的應用場景、應用模式的深度挖掘和使用。比如說,大數據對于金融行業的反欺詐、電信行業的詳單分析、內部經營分析、精準營銷等都是很典型的應用,但其實還沒有被充分利用。
所以概念吹得再大也沒多大意思,最重要的事情是,從應用的角度來說,有需要靜下來做深入細致工作。
《21世紀》:應用存在瓶頸嗎?或者說應該如何突破?
凌琦:這實際上是生態環境的問題,需要應用開發廠商和用戶共同坐下來商討,了解應用的需求,和它應用的模式、未來的應用方向以及希望能夠解決的事情。
這個過程中并沒有統一的做法。石油公司哪些應用能夠適應你,保險公司是怎么樣的,交通運輸業是怎么樣的,零售業是怎么樣的,都不一樣。
從企業內部來說,各個環節也要開放自己的思想,業務的人要看到應用的可能性,應用的人要了解業務。
作為從業人員,則要做更多的市場教育和培訓的工作。否則你光炒一個概念,炒完了又怎么樣呢。要做扎實的工作,要做培訓、教育,以及一些好的應用推廣。
需要指出的是,大數據的發展也需要一個過程,從我個人的感受來看,其實發展速度非常快。兩年前參加行業交流的時候,大家還是在談概念和憧憬,現在大家已經聚焦到怎么從中挖掘價值,談具體的應用方式了。
“說IOE不行了,有失偏頗”
《21世紀》:大數據對企業的IT采購和預算支出會帶來什么影響?我們知道,今年有個非常熱的詞叫“去IOE”。
凌琦:與分布式的大數據技術相比,集中式的存儲、計算和關系型數據庫,適應了當時有限數據的應用場景,他們之間的協作也是有效的,到今天來說也還是有效的。
說IOE不行了,有失偏頗,大家還是認可它在解決當時問題上的價值。但計算不能停留在此,它是適應過去以內部數據為主導的IT架構,現在很多數據獲取已經超越了企業內部的范疇,原來的體系和架構并不足夠。
這是技術架構層面。如果把這個熱詞與具體的企業聯系起來,又是另外一回事。外部市場環境會推動企業內部的變化,雖然革自己的命很難,但大公司難免都 要經過這樣的跨越。拿英特爾來說,我們早期是做Memory(內存),當后來日本廠商進來,在工藝、成本、效率上沒有了優勢,這塊業務的利潤受到影響很 大,后來轉型到做微處理器。
我認為,對于大數據下的新架構來說,***,成本比以前相對更低;第二,未來的可能性更高。
《21世紀》:企業應該如何選擇大數據平臺的商業版本?
凌琦:這個跟企業的業務有關。對于一般的傳統企業來說,他們希望有一個比較標準化的平臺,能夠利用平臺的商業版本,快速地實施、***化他們在IT的投入產出,實現它的商業目標。
互聯網公司會針對整個系統的優化做很多的工作。所以很少看到互聯網公司用一個純粹的商業版本,大多數是用開源的東西自己加以二次開發;而傳統企業更多是希望用已經成熟的版本。
《21世紀》:為什么有這種區別?
凌琦:所有的商業客戶其實都有一個特點:他們更多地是考慮成本和收益之比。成本高但收益更高,那就是可以做的事情;成本低收益更低,那就是不能干的事情。
互聯網企業用分布式的存儲和Hadoop類似的開源解決方案,加上二次開發之后,所能夠解決的問題,能給它的業務模式帶來基本的支撐。以前一般的互 聯網公司可能就幾百臺、幾千臺服務器,但現在已經是幾十萬臺上百萬臺服務器的規模了,如果用以前的架構的話,那成本可能會很高。而現在用類似Hadoop的分布式存儲、數據平臺,可以降低成本。
當然,從解決問題的層面來說,成本不能說是絕對低的,而是相對比較低。除了使用成本,還有二次開發和維護的成本。
對于傳統企業來說,則是一個循序漸進的過程。比如互聯網金融,互聯網企業了解用戶的行為比銀行所了解的行為可能更多,銀行搜集的更多是交易信息。如 果銀行希望能夠擴展客戶并且接觸到更多的客戶,甚至能夠和互聯網企業結合起來,對于客戶的行為信息搜集,進而針對用戶進行營銷。在這個時候,銀行想到擴展 了,那它就需要有這一類的大數據分析的體系架構來支撐它。
《21世紀》:你把企業分為互聯網企業和傳統企業,那您覺得比如說電信、金融這些都是大公司,他們是適合自己開發還是選一個標準的版本?
凌琦:我不認為傳統企業自己開發是一條合理的道路,畢竟這些企業有其自身的主營業務,比如石油企業是做石油開采、精煉,IT是支撐這些企業的工具, 因此,使用商業化版本的東西更加合適。對于互聯網公司來說,整個IT架構幾乎就是它的生命線和生產機器了,所以說還是會有點不一樣。
對于傳統企業來說,Hadoop是個標準的基礎設施,從基礎的架構上來說是開放的,能夠使它在不同的技術之間,在不同的廠商之間,未來能夠有靈活的選擇余地。不是說我用了以后就被鎖住了,我就只能用你這一家的。
當然,在基礎架構上面的應用層,應該是每一家都有自己的優勢,或者說可以通過自己的開發來達到,比如說,有些銀行可能更加注重于個人的存貸業務,有 些銀行可能更注重于企業的信貸業務,還有銀行可能更注重國際貿易,這個可能就跟它上面的應用有關了。在這種情況下,需要有一個穩定的技術架構,在此基礎上 的應用是可以自己操作的部分。
開源社區需要反哺機制
《21世紀》:從供應側來看,大數據的解決方案足夠理想嗎?企業是不是還要在基礎的層面進行定制化的開發?
凌琦:現在的狀態是像Hadoop這類的基礎平臺,基本上是通過開源的社區,某一些廠商通過開源社區所做的東西進行優化之后,形成一個穩定的版本。
開源社區通常是誰都可以貢獻的,貢獻了之后形成一個主流,也有許多分支。***的做法是什么?是跟著主流走,因為可以保證你以后的系統,在不同的廠商 當中可以互相之間挑選、切換而不會被鎖定,同時也為未來的技術做準備。比如說一些分支可能未來變成主流當中的一個部分,你就有機會了。
所以你要看哪些廠商在Hadoop的開源社區里面貢獻更多,這意味著其整個技術能力和對未來主流的影響力會更大。隨著時間的推移,有一些技術沒有辦 法成為主流,那么以后技術的升級可能會使非主流技術不兼容的狀況發生,可能形成孤島,從而使得企業的技術選擇對于未來升級造成了很大的障礙和升級成本。
因此,主要是往主流的方向走。哪些是主流的廠商?你主要看這些廠商里面有多少對于開源社區的貢獻,這種貢獻是不是***會變成它開源社區主干的東西,如果是,這些廠商是會有更大的前途。
《21世紀》:現在誰的貢獻***?
凌琦:開源社區誰都可以貢獻,但是***開源社區仍然是有一條主線,這條主線是由誰來做的呢?是由主要貢獻者。
比如Cloudera,這家公司大概只有700人,里面大概有100多個人是開源社區主要代碼的貢獻者,這個是一股很大的力量,意味著它所做的東西很大程度上會被開源社區所吸收,成為主流。
《21世紀》:會不會也有一些企業沒有進行反哺,逐漸形成自己一套專有的版本?
凌琦:從開放社區的精神來說,大家從開放社區里面拿東西進行改進,那也有責任把改進的東西回饋給開放社區。這里面有一定的規則,有責任要反哺給這個社區。
對于大公司來說,本身這么做或許問題還不大,因為公司體量大,可以自己開發自己走。但是對于一些商業版本的開發者來說,這么做其實是件很危險的事 情,因為很有可能你的客戶因此而脫離主流,比如帶來無法遷移數據等風險。這個層面上就不僅僅是道義的問題。所以大多數傳統開發廠商通常不會這么干。