大數據的開源之道
譯文【51CTO精選譯文】開源浪潮之所以風生水起,開源技術成本低、靈活性強,又有受過培訓的人員,這是幾大原因。Hadoop、R和NoSQL現在是許多企業制定的大數據戰略的三大支柱,無論這些戰略是管理非結構化數據,還是對非結構化數據進行復雜的統計分析。
專有軟件廠商幾乎很難跟得上開源的步伐:德國SAP公司最近剛發布了一款新產品:SAP博奧杰預測分析軟件(SAP BusinessObjects Predictive Analysis),這款軟件整合了用開源R語言開發的算法。而R這門語言只用在學術界,用于高級統計建模。
僅僅幾個星期之前,全球領先的數據倉庫專家Teradata公司宣布,其新的集成分析產品系列不僅包含R功能,還包括與GeoServer的連接,GeiServer是一種基于Java的開源地理位置平臺。另外無數公司正競相開發與Hadoop相連接的產品。
廣泛采用,狂熱創新
James Kobielus現在是IBM公司大數據分析解決方案的高級項目主管,他還在知名調研機構弗雷斯特調研公司擔任分析師時,曾在一封電子郵件中寫道,“開源方案風頭甚勁,得到了最廣泛的采用,創新勢頭最狂熱。”
為什么會呈現這樣迅猛的勢頭?
Kobielus解釋,首先,正由于從Mozilla到安卓的各種開源產品在經歷了一些初期的陣痛后在IT行業得到廣泛接受,開源數據存儲和分析軟件現在也已成熟起來(用他的話來說,“它們不再像僅僅一兩年前那樣是有風險的投入”。)
Kobielus寫道,其次,Hadoop、R和NoSQL等平臺與專有軟件相比有一個優勢,原因在于它們能夠更快速地改進。而且它們也得到許多不同機構的不斷開發和完善。他預測,開源很快會開始主導大數據領域。
他寫道:“隨著閉源軟件在許多數據/分析環境的地盤不斷縮小,許多老牌開發商會改進各自的商業模式,向開源方案靠攏,還會加大專業服務和系統集成方面的力度,幫助客戶向開源、面向云的分析產品遷移,主要致力于Hadoop和R。”
“比如說,弗雷斯特公司認為Hadoop是下一代云端企業數據倉庫(EDW)的核心,認為R是接下來一批集成的大數據開發工具中的主要代碼庫。我們還預計,眾多開源NoSQL數據庫和工具會合并成為功能豐富的解決方案,作為閉源內容分析解決方案之外的一種選擇。”
紅帽模式
不同的企業對待開源集成的方式各不相同。SAP等一些廠商選擇了運用自身的內部專長,開發帶有Hadoop或R功能的產品;Teradata等另一些廠商則把大部分工作交給了像Revolution Analytics公司這樣的公司。Revolution Analytics這家公司有點像大數據領域的紅帽公司,它提供面向企業客戶的商用版R,就像紅帽對Linux采取的做法那樣。
Revolution Analytics的市場營銷和社區副總裁David Smith表示,這家公司與大數據巨擘相比只是家小公司,專門為不同的業務流程改動R。他說:“尤其是,我們讓它可以處理非常龐大的數據集。”
Smith表示,產品中使用開源技術是許多公司力求在市場中脫穎而出的一條途徑。他說:“就本身而言,這意味著你不走競爭對手所走的路子。”
Smith表示,有些企業在大數據分析方面采用了激進的、科學的方式,對它們而言開源技術是理所當然的選擇。“有些公司在數據科學、數據探究和數據分析方面有一定的基礎和傳統,它們其實被開源技術所吸引,因為開源技術非常靈活,有助于企業從不同的角度來考慮如何處理數據、探究數據。”
Scott Gnau是與Revolution Analytics進行過合作的Teradata實驗室的總裁,他表示,大企業從商用開源技術軟件包得到的好處將***,那樣他們就能把精力集中在特定的業務活動上。
“采用在Hadoop和MapReduce環境開發出來的一些較新的技術,可以帶來很大的價值,但是把它們作為一種企業級軟件來部署;在這種環境中,有可靠的版本控制,有可靠的可擴展性,還可以獲得支持。”
他說:“產品想進入主流市場,就必須做成軟件包,必須可靠,因為主流用戶不想成為軟件開發公司。”
EMC Greenplum的產品營銷經理Will Davis同意這一說法。他認為,大型公司需要更穩定、更可靠的開源大數據平臺,無論它們自己加以完善,還是靠別人替自己加以完善。
他說:“許多企業是EMC的傳統客戶,這些都是大型的《財富》500強公司,其實需要隨時可以部署到企業環境的技術,能夠滿足嚴格的服務水平協議(SLA),能夠隨時可用。”
一砦開源技術的早期采用者已積累了單干的專長,但是“第二波公司”渴望盡快搭建并運行起來,本身可能沒有人才來自己動手干。
數據科學家登場
這年頭,大數據方面的人才的確需求量很大;許多公司認識到,如果運行開源平臺,自己就最有希望吸引來受過培訓的人員。開源技術、尤其是R在學術界廣泛使用。
此外,這些數學科學家能更嫻熟地使用開源平臺。Imran Ahmad是位數據科學家,他開發了自己的網格計算算法:這種與Hadoop競爭的算法名為Bileg,基于開源Globus工具包(GT4)。他現在是總部設在多倫多、為云環境開發數據分析技術的Cloudanum公司的總裁;他表示,開源平臺的根本優勢在于,像他這樣的人能看到底層的數學基礎。
Ahamad說:“如果它采用開源技術,你可以深入挖掘,看看為什么我得到這些結果,為什么這些結果是***結果。”
他補充說,專有的數據分析軟件大多數時候運行起來相當好。但是出現“不常見的場景”時,你無法信任自己獲得的結果。他說:“它們離你所需要的結果相距甚遠。這確實是一種很可怕的情況。”
這就難怪,統計建模方面有基礎的最出色人才也是需求量***的,特別是由于其他行業的企業(如金融機構)在四處尋找這類人才。
Smith說:“這些企業聘請剛從學校出來的大批人,派到數據科學部門、研究開發部門和建模部門。他們發現,所有人都接受過R方面的培訓,但沒有接受過專有技術(如SAS)方面的培訓。”
Davis說:“我們Greenplum設有一個咨詢部門,這其實是我們的數據科學團隊,成員大多是博士學位,擁有眾多行業和垂直領域方面的專長。老實對你說,我這邊有超***天才,他們與客戶共同努力,讓客戶能夠充分地利用自己的數據。”
SAP公司的集團營銷經理Jason Kuo說,需要執行像預測分析這些復雜任務的公司正在許多高校搜羅人才,“這是毫無疑問的事實”。他表示,SAP的新產品將方便數據科學家向企業界轉型。這款新產品結合了易于使用的界面和拖放式功能。
他說:“那些人帶來了R專長和R背景,要求使用R方面的工具。如今在學術環境值得關注的是,不知出于何種原因——無論是預算還是熟悉程度,他們使用沒有圖形用戶界面(GUI)的R的可能性大得多。而現在他們進入到企業界;在企業界,對他們的要求更高了,項目交付時間縮短了,可能還要考評投資回報,等等。”
“公司可以這樣說,你要怎樣才能取得更大的成功?我們怎樣讓你能提高工作效率?過去,他們可能對這些統計人員沒有預算,但現在有預算了。”
如果你打敗不了開源,那就…
SAS軟件研究所的平臺開發副總裁Paul Kent效力的這家公司經常被認為屬于大數據鴻溝的另一個陣營,開發與R等開源語言所用的那些算法相競爭的專有數據分析算法。
Kens表示,從某種程度上來說,SAS確實把開源社區看作是自己要全力跟上的競爭對手。新技術在開源環境下能非常迅速地開發出來,而他公司需要更長的時間來研究這些新技術,之后轉變成某項有銷路的產品特性。
“我們需要更長一點的時間對新技術作出反應,并測試可以使用該技術的所有不同場景。所以,我們的反應可能有點慢。”
不過他表示,SAS的優勢在于設有一個龐大的技術支持部門,而且擁有讓某些技術適用于不同企業的專長,無論是零售企業、銀行還是醫療機構。SAS的強項在于“能夠將算法運用于特定的領域,”Kent說。
他表示,與此同時,SAS及時了解趨勢,決定照樣為客戶提供開源方案。Kent表示,SAS已經“搭起了一座通往R的橋梁”,就像它對Hadoop采取的做法那樣。Kent表示,只要開源社區提出了一種好的想法,SAS就會引起注意。
“從長遠來看,與開源想法搭起橋梁或建立接口要比試圖對開源想法視若無睹來得明智。”
原文:Open Source Answer to Big Data