Hadoop:Cloudera收購Myrrix共創“Big Learning”
目前機器學習已經成為大數據的典型使用案例,通過收購機器學習創業公司Myrrix,Cloudera又朝著其大數據一站式服務點的目標邁進了一步。Myrrix創始人Sean Owen, 7月16日上午在博客中正式宣布了這一收購,Sean Owen目前已擔任Cloudera位于倫敦的數據科學部總監。
Cloudera在Hadoop生態系統中,算得上是規模最大、知名度最高的公司之一。Cloudera創建于2008年,致力于為數據驅動型企業提供基于Apache Hadoop的軟件、支持、服務和培訓。紐約時報曾這樣報道Cloudera的成立:Cloudera的成立是一個典型的硅谷故事——來自Google(Christophe Bisciglia)、Facebook(Jeff Hammerbacher)和Yahoo!(Amr Awadallah)的頂級工程師聯合Oracle前高管(Mike Olson)共同解決快速分析大規模數據的相關問題。
2012年,Owen創辦了Myrrix,Myrrix是一個實時的、可擴展的集群和推薦系統,從Apache Mahout項目演變而來。
應客戶的需求,Cloudera需要在應用層面取得更大發展,目前還很難判斷這項收購對Cloudera的意義。正如Owen在文章中提到的:
機器學習已經是一個有幾十年歷史的領域了,為什么大家現在這么熱衷于這項技術?Hadoop和便宜的硬件使得大數據分析更加容易了。隨著硬盤和CPU越來越便宜,以及開源數據庫和計算框架的成熟,創業公司甚至個人都可以進行TB級以上的復雜計算。對于機器學習來說這是千載難逢的好機會。因為更多的數據可以使機器學習算法表現得更好。如果收集和分析數據的成本變低,而學習的價值提高的話,機器學習的應用場景也會呈爆炸式的增長。
Cloudera的高管們多年來一直堅稱,該公司會一直提供平臺服務,不會進入應用領域。但是該公司最近的一些動作,比如Impala引擎和Cloudera搜索,表明他至少已經意識到自己不應該只做MapReduce作業的平臺。
Owen在忙于將Myrrix技術與Cloudera的CDH(Cloudera’s Distribution Including Apache Hadoop)做有效的結合,機器學習新技術還有多久才能落實到Cloudera的應用層面還有待觀察。但是Owen相信與Cloudera的合作肯定能夠實現其稱為“Big Learning”的目標:
沒有可用的上層應用程序,便宜的基礎設施也于事無補。而且,機器學習大多數研究假設所有數據都在一臺機器上進行計算,所以機器學習算法運用到數據并行計算的Hadoop中需要一些巧妙的改造。這在Mahout項目中體現得最為明顯,很多算法都在Hadoop中實現了并行化。
將機器學習與Hadoop相結合還有很多工作要做,早期Hadooop也只是一個愛冒險的專家才會積極嘗試的源代碼包。但是,Cloudera通過擴展、打包和提供支持,將Hadoop推向了一個更大的平臺。同樣的事情也會發生在Myrrix這種“Big Learning”的應用程序上,這一直也都是Myrrix的愿景,現在我們在與Cloudera合作朝著這個愿景努力。
無獨有偶,另一家機器學習的創業公司Ayasdi,也在7月16日宣布獲得了3060萬美元的B輪融資。Gunnar Carlsson和Gurjeet Singh共同創立了Ayasdi公司,該公司使用一項稱為拓撲數據分析的技術,創建有視覺震撼力的視圖,幫助客戶為產品進行分類。
許多人對機器學習的印象可能都是實驗室中大量晦澀難懂的理論和數據分析,然而已經有很多創業公司將其商業化,以下是五家試圖將機器學習簡單化的創業公司:
Alpine data Labs:Greenplum的子公司(EMC是其投資者之一),主要研究方向是預測分析,其軟件可以嵌入到公司內部的數據存儲中(無論是Hadoop還是其它任意流行的數據庫)。通過繪制流程圖,用戶可以對數據進行分析。

圖:Alpine Data的用戶界面
Context Relevant:Context Relevant通過一個預先包裝好的算法庫,可以在數秒內為用戶數據建立預測模型,主要用于欺詐檢測、客戶流失以及其它的經典預測分析用例。其創始人兼CEO Stephen Purpura說:“只要會用Excel,就能很好的使用我們的產品”。
Datameer:幾年前,Datameer為Hadoop分析開發了一個電子表格界面,目前,這個電子表格中已添加了數百個功能。在3.0版本中,通過預置的機器學習算法,用戶只需點擊幾次鼠標就可以建立集群和列依賴。

圖:Datameer生產的列依賴圖表
Skytree:Skytree的主要產品是一些大型的企業級機器學習軟件,但是它們也推出了一個針對小型用戶的產品Adviser,目前還是測試版。它是一個桌面應用程序,可以方便地連接到網絡、本地或數據源,用戶可以選擇算法庫以及輸出樣式。界面的設計還不太完善,但是你可以免費的在客戶端分析10萬行的數據,并得到交互式的報告結果還有什么可抱怨的!

圖:關于UFO目擊者的Skytree Adviser生成報告
Wise.io:Wise.io的計劃是將其創始人作為天文學研究人員的經驗應用到商業領域。Wise.io的產品是一個直觀、易于使用的機器學習平臺,幾個簡單的點擊就可以建立和部署模型,而且很快。聯合創始人Joshua Bloom曾說某客戶在使用其產品后,分析TB級大小的傳感數據所用時間從300個小時減少到了20分鐘。