大數據分析的眾包平臺—Kaggle
眾包(Jeff Howe,2006)是一種在互聯網蓬勃發展的背景下產生的一種創新的生產組織形式。在這樣的商業模式下,企業利用網絡將工作分配出去,通過讓更合適的人群參與其中來發現創意和解決技術問題。比較成功的眾包例子有像wikipedia這樣的知識貢獻類平臺,GitHub這樣的IT類平臺,也有我們要著重介紹的大數據分析類的眾包平臺Kaggle。
Figure 1 Kaggle的工作方式。

Kaggle的工作方式如圖中右上角的流程所示。假設一個互聯網廣告公司收集了大量的關于用戶廣告點擊行為的數據,想從這些數據中發現用戶點擊的規律、模式,希冀以此來優化廣告投放、提高用戶點擊轉化率。一種做法是,公司雇傭一個數據科學家團隊來洞察數據,為決策提供支持。這種做法的成本可能比較高,小公司難以承受。Kaggle提供了另外一種方式。公司可以將他們的數據、問題的描述、以及期望的指標整理后發布到Kaggle上,通過舉辦競賽的方式讓網上的數據科學家參與解決。數據分析師們或獨立、或組隊參加比賽,利用自己的專業知識和數據分析工具得到優化模型。最后,這些結果經過原定指標的檢驗,被公布到排行版上;最好的結果將獲得競賽的獎金(幾百美元到幾百萬美元不等)。而公司也能最終擁有數據分析的結果、模型等知識產權。圖中左表列出了Kaggle上面一個問題的例子,這是關于Twitter對其用戶的個性分析的案例。包含了訓練集、測試集、示例代碼和作為基準的隨機森林模型。而右表則是排行版上前六位的團隊以及他們在loss這個指標上的表現。
Kaggle的流行是由兩方面的因素決定的。首先,隨著數據量的爆炸性增長,尤其是互聯網企業掌握的數據越來越多,如何利用這些數據成為了決策者們所關心的問題。大多數依靠互聯網掙錢的企業技術門檻較低,競爭激勵。像2010年興起的團購,一時間中國大地上出現了5000多家類似的公司,大家有著同樣的網站模板,相似的業務,卻沒有任何差異化的東西。如何提高技術壁壘,脫穎而出,數據驅動(data-driven)成為了大家關注的焦點。商家們需要收集用戶的行為數據,分析不同用戶群體的行為規律,從而為商品的定向投放,精準推薦提供有力支持。另一方面,數據科學家成為了21世紀最稀缺的資源。Kaggle總裁兼首席科學家Jeremy Howard認為一個偉大的數據科學家應具備創新、堅韌、好奇、深厚技術這四項素質。具備數據收集、數據改寫、可視化、機器學習、計算機編程等技術的數據科學家使數據驅動決策并主導產品。根據McKinsey的預測,在未來6年,僅在美國本土就可能面臨缺乏14萬至19萬具備深入分析數據能力人才的情況,同時具備通過分析大數據并為企業做出有效決策的數據的管理人員和分析師也有150萬人的缺口。如何充分利用現有的數據科學家的專業知識來幫助有需要的企業實現數據驅動的業務支持,Kaggle正是基于這樣的想法,建立起了一個聯通領域和專業技能的橋梁。
眾包方式的大數據分析絕不僅僅只有Kaggle一家,類似的還有CrowdAnalytix和TunedIT。而最早的學術界的Kaggle可以認為是從1997年開始的由ACM組織的KDD CUP(知識發現和數據挖掘競賽)。KDD每年一次,涉及的領域從生物、營銷、安全、醫學,一直到最近火熱的用戶行為分析和社交網絡分析。比如,今年(KDD2012)的分析任務就是由騰訊微博提供,通過對微博的社交分析,期望預測出最有可能的關注(Follow)關系。
現在已經是“大數據”的時代,所有的人都預測在這個領域內將來會產生一批偉大的公司。目前,在Kaggle上吸引了將近六萬的參與者,競賽的內容也從單純的預測性分析拓展到所有關于數據的創意,比如如何實現工作職位網站上的數據可視化。可以說,聚集了如此多智慧和機會的大數據眾包平臺Kaggle一定會成為這些偉大公司的一員,讓我們拭目以待。