成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大數據分析的眾包平臺—Kaggle

云計算
Kaggle的工作方式如圖中右上角的流程所示。假設一個互聯網廣告公司收集了大量的關于用戶廣告點擊行為的數據,想從這些數據中發現用戶點擊的規律、模式,希冀以此來優化廣告投放、提高用戶點擊轉化率。

眾包(Jeff Howe,2006)是一種在互聯網蓬勃發展的背景下產生的一種創新的生產組織形式。在這樣的商業模式下,企業利用網絡將工作分配出去,通過讓更合適的人群參與其中來發現創意和解決技術問題。比較成功的眾包例子有像wikipedia這樣的知識貢獻類平臺,GitHub這樣的IT類平臺,也有我們要著重介紹的大數據分析類的眾包平臺Kaggle。

Figure 1 Kaggle的工作方式。

 

 

Kaggle的工作方式如圖中右上角的流程所示。假設一個互聯網廣告公司收集了大量的關于用戶廣告點擊行為的數據,想從這些數據中發現用戶點擊的規律、模式,希冀以此來優化廣告投放、提高用戶點擊轉化率。一種做法是,公司雇傭一個數據科學家團隊來洞察數據,為決策提供支持。這種做法的成本可能比較高,小公司難以承受。Kaggle提供了另外一種方式。公司可以將他們的數據、問題的描述、以及期望的指標整理后發布到Kaggle上,通過舉辦競賽的方式讓網上的數據科學家參與解決。數據分析師們或獨立、或組隊參加比賽,利用自己的專業知識和數據分析工具得到優化模型。最后,這些結果經過原定指標的檢驗,被公布到排行版上;最好的結果將獲得競賽的獎金(幾百美元到幾百萬美元不等)。而公司也能最終擁有數據分析的結果、模型等知識產權。圖中左表列出了Kaggle上面一個問題的例子,這是關于Twitter對其用戶的個性分析的案例。包含了訓練集、測試集、示例代碼和作為基準的隨機森林模型。而右表則是排行版上前六位的團隊以及他們在loss這個指標上的表現。

Kaggle的流行是由兩方面的因素決定的。首先,隨著數據量的爆炸性增長,尤其是互聯網企業掌握的數據越來越多,如何利用這些數據成為了決策者們所關心的問題。大多數依靠互聯網掙錢的企業技術門檻較低,競爭激勵。像2010年興起的團購,一時間中國大地上出現了5000多家類似的公司,大家有著同樣的網站模板,相似的業務,卻沒有任何差異化的東西。如何提高技術壁壘,脫穎而出,數據驅動(data-driven)成為了大家關注的焦點。商家們需要收集用戶的行為數據,分析不同用戶群體的行為規律,從而為商品的定向投放,精準推薦提供有力支持。另一方面,數據科學家成為了21世紀最稀缺的資源。Kaggle總裁兼首席科學家Jeremy Howard認為一個偉大的數據科學家應具備創新、堅韌、好奇、深厚技術這四項素質。具備數據收集、數據改寫、可視化、機器學習、計算機編程等技術的數據科學家使數據驅動決策并主導產品。根據McKinsey的預測,在未來6年,僅在美國本土就可能面臨缺乏14萬至19萬具備深入分析數據能力人才的情況,同時具備通過分析大數據并為企業做出有效決策的數據的管理人員和分析師也有150萬人的缺口。如何充分利用現有的數據科學家的專業知識來幫助有需要的企業實現數據驅動的業務支持,Kaggle正是基于這樣的想法,建立起了一個聯通領域和專業技能的橋梁。

眾包方式的大數據分析絕不僅僅只有Kaggle一家,類似的還有CrowdAnalytix和TunedIT。而最早的學術界的Kaggle可以認為是從1997年開始的由ACM組織的KDD CUP(知識發現和數據挖掘競賽)。KDD每年一次,涉及的領域從生物、營銷、安全、醫學,一直到最近火熱的用戶行為分析和社交網絡分析。比如,今年(KDD2012)的分析任務就是由騰訊微博提供,通過對微博的社交分析,期望預測出最有可能的關注(Follow)關系。

現在已經是“大數據”的時代,所有的人都預測在這個領域內將來會產生一批偉大的公司。目前,在Kaggle上吸引了將近六萬的參與者,競賽的內容也從單純的預測性分析拓展到所有關于數據的創意,比如如何實現工作職位網站上的數據可視化。可以說,聚集了如此多智慧和機會的大數據眾包平臺Kaggle一定會成為這些偉大公司的一員,讓我們拭目以待。

責任編輯:王程程 來源: 中云網
相關推薦

2017-07-22 00:41:27

大數據數據存儲

2011-08-12 11:14:42

大數據數據分析平臺架構

2017-01-22 21:30:39

大數據Kaggle函數

2013-09-22 10:26:06

大數據大數據團隊

2015-05-26 10:27:17

大數據分析電商平臺應用

2019-04-23 15:35:53

Hadoop大數據數據處理

2015-08-14 10:28:09

大數據

2015-08-24 13:56:10

數據分析

2021-08-06 11:01:23

大數據數據分析技術

2019-07-31 14:16:35

大數據人工智能算法

2018-06-23 07:53:31

大數據分析框架數據

2015-08-11 15:52:52

大數據數據分析

2018-02-27 13:09:00

Hadoop數據倉庫魔力象限

2018-08-10 15:54:43

大數據

2013-09-02 17:42:28

大數據分析FusionInsig華為

2021-10-12 15:25:08

大數據數據分析

2022-03-29 14:49:14

大數據數據分析

2015-07-23 09:34:57

大數據數據分析

2013-04-09 09:28:20

大數據大數據全球技術峰會

2013-10-11 10:10:18

惠普HP HAVEn
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产精品日韩欧美 | .国产精品成人自产拍在线观看6 | 亚洲成人一区二区在线 | 亚洲一区二区三区四区五区午夜 | av手机在线免费观看 | 一区二区三区福利视频 | 亚洲一区二区三区视频在线 | 国产粉嫩尤物极品99综合精品 | 97超碰在线免费 | 中文字字幕在线中文乱码范文 | www.国产精品 | 精品视频一区二区三区四区 | 日批免费在线观看 | 久久精品亚洲精品 | 爱操影视| 一区二区精品在线 | 亚洲视频免费 | 亚洲一区二区三区在线视频 | 午夜在线影院 | 国产伦精品一区二区三区四区视频 | 国产精品美女久久久久aⅴ国产馆 | 国产精品视屏 | 欧美国产91 | 狠狠色综合久久婷婷 | 色伊人久久 | 亚洲精品欧美一区二区三区 | www.久久久久久久久久久 | 亚洲综合天堂网 | 欧美大片久久久 | 99色综合| 久久精品网| 天天玩天天干天天操 | 国产精品亚洲一区二区三区在线 | 国产日韩欧美激情 | av网站在线看 | 欧美一区二区三区久久精品视 | 999www视频免费观看 | 欧美成人免费在线视频 | 久久精品高清视频 | 黑人一级黄色大片 | 欧美性网 |