時隔一年當刮目相看的數據科學新格局
本文為數據科學家Christophe Bourguignat在“數據科學家2015”巴黎會議開幕主題演講全文。Christophe Bourguignat目前就職于安盛-數據創新實驗室(AXA – Data Innovation Lab)
以下是演講全文:
大家好。
我一直想問自己一個問題:如果我不得不介紹一下這個講稿去年的版本,我當時會提到什么樣的主題呢?到了今天是否仍然有相關?或者已經完全過時了?
例如,去年,我肯定會嘗試 - 是的,我說過試著 - 描述數據科學家是什么。你知道,這個虛構的角色,半數學的書***,半軟件極客,半溝通技能。三個一半顯示,它并沒有真正存在。今天,我還是更加迷茫。最近的一項調查描述數據科學家作為一只有25只腳的蜘蛛!也許在今天的會議之后,我們會更加了解這個新角色。并了解它是多么廣泛。
數據科學家,一只有25只腳的蜘蛛
然而,與去年相比,我們開始有數據的科學家。量化自我后,這是量化的數據科學家 -數據科學家 數據科學的時間。2個星期前,一個預測的數據科學家的工資線性模型公布了。
什么是值得注意的?如果你是一個女孩,不幸的是,你不會出現在榜。這不會讓任何人感到驚訝。糟糕的是即使是數據科學家的工作,也像很多的技術職位,都無法逃脫這條規則。
更有趣的是,數據科學家(/分析師/工程師)在會議上花的時間越多,收入就越多。如果他花了太多的時間探索數據(4小時/天),他賺的錢就越少了!這一點非常重要!
數據科學家:一個預測數據科學家的收入是多少的線性模型
幾個月前,關于什么能代表著數據革命,我一直在批評自己缺乏對法國的認識?,F在我們應認識到情況已經改變了。一個新的角色已經產生 - 法國的***數據官,他最近還成為法國的***信息官,這意味著IT技術轉移到向數據為中心靠近了。法國現在也有自己的數據科學團隊,同時一個新的詞誕生了:“mégadonnées”法語:大數據。
亨利 維迪爾,來自法國的CDO、CIO
去年,我就談到了創業公司,數據顯示 - 它注定會有一個光明的未來。今天,我將更加細致地談及創業公司。公司數據的成熟度是非常明顯的,但他們的***的優勢開始遭到懷疑。75%的創業公投資大數據,但只有10%的在制造業。 “機器學習”,一個數據項目的重要組成部分,***落在Gartner“成熟度曲線”的末端。
公司面對的幻滅。并問自己:我知道要花多少錢,但我能賺多少?投資回報率是多少?
即使小數據項目也會遇到新問題 - 如何使用我的數據科學家的發現?這意味著改變管理,修改既定的業務流程。舉例來說,一個零售商知道通過在打折前后延長商品的在上架時間可以大幅增加利潤。但實施這一變化將需要一個完整的重新設計的供應鏈,這是零售商不愿意承擔的。
“機器學習”***落在Gartner“成熟度曲線”的末端
在另一個層面,這次是關于純技術的 - 因為數據科學是關很多技術的 - 我可能會提到Map(映射)和Reduce(歸約),這是谷歌在大約10年前設計的一種算法,目的是實現大量數據的分布式處理。前不久,它是一個明星。今天,它已經被廣泛稱為:火花。
讓我們拿另一個例子。兩周前,Cloudera宣布其產品Kudu,一個完全繞過HDFS的新的列存儲技術,事實上目前的大數據存儲技術。同時,它有助于提高他們的動物學知識(數據科學家的捻角羚羚羊是林地分布在東部和南部非洲),捻角羚在新興的“傳統Hadoop項目”中開始探索讓HDFS融入MapReduce…
另一方面,我無疑還未談起過人工智能(AI)的一個分支–深度學習。神經網絡,功能非常強大,像人類一樣從數據中學習,但有時比人類更強。這一領域最近取得了決定性的進展。這些算法表明,他們是如何能夠繪畫,寫作,或作曲。那下一步將是什么?
深度學習-繪畫
我也未談過道德。是的,道德 - 誰會想到它來辯論?一個社會,每一個有獨立想法的公民都能由模型預測,這越發令人擔憂。這是為什么要強調預測算法的的良好的透明度,同時人工智能有關的教育已成目前熱門的主題。
這個演講的結論是:不要試圖記住太多我剛剛所講的,因為到明年大部都將過時!至少,這是我的預測。
然而,有一件事將繼續。最近由巴拉克奧巴馬頒發“美國***數據科學家”的DJ Patil, 2012年曾在一篇著名的和有遠見的哈佛商業評論文章中寫道,數據科學家將成為“21世紀最性感的工作”。我也深信這一點。數據科學家是世界上最令人激動的工作之一,這將保持很長一段時間。我們只是故事的開始。
希望你們有精彩的一天。