數(shù)據(jù)科學究竟是什么?
數(shù)據(jù)科學是一門將數(shù)據(jù)變得有用的學科。它包含三個重要概念:
- 統(tǒng)計
- 機器學習
- 數(shù)據(jù)挖掘/分析
數(shù)據(jù)科學的定義
如果你回顧一下數(shù)據(jù)科學這個術(shù)語的[早期歷史](),會發(fā)現(xiàn)有兩個主題密切相連:
- 大數(shù)據(jù)意味著計算機的使用頻率增加。
- 統(tǒng)計學家很難將紙張上所寫算法用計算機實現(xiàn)。
由此,數(shù)據(jù)科學得以出現(xiàn)。早先,人們將數(shù)據(jù)科學家視作會編碼的統(tǒng)計學家。如今看來,這種說法并不準確,首先讓我們回到數(shù)據(jù)科學本身。
2003年,《數(shù)據(jù)科學雜志》曾提出:“所謂的‘數(shù)據(jù)科學’,指的是那些任何與數(shù)據(jù)相關(guān)的內(nèi)容”。對此,我表示贊同,現(xiàn)在一切都無法與數(shù)據(jù)分割。
之后,對數(shù)據(jù)科學的定義便層出不窮,例如Conway的維恩圖,以及Mason和Wiggins的經(jīng)典觀點。
維基百科上對數(shù)據(jù)科學的定義更接近于我給學生講授的內(nèi)容:
數(shù)據(jù)科學僅是一種概念,它結(jié)合了統(tǒng)計學、數(shù)據(jù)分析、機器學習及其相關(guān)方法,旨在利用數(shù)據(jù)對實際現(xiàn)象進行“理解和分析”。
簡單來講:數(shù)據(jù)科學是一門將數(shù)據(jù)變得有用的學科。
現(xiàn)在你也許不禁會問,“這會不會太簡單了,‘有用’怎么就能包含所有的術(shù)語呢?”
先看下圖,該圖內(nèi)容與維基百科給出的定義十分契合:
這些都是什么,我們又如何知道處于圖中所描述的哪個階段呢?
統(tǒng)計學家和機器學習工程師的區(qū)別不在于前者使用R,而后者使用Python。由于眾多原因,按照SQL、R、Python進行分類是不合理的,其中最重要的原因是軟件會更新。目前,已經(jīng)可以用SQL來處理機器學習問題。
新手依舊喜歡采用這種方式進行區(qū)分,甚至很多大學課程也是如此安排,但這不夠合理。并且,最好不要采用直方圖、t檢驗以及神經(jīng)網(wǎng)絡進行分類。如果你足夠聰明,并且擁有自己的觀點,你可以使用相同的算法解決所有的數(shù)學科學問題。
我建議可按如下方式進行區(qū)分:
None-One-Many
這究竟指的是什么呢?沒錯,就是決定!當所有你需要的事實對你可見時,你可以通過描述性分析做出盡可能多的決定。
我們的行動和決定會影響到我們周圍的世界。
接下來我們將繼續(xù)探討如何讓數(shù)據(jù)變得有用。對我來說,有用的概念與影響世界的行動緊密相連。舉個形象的例子:如果我們相信圣誕老人的存在,那圣誕老人這個概念就不重要了,除非它可能會以某種方式影響我的行為。然后,取決于這種行為的潛在后果,它可能開始變得非常重要。
下圖是決策導向圖,您可以通過以下三步讓數(shù)據(jù)變得有用。
數(shù)據(jù)挖掘
如果你不知道你要作何決定,最好的辦法就是去尋找靈感。這就是所謂的數(shù)據(jù)挖掘、數(shù)據(jù)分析、描述性分析、探索性數(shù)據(jù)分析或知識發(fā)現(xiàn)。
分析的黃金準則:只對你所見的下結(jié)論。
除非你知道如何制定你的決策,否則就從尋找靈感開始吧。做法很簡單,只需要你將數(shù)據(jù)集想象為你在黑暗的房間中發(fā)現(xiàn)的一堆底片。數(shù)據(jù)挖掘就是讓設備盡可能快地公開所有的圖片,這樣你就能看到這些圖片上是否有什么鼓舞人心的東西。和照片一樣,不要把你看到的東西想得太嚴肅。你沒有拍這些照片,所以你對屏幕之外的東西了解不多。數(shù)據(jù)挖掘的黃金法則是:只對你能看到的做出結(jié)論,不對你看不到的做出結(jié)論,因為你需要統(tǒng)計數(shù)據(jù)和更多的專業(yè)知識。
除此之外,你還應盡力做到最好。數(shù)據(jù)挖掘的專業(yè)知識是通過檢查數(shù)據(jù)的速度來判斷的,不要迷戀那些看似有趣的東西。
暗房一開始很嚇人,但其實也沒什么大不了的。只要學會操作設備就行。這是R語言的教程,這是Python語言的教程。當你開始玩得開心時,你可以稱自己為數(shù)據(jù)分析師,當你能夠以閃電般的速度曝光照片以及所有其他類型的數(shù)據(jù)集時,你就可以稱為專家分析師。
統(tǒng)計推斷
靈感很容易獲取,但嚴謹卻很難做到,如果你想掌握數(shù)據(jù),則需要專業(yè)課程的學習。作為一名統(tǒng)計學專業(yè)的本科生和研究生,我認為統(tǒng)計學推論(簡稱統(tǒng)計學)是這三個領(lǐng)域中最難且最具哲學思想的。想要做好它需要花費不少的時間。
如果你打算做出高質(zhì)量且風險可控的決策,由于決策不僅僅依賴你所得到的數(shù)據(jù),此時你需要在你的分析團隊中加入統(tǒng)計技能。
在情況不確定的時候,或許統(tǒng)計學能夠改變你的想法。
機器學習
機器學習從本質(zhì)上來講,是使用示例而非指令來實現(xiàn)操作的。我也曾寫過一些關(guān)于機器學習的文章,包括機器學習與人工智能有何不同、如何入門機器學習、企業(yè)運用機器學習的經(jīng)驗教訓以及向孩子介紹監(jiān)督學習等。
數(shù)據(jù)工程
數(shù)據(jù)工程指的是將數(shù)據(jù)傳遞給數(shù)據(jù)科學團隊的工作。它本身就是一個復雜的領(lǐng)域,通常而言,它更接近于軟件工程,而不是統(tǒng)計學。
數(shù)據(jù)工程與數(shù)據(jù)科學的差異是前后的區(qū)別。
獲取數(shù)據(jù)之前的大部分技術(shù)工作都可以被稱為“數(shù)據(jù)工程”,而獲取到數(shù)據(jù)后我們所做的一切都是“數(shù)據(jù)科學”。
決策智能
決策智能是關(guān)于決策的,包括基于數(shù)據(jù)的大規(guī)模決策,這使得它變成了一門工程學科。利用社會和管理學科的觀點,增強數(shù)據(jù)科學的應用。
決策只能是社會和管理學科的組成部分。換句話說,它是這些數(shù)據(jù)科學的超集,而不涉及為通用用途創(chuàng)建基本方法之類的研究工作。