大數據挖掘機器學習人工智能的維恩圖戰爭
馬上要召開半年會了,老板說,大家要做好規劃,以后我們方向不再是機器學習了,而是人工智能。原話怎么說的,我已經忘記,只記得當時聽著特別難受,于是我當場就提出了,到底什么是機器學習?什么是人工智能?BD小姑娘特別積極說,我知道我知道,就去黑板上畫了三個方塊。類似下面的這樣:
這也不是原圖,類似這樣的意思,比較簡略的關系。(記憶真是太不靠譜的東西!)我不以為然,***想到的圖是題圖,也很簡略地去白板上畫了下,每個人同學又各抒己見了下,引起一片笑聲。雖然這個事情就過去,但是我這個人,在這種場景下,就沒有“過去”,因為我是一個特別糾結概念的人。
回來一搜,不得了,原來,搞不清楚這些術語邊界的人可真不少,很多本身就是這個領域的學者和研究者,就是說,連專業的人士都眾說紛紜,互不能信服,真是太逗了,甚至有篇文章,叫《Battle of the Data Science Venn Diagrams》 [1] 這篇文章里,搜集了很多的維恩圖,不打算一一轉載,各位可以自行觀看。
挑一些我個人比較感興趣的圖說說吧。
這張圖也就是題圖,據說,來自 SAS 公司在 KDD1998* 提供的數據挖掘基礎課程中的一副圖[2]。很多辨析這幾個領域的Slides,還有一些技術人士做的 PPT 里,會引用這張圖,因為 SAS 是全球***的軟件公司之一,是商業智能和數據分析軟件的***,所以,他們的觀點不能說是不權威。
這幅圖里,以數據挖掘(Data Mining)為核心,當然因為這是 KDD 會議的講稿,所以圖里還有 KDD 的一個圈圈,哈。模式識別(Pattern Recognition)和神經計算(Neurocomputing)這倆,我基本完全沒概念,就不討論了。這圖里有意思的是統計學(Statistics)、機器學習(Machine Learning)和人工智能(AI)的關系。以 SAS 的觀點來看,人工智能是完全包含了機器學習的內容的,機器學習根本就是人工智能的子學科。而統計學跟這倆基本沒有交集,但是仔細點看看,不是完全無關,完全無關是像數據庫(Databases)的表達方式,離得遠遠的,也即,機器學習和人工智能,跟統計有關系,也僅僅一丁點而已,哈!
另有一幅圖,派生自這幅圖。
這幅圖的作者 Brendan Tierney,查了一下也是一個行業資深人士,曾在 Oracle 工作過,現在是咨詢師,很多 Quroa 答案啊,行業文章啊,引用這張圖也比較多,這圖本質上不是說領幾個屬于的邊界問題的,標題也可以看出來,不過也引發了不少人討論(呵呵)。Brendan 2012年發表了博客[3],2016年回來更新說,中間的維恩圖呢,是數據挖掘領域很常見的圖啦(然而我沒找到原圖),他隨便引用的,并且他認為派生自上面 KDD1998 那圖(可我覺得不是),他自己加了外面一圈東西才是他想表達的。
這圖里,取消了數據挖掘和模式識別的交集,正中間換成了數據可惜,新增了可視化,還真是…… 2010年有一篇博客[4],引用這幅圖,辨析了數據科學,數據挖掘和機器學習三者,也挺值得一看的。
下面這幅維恩圖,定義了什么是數據科學。
繪制這幅圖的,是一個叫 Drew Conway 的伙計,他是紐約技術社群里的一位類似意見***的人物。維基百科對他的介紹[5],他竟然因為繪制了上面的圖而成名,被記入維基百科,另一個因素是把大數據應用于恐怖主義研究,當然,畫出這幅圖還排在研究恐怖主義前面,大家能領會吧?
據 Battle 文說,這圖繪制于2010年,但是2013年才在博客發表[6],博客的歸檔時間和聲稱發表時間,確實能看到這兩個時間點。據說就是這個圖,點燃了 Battle,也是 Battle 文中的***幅圖。
這幅圖,讓人注意的兩個點,***個是 Substantive Expertise,第二個是危險區域(Danger Zone!),哈哈,前者看到感受是“草,什么鬼,這英語我不認識啊”,后者感受是“神秘啊!”。大可不必為英語看不懂而臉紅,Battle 文作者,也覺得這倆詞選得不好,很操蛋啊(……all I can say, is if Conway meant something other than what I would call domain knowledge (e.g. physics), he chose the name Substantive Expertise very poorly.)當然還有一重很重要的可能性,就是咱們都沒有 Conway 老哥有文化,人家另一重身份是紐約大學的 Political Science 的博士啊!
于是沒文化的技術民工,將 Conway 老哥的圖改得可愛了一點[7]。
這幅圖我倒是覺得更呵呵一點了。當然,值得肯定的是三個圈在我四級的英語能力下,確實更容易看懂一些了。但是,數據科學從中央被移走了什么鬼?而且中央區域放入了一個什么鬼?好吧。“數學和統計知識”被換成了“量化方法”?“駭客能力”被換成了“計算機科學”?這倆的替換方法看,基本上也可以判斷,第三個被換的,也高明不到哪里去,所以這個老哥可沒有因為這幅圖被收錄維基百科。那個問號,據說是對危險區域不太能接受,所以替換成問號了。
看一個集大成者的圖[8]。
干脆加了一個圈圈叫 Evil(魔鬼?),當然了,多了很多什么鬼的英語,我能看懂的就不多了,難道邦德大哥也來客串了?
還是沉溺到了數據科學領域的 Battle,無奈。這幅圖也是來自那篇文章。
這幅圖,是最為切題的一副圖了吧,大數據,數據挖掘,機器學習,人工智能全都提到了,應該做題圖才對啊!(我也是無奈)[9]。感覺這幅圖,提供了一種全新的視角來看待問題,把 Conway 老哥著名的圖里,那些更主觀,更模糊的東西砍掉了,留下了客觀的,跟數據有關的,跟技術有關的東西,幾個術語,確實可以在一個層次上去比較了。文章自稱解決了大 Puzzle 的一部分。
文章辨析了幾個術語的一些意思和簡史,也提供了另一幅我很喜歡的圖。
說實在,這才是到目前為止我最喜歡的圖,不但提供了作者對于概念內涵外延的闡釋,還把不同概念之間的作用關系給解釋了。真是太棒了!
還有一篇文章我也比較喜歡,比如這篇[10]辨析了機器學習和統計學的異同點。文章認為,統計學和機器學習兩者,有著相同的目標(在咱們討論的這個方面),就是“我們能從數據中學到什么”,而不同的是兩者的方法。這篇文章里也引用了題圖。文章中引述的一種觀點認為,機器學習方法,不需要任何前置假設,不關心各種變量內在的聯系,只要一股腦丟到算法里面就可以了,算法更像一個黑盒子。你的數據越多,預測越準。機器學習方法,通常應用在一些高維的數據集上。
而統計學,特別注重數據的采集方式,樣本的各種屬性的分布,你必須精確地知道你到底在干什么以及到底有什么變量來提供預測能力。統計學方法,通常應用于低維的數據集上。
當然,結合目前的工作,很容易就發現,雖然我們使用的是機器學習方法,我們卻十分關心統計學要求的那些領域,我們也關注數據取得的方式,屬性的分布特征等等問題。所以,也正如文中的結論,兩者的區別在日益變小,而且在未來可能越來越難以區分。(而這半句,是我加的,我覺得在工業界會是這樣)
還有一幅圖,我也挺喜歡。
這幅圖,介紹了機器學習的整個過程[11]。我覺得也是很重要的。
總結
基本上,數據科學這門學科到底涵蓋些什么內容,其邊界是模糊的。對于一個新興的學科來說,這一點都不奇怪。我們有一點是確認的,這是一個綜合性很強的交叉學科。大數據也是一個寬泛的概念。機器學習和深度學習則是內涵外延比較明確的概念,公認有包含關系。人工智能則是更大的范疇,但是人工智能和大數據、數據科學都不是一回事情。
- [1]Battle of the Data Science Venn Diagrams,http://www.prooffreader.com/2016/09/battle-of-data-science-venn-diagrams.html
- [2]Looking backwards, looking forwards: SAS, data mining, and machine learning,https://blogs.sas.com/content/subconsciousmusings/2014/08/22/looking-backwards-looking-forwards-sas-data-mining-and-machine-learning/
- [3]Data Science Is Multidisciplinary, http://www.oralytics.com/2012/06/data-science-is-multidisciplinary.html
- [4]Difference of Data Science, Machine Learning and Data Mining, https://www.datasciencecentral.com/profiles/blogs/difference-of-data-science-machine-learning-and-data-mining
- [5]https://en.wikipedia.org/wiki/Drew_Conway
- [6]THE DATA SCIENCE VENN DIAGRAM, http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram
- [7]Data Science in Business/Computational Social Science in Academia? http://giventhedata.blogspot.ca/2013/03/data-science-in-businesscomputational.html
- [8]http://joelgrus.com/2013/06/09/post-prism-data-science-venn-diagram/
- [9]The Data Science Puzzle, Explained, https://www.kdnuggets.com/2016/03/data-science-puzzle-explained.html
- [10]http://www.edvancer.in/machine-learning-vs-statistics/
- [11]https://imarticus.org/what-is-machine-learning-and-does-it-matter/
- [*]KDD 是 SIGKDD 簡寫,Special Interest Group(SIG) on Knowledge Discovery and Data Mining