眾說紛紜 機器學習究竟是什么?
譯文所謂數據科學家,是指那些能夠利用最合適的工具與方法完成自身工作的專業人士。最出色的數據科學家能夠將自己完整的知識集與模式發現方案充分利用于統計分析工作當中。
我們應該如何對科學技術數據的積累總和進行查閱?通常來講,這要用到所謂“高級分析”機制。這句話在表述上故意顯得比較模糊,其核心在于將一切技術手段納入其中——包括統計分析、數據挖掘、可預測模型、自然語言處理以及支持向量機等等。
在一般人的印象中,“數據挖掘”的涵蓋范圍很廣、大部分相關工作似乎都能劃歸其下,包括對于隱私侵犯的關注以及應用程序監控等等。不過在我看來,這相當于所有能在空中飛翔的鳥類都稱為“禿鷲”——明顯并不準確。究其原因,數據挖掘的指向對象為結構化數據,這類方案通常會涉及到具體的技術機制,例如回歸分析、決策樹等等,而且一般不會被用于對非結構化數據進行內容分析。
與之類似“機器學習”也被越來越多地提及并成為一種包羅萬象的概念。或者機器學習至少已經成為一種針對當前數據的便捷處理手段,科學家們用它來指代從新數據(大部分屬于非結構化數據)中自動獲取并發現知識與模式的尖端技術范疇。而人們對于機器學習定義的探尋似乎也延伸到了更為廣泛且界線模糊的領土之上。
這是我在最近閱讀了《了解機器學習:個人探索之路》一文后建立起來的印象。在這篇文章中,來自圣迭戈州立大學與True Bearing Analytics公司的Joseph R. Barr以作者的角度探討了機器學習的發展歷史以及他個人在學習這一課題過程中的感悟。他指出,“將機器學習、數據挖掘、可預測性分析以及高級分析或多或少視為同義詞其實并無不妥。” 我不知道將機器學習與前面提到的其它技術相提并論是否具有實際意義。正如前面已經提到,機器學習主要用于非結構化數據,而數據挖掘則專門針對結構化數據集。此外,與數據挖掘類似、機器學習關心的主要是歷史數據當中的多樣化形式,相比之下預測性分析更側重于尋找其中適用于未來新數據收集測試機制的可預測模式。然而機器學習、數據挖掘乃至可預測性分析的針對范圍較窄,高級分析則是一項更為寬泛的概念、足以將前面幾項全部容納進來。
在我看來,機器學習一只腳立足于數據科學、另一方面則以計算機科學為基礎。基于這樣的理解,我認同Barr在文章中所言:“機器學習發展自多個彼此不一定存在交集的數學學科,其中最值得注意的子類包括數理統計、計算與算法、信息理論以及數學優化等……在過去,機器學習是與人工智能緊密結合在一起的……大多數與機器學習相關的議題主要關注凸包的理論可能性、組合、凸度與優化、統計、信息以及計算。對于這份名單,我會向其中添加額外的三個條目:啟發法、經驗與應用。”
這實在是一門相當艱深的學科,值得我們深入探索與了解。通過以上描述,我們可以看到機器學習擁有一條令人心生畏懼的學習曲線,大家需要在大學課堂以及實驗室當中耗費多年才能窺探其門徑。這實際上也是Barr這篇文章的核心所在:他本人就是一位機器學習教學兼數據科學專家,而他面臨的難題在于如何為未來的數據科學家們設置一個正確的機器學習定義。
定義范圍的變化表明這些挑戰已經給機器學習本身帶來影響與反映。在機器學習這一宏觀概念之下,不同學科以創新方式不斷交叉而又相互促進,而這將拓展每一位數據科學家的思維方式并決定他們在使用這一術語時為機器學習設立的概念定義。
原文鏈接:http://www.infoworld.com/d/big-data/whats-machine-learning-it-depends-who-you-ask-244787