“回歸分析”真的算是“機器學習”嗎?
是什么將“統計”從“機器學習”中分離出來的?
這是一個被討論過無數次的問題。關于這個問題的文章有很多,人們對其好壞莫衷一是。但是我發現,在“統計”和“機器學習”的爭論上,人們往往會“只見森林,不見樹木”。
Aatash Shah曾在他的文章中作過這樣的定義:
- “機器學習”是一種能夠直接從數據中學習,而無需依賴規則編程的算法。
- “建立統計模型”的意思是以數學方程式來表示數據變量間的關系。
Shah更多是從“機器學習”和“統計模型”的不同目的出發,對兩者進行定義的。他把“機器學習”看成一種實踐活動,把“統計模型”則視為抽象理論。(我在這里講到的“統計模型”事實上就是“統計”。)但實際上,“統計”與“機器學習”的關系要復雜得多,僅憑定義概念來分析這兩者的關系是遠遠不夠的。
對于這一關系的哲學性思考和研究,很快就演變成了下面這些問題:
- “機器學習”是建立在“統計”的基礎之上的嗎?
- “機器學習”是不是一組傳統的統計數據?
- 這兩個概念間是否存在共通之處?有沒有一個相對統一的概念?
我認為以這樣的方式建構和設計的、所謂的高水平方法,其實是錯誤的,也是非常浪費時間的。
那么在這種情況下,“回歸分析”究竟是不是“機器學習”的一種特殊形式呢?
Gregory Piatetsky-Shapiro是KDnuggets公司總裁,關于這個問題,他的觀點很好地反駁,并且打破了“回歸可能過于簡單,以至于不能稱之為機器學習”的這一說法。
在一些機器學習研究專家看來,傳統的“線性回歸”可能過于簡單,不能被稱為真正的“機器學習”,而只能算是“統計”。但我認為“機器學習”和“統計”之間的界限其實是非常模糊和任意的。比如說,C4.5決策樹算法也不是很復雜,但它卻被劃分為了“機器學習”。
其實,很多更高級、更先進的算法都產生于線性回歸,比如“脊回歸”、“最小角度回歸”和LASSO,而且這些算法大多都被機器學習專家使用過。所以,想要更好地理解這些算法,你必須要先了解基本的“線性回歸”。
因此,“線性回歸”應該是所有機器學習研究者必備工具之一。
Diego Kuonen和 CStat PStat CSci都是瑞士日內瓦大學“數據科學”的教授,他們分別是“數據咨詢所”的CEO和CAO。他們針對這個問題提出了以下見解:
每一個有監督的分析模型(來自統計、數據科學或是機器學習)都會作出一種假設,即模型輸出的分布是如何依賴模型輸入的。如果分析模型沒有作出任何假設,那么除了那些觀察到的數據之外,就沒有任何可供理性分析的根據了。
因此,把結論僅建立在一個“有效模型”(“有效模型”指的就是那些假設經過了驗證的模型)的基礎之上才是正確的做法。
為了實現理解數據的終極目標,我們需要使用兩種工具——“統計模型”和“機器學習模型”。Diego似乎不太關心使用的是哪種工具,而是關注這個工具使用得是否恰當、有效模型是否建立,以及最終的數據理解是不是增加了。如果最終的結論是建立在無效模型之上的,那么關于統計數據與機器學習間關系的爭論就是毫無意義的。
我個人對這些問題的思考已經持續了好多年。當我最初意識到“線性回歸”、“決策樹”這些簡單的概念也能夠被視為“機器學習”時,我感到非常震驚。因為在那之前的學習中,從來沒有人對我提起過“機器學習”一詞。我以為,所有跟我處于同樣專業水平的人都會有如此的反應。
認真思考了“數據研究”和“機器學習”之間的關系之后,我認為數據研究實際上是一個研究過程,而機器學習是推動這一研究進行的工具。那么給“統計”下一個現代化的定義即——“統計”一門是從數據中學習的,能夠測量、控制和溝通不確定性的科學。比起這些復雜的概念,我更樂于將“統計研究”的定義簡化為“大規模的高速統計數據分析”。
同樣簡單地理解,機器學習有三個組成部分:第一,數據;第二,模型或者估計函數;第三,需要降到最低的成本或損失。機器學習的整個raison detre過程實際上是其運用類似的統計問題來優化損失函數的過程。
那么這時,我們再回到最初的問題——“線性回歸”,也就是“回歸分析”最基本的形式,是否滿足了這些要求呢?

當然了,這個問題還沒有完全解決。假設這樣一個情景:我有十個數據,繪制了前面九個數據結果,我讓第十個數據重新返回測試,然后親自解這個方程,并手繪測試結果——這樣算是機器學習嗎?如果不算(很明顯不算是機器學習),那么究竟怎樣才算是“機器學習”呢?
與上述觀點不同的是,Mike Yeomans曾經在他的文章中提到,我們應該把機器學習簡單地看作是統計數據的一個分支。Kuonen對這個觀點表示了贊同,他同時還指出,盡管可能有人會說“數據研究其實是大規模、高速度的統計”(Daryl Pregibon, 1999),但他發現了他們的方法存在不同之處。我曾向Cannon Gray的總裁Kevin Gray征求了意見,他將這個話題引入到另一個問題中,思考著這個話題的討論是否有必要。
在此,我要感謝所有對這篇文章作出過貢獻的人,特別要感謝Diego Kuonen教授在寫作中的投入和反饋。