大數據、統計學與機器學習是怎樣的關系
本文轉載自微信公眾號「曉陽的數據小站」,作者曉陽的數據小站。轉載本文請聯系曉陽的數據小站公眾號。
大數據、統計學與機器學習是怎樣的關系
這三個主題,都是當下熱門的概念,梳理清楚其關系,有助于在后續的學習中,有的放矢。如果只看結論,可以直接到最后一個章節。
|0x00 統計分析與實證研究
統計學是通過搜索、整理、分析、描述數據等手段,以達到推斷所測對象的本質,甚至預測對象未來的一門綜合性科學。
為什么要講“統計學”?很簡單,統計分析為現代科學奠定了方法論基礎,即實證研究。統計推斷有個基礎,研究的對象是服從某一規律法則的隨機過程,而現實觀測到的數據是從這個隨機過程產生的,這個隨機過程我們稱之為數據生成過程。統計學基于觀測到的數據進行建模,推斷出概率法則,便可以應用于實際場景中,如檢驗經濟學假說、評估公共政策效果等。
在統計建模中,一般假設的DGP(數據生成過程,Data Generating Process)的概率法則可以由唯一的數學概率模型來刻畫,模型通常將因變量與一些解釋變量或預測變量聯系起來,同時假設該數學模型的函數形式已知,但包含低維的未知參數,這是一種參數建模方法,在統計學中應用最為廣泛。
統計推斷主要目的是觀測數據、估計模型的未知參數值,將經濟理論或者假說轉化為統計參數假設,然后進行參數假設檢驗,并對實證結果提供經濟解釋。常見的做法,是基于一個預設的顯著性水平(如5%)判斷一個參數估計值或者參數假設在統計學上是否顯著。如果具有統計顯著性,則相應的將變量視為一個重要決定因素。
互聯網行業中,常見的A/B測試,也是為了驗證某個idea是否具備統計顯著性。
但以上的做法至少需要六個關鍵假設:
- 隨機性,DGP是一個隨機過程;
- 唯一性,DGP的概率法則由唯一的數學概率模型來刻畫;
- 正確性,存在唯一的未知參數,使得概率模型與DGP概率法則相吻合;
- 代表性,描述觀測數據的隨機樣本不存在樣本選擇偏差;
- 抽樣推斷總體,使用包含DGP信息的樣本數據來推斷總體分布特征;
- 統計顯著性,使用統計檢驗量的P值,在預設的顯著性水平(如5%)上判斷解釋變量或預測變量是否重要,并據此提供邏輯解釋。
如果以上概念非常不好理解,那么就簡單記住下面幾句:
- 總結數據與模型;
- 推斷結論是否合理;
- 回答重要的社會問題;
- 認識并改善我們日常的行為模型。
|0x01 大數據特征
通常意義上,我們可以認為大數據是繼信息革命后的第四次革命,尤其是互聯網與移動互聯網的普及、物聯網的興起,數據的增長是指數級別的。大數據最顯著的特征,是其“4V”特性,即:
- Volume(海量性):多渠道采集的數據,包括了日志、音視頻、地理位置等信息,但存儲壓力在Hadoop之后得到緩解;
- Velocity(高速性):大數據的產生、傳播與計算速度,是前所未有的,需要實時分析而非批量式分析,這也是Flink快速興起的緣由;
- Variety(多樣性):大數據形式多樣,既包括了傳統的結構化數據,也有很多非結構化的數據,“數據湖”的出現也是為了解決非結構化數據的計算問題;
- Veracity(真實性):大數據體量龐大,但信息密度低,因此如何進行去偽存真、有效概括并提取大數據中的有效信息,就顯得非常重要。
盡管我們能夠熟練背誦大數據的4V原理,但其背后的深刻概念與技術挑戰,卻是一直被忽視的。從統計學的角度看,大數據的4V特征會有一些新的解讀。
- Volume(海量性):海量有雙重含義,一個是大數據的樣本容量非常大,另一個是能在給定時間內從不同維度對DGP進行比較多的描述;
- Velocity(高速性):在高頻甚至實時條件下記錄或收集數據,使得準實時的數據分析與預測成為可能;
- Variety(多樣性):統計學長期以來關注結構化數據,但不同形式的數據組合在一起,將提供比傳統數據更多有價值的信息,如社交媒體的非結構信息;
- Veracity(真實性):統計學的本質是有效地從數據中提取有價值的真實信息,雖然很多經典的統計方法很有用,但也需要發展新方法和新工具。
|0x02 機器學習及其本質
與統計學一樣,機器學習也是一種重要的大數據分析工具,盡管機器學習由于云計算的出現得到了迅速的發展和普及,但機器學習并不能替代統計學。例如,盡管機器學習在改善樣本外預測和模式識別方面非常有用,但統計學在推斷分析、因果分析、結果解釋等方面依然可以發揮很大的作用。可以說,機器學習與統計學是互補的,兩者的交叉融合可以為數據科學提供新的方法與工具。
機器學習可以分為三個主要的類別:監督學習、無監督學習和強化學習。
監督學習基于訓練好的數據來構建算法,訓練數據包含一組訓練樣例,每個訓練樣例擁有一個或多個輸入與輸出,成為監督信號,通過對目標函數的迭代優化,監督學習算法探索出一個函數,可用于預測新輸入所對應的輸出。
無監督學習只在包含輸入的訓練數據中尋找結構,識別訓練數據的共性特征,并基于每個新數據所呈現或缺失的這種共性特征做出判斷。
強化學習是研究算法如何在動態環境中執行任務,以實現累計獎勵的最大化。很多學科對這個領域有研究,比如博弈論、控制論等,在自動駕駛、人類博弈比賽等方面比較常用。
因此,從本質上說,機器學習是數據優化問題與算法優化問題,數學優化為該領域提供了理論、方法與應用。
|0xFF 大數據、機器學習與統計學的關系
主要有四點。
第一,大數據的出現,其實并沒有改變統計學通過隨機抽樣來推斷總體分布特征的基本思想,需要統計學的基本方法,如充分性原則、因果推斷等,依然適用于大數據分析。此外,大數據提供了很多傳統數據所沒有的信息,大大拓展了統計學研究的邊界,如非結構化數據的影響,而實時數據甚至為實時預測和高頻統計建模帶來可能。
第二,由于樣本容量的巨大,大數據很有可能改變基于統計顯著性來選擇統計模型重要變量的習慣做法,研究范式就會從參數估計的不確定性轉為模型選擇的不確定性,這對統計建模與推斷會帶來新的挑戰。
第三,機器學習的興起得益于大數據的爆炸式發展,與統計學類似,機器學習也存在并且特別注重樣本偏差的問題。機器學習的本質是一個數據優化問題及實現該優化問題的計算機算法問題,它比統計學的參數建模更普遍和更靈活。
第四,在大數據的加持下,機器學習與統計推斷的結合,有望為數據科學提供一些新的發展方向,包括變量降維、精準預測、因果識別等方面。