50年最重要8大統(tǒng)計(jì)學(xué)發(fā)展!哥大教授列舉推動(dòng)AI革命的統(tǒng)計(jì)學(xué)思想
盡管深度學(xué)習(xí)和人工智能已經(jīng)成為家喻戶曉的名詞,但推動(dòng)這場革命的統(tǒng)計(jì)學(xué)突破卻鮮為人知。
在最近的一篇論文中,哥倫比亞大學(xué)的統(tǒng)計(jì)學(xué)教授Andrew Gelman和芬蘭阿爾托大學(xué)的計(jì)算機(jī)科學(xué)教授Aki Vehtari詳細(xì)列舉了過去50年中最重要的統(tǒng)計(jì)學(xué)思想。

https://www.tandfonline.com/doi/full/10.1080/01621459.2021.1938081
作者將這些統(tǒng)計(jì)學(xué)思想歸類為8大類別:
- 反事實(shí)因果推斷(counterfactual causal inference)
- 自舉法和基于模擬的推斷(bootstrapping and simulation-based inference)
- 超參數(shù)化模型和正則化(overparameterized models and regularization)
- 貝葉斯多級(jí)模型(Bayesian multilevel models)
- 通用計(jì)算算法(generic computation algorithms)
- 自適應(yīng)決策分析(adaptive decision analysis)
- 魯棒性推斷(robust inference)
- 探索性數(shù)據(jù)分析(exploratory data analysis)
1. 反事實(shí)因果推斷(counterfactual causal inference)
在假設(shè)條件下,因果識(shí)別是可能的,而且可以嚴(yán)格地陳述這些假設(shè),并通過設(shè)計(jì)和分析以各種方式解決它們。
不同領(lǐng)域發(fā)展了不同的因果推斷方法。在計(jì)量經(jīng)濟(jì)學(xué)中,是結(jié)構(gòu)模型及其對(duì)平均治療效果的影響,在流行病學(xué)中,是對(duì)觀察數(shù)據(jù)的推斷。
基于因果識(shí)別是認(rèn)知的核心任務(wù),因此應(yīng)該是一個(gè)可以數(shù)學(xué)形式化的可計(jì)算問題。路徑分析和因果發(fā)現(xiàn)可以根據(jù)潛在結(jié)果來構(gòu)建,反之亦然。
2. 自舉法和基于模擬的推斷(bootstrapping and simulation-based inference)
統(tǒng)計(jì)學(xué)的一個(gè)趨勢是用計(jì)算來替代數(shù)學(xué)分析,甚至在 「大數(shù)據(jù) 」分析開始之前就已經(jīng)開始了。
自舉法將估計(jì)視為數(shù)據(jù)的近似充分統(tǒng)計(jì)量,并將自舉分布視為數(shù)據(jù)抽樣分布的近似值。
同時(shí),由于自舉法的普遍性和簡單的計(jì)算實(shí)現(xiàn),讓它能夠應(yīng)用在那些無法使用傳統(tǒng)解析近似的場景,從而獲得了極大的影響力。
在置換測試中,重采樣數(shù)據(jù)集是通過隨機(jī)打亂目標(biāo)值來打破預(yù)測變量和目標(biāo)之間的(可能的)依賴關(guān)系來生成的。
參數(shù)自舉、先驗(yàn)和后驗(yàn)預(yù)測檢查和基于模擬的校準(zhǔn)都是從一個(gè)模型中創(chuàng)建復(fù)制的數(shù)據(jù)集,而不是直接從數(shù)據(jù)中重新取樣。
在分析復(fù)雜的模型或算法時(shí),從已知的數(shù)據(jù)生成機(jī)制中取樣通常被用來創(chuàng)建模擬實(shí)驗(yàn),以補(bǔ)充或取代數(shù)學(xué)理論。
3. 超參數(shù)化模型和正則化(overparameterized models and regularization)
統(tǒng)計(jì)學(xué)一個(gè)主要的變化是使用一些正則化程序來擬合具有大量參數(shù)的模型,從而獲得穩(wěn)定的估計(jì)和良好的預(yù)測。
這是為了在獲得非參數(shù)或高度參數(shù)化方法的靈活性的同時(shí),避免過度擬合問題。其中,正則化可以作為參數(shù)或預(yù)測曲線上的懲罰函數(shù)來實(shí)現(xiàn)。
模型的早期案例包括:馬爾可夫隨機(jī)場、樣條曲線和高斯過程、分類和回歸樹 、神經(jīng)網(wǎng)絡(luò)、小波收縮、最小二乘法的替代方案以及支持向量機(jī)。
貝葉斯非參數(shù)先驗(yàn)在無限維概率模型族上也有了巨大的發(fā)展, 這些模型都有一個(gè)特點(diǎn),就是隨著樣本量的擴(kuò)大而擴(kuò)大,而且參數(shù)并不總是有直接的解釋,而是一個(gè)更大的預(yù)測系統(tǒng)的一部分。
4. 貝葉斯多級(jí)模型(Bayesian multilevel models)
多級(jí)或分層模型具有因組而異的參數(shù),使模型能夠適應(yīng)集群抽樣、縱向研究、時(shí)間序列橫截面數(shù)據(jù)、薈萃分析和其他結(jié)構(gòu)化設(shè)置。
多級(jí)模型可以被視為貝葉斯模型,因?yàn)樗鼈儼ㄎ粗獫撛谔卣骰蜃兓瘏?shù)的概率分布。相反,貝葉斯模型有一個(gè)多層次結(jié)構(gòu),具有給定參數(shù)的數(shù)據(jù)和給定超參數(shù)的參數(shù)的分布。
同樣,貝葉斯推斷不僅作為一種將先驗(yàn)信息與數(shù)據(jù)相結(jié)合的方式,而且也可以作為一種為推斷和決策考慮不確定性的方式。
5. 通用計(jì)算算法(generic computation algorithms)
創(chuàng)新統(tǒng)計(jì)算法是在統(tǒng)計(jì)問題結(jié)構(gòu)的背景下發(fā)展的。EM算法、吉布斯采樣、粒子濾波器、變分推理和期望傳播以不同的方式利用統(tǒng)計(jì)模型的條件獨(dú)立結(jié)構(gòu)。
梅特羅波利斯-黑斯廷斯算法和哈密頓蒙特卡羅較少受到統(tǒng)計(jì)問題的直接影響,它們與早期采用優(yōu)化算法計(jì)算最小二乘和最大似然估計(jì)的方式相似。
被稱為近似貝葉斯計(jì)算的方法通過模擬生成模型,而不是評(píng)估似然函數(shù)來獲得后驗(yàn)推斷,如果似然的分析形式難以解決或計(jì)算成本很高,那么就可以使用這種方法。
6. 自適應(yīng)決策分析(adaptive decision analysis)
通過效用最大化、錯(cuò)誤率控制和經(jīng)驗(yàn)貝葉斯分析,以及在貝葉斯決策理論和錯(cuò)誤發(fā)現(xiàn)率分析中,可以看出適應(yīng)性決策分析的發(fā)展。
統(tǒng)計(jì)決策分析的一些重要發(fā)展涉及貝葉斯優(yōu)化和強(qiáng)化學(xué)習(xí),它們與 A/B 測試實(shí)驗(yàn)設(shè)計(jì)的復(fù)興有關(guān)。
算力的發(fā)展,使得用高斯過程和神經(jīng)網(wǎng)絡(luò)等參數(shù)豐富模型作為函數(shù)先驗(yàn),并執(zhí)行大規(guī)模強(qiáng)化學(xué)習(xí)成為可能。例如創(chuàng)建AI來控制機(jī)器人,生成文本,并玩圍棋等游戲。
這項(xiàng)工作大部分都是在統(tǒng)計(jì)之外完成的,使用的方法包括非負(fù)矩陣分解、非線性降維、生成對(duì)抗網(wǎng)絡(luò)以及自編碼器,而這些都是用于查找結(jié)構(gòu)和分解的無監(jiān)督學(xué)習(xí)方法。
7. 魯棒性推斷(robust inference)
魯棒性的概念是現(xiàn)代統(tǒng)計(jì)學(xué)的核心,它的意義在于即使模型的假設(shè)不正確,也依然可以被使用。
統(tǒng)計(jì)理論的一個(gè)重要部分就是開發(fā)在違反這些假設(shè)的情況下運(yùn)行良好的模型。
一般而言,魯棒性在統(tǒng)計(jì)研究中的主要影響不在于特定方法的開發(fā),而在于統(tǒng)計(jì)程序的評(píng)估,其中數(shù)據(jù)-生成過程不屬于擬合概率模型的類別。
研究人員對(duì)魯棒性的擔(dān)憂與作為現(xiàn)代統(tǒng)計(jì)數(shù)據(jù)特征的密集參數(shù)化模型相關(guān),這將對(duì)更普遍的模型評(píng)估產(chǎn)生影響。
8. 探索性數(shù)據(jù)分析(exploratory data analysis)
探索性數(shù)據(jù)分析強(qiáng)調(diào)漸近理論的局限性以及開放式探索和交流的相應(yīng)好處。這符合統(tǒng)計(jì)建模的觀點(diǎn),也就是更側(cè)重于發(fā)現(xiàn)而不是固定假設(shè)的檢驗(yàn)。
計(jì)算的進(jìn)步使從業(yè)者能夠快速構(gòu)建大型復(fù)雜模型,從而導(dǎo)致統(tǒng)計(jì)圖形的思想有助于理解數(shù)據(jù)、擬合模型和預(yù)測之間的關(guān)系。
總結(jié)
由于建模的需求不可避免地隨著計(jì)算能力的增長而增長,因此分析性的總結(jié)和近似的價(jià)值也是如此。
同時(shí),統(tǒng)計(jì)理論可以幫助理解統(tǒng)計(jì)方法的工作原理,數(shù)學(xué)邏輯可以激發(fā)數(shù)據(jù)分析的新模型和方法。
作者認(rèn)為這些方法開啟了對(duì)統(tǒng)計(jì)的新思考方式和數(shù)據(jù)分析的新方法。
反事實(shí)框架將因果推斷置于統(tǒng)計(jì)或預(yù)測框架內(nèi),在該框架中,可以根據(jù)統(tǒng)計(jì)模型中未觀察到的數(shù)據(jù)精確定義和表達(dá)因果估計(jì),并與調(diào)查抽樣和缺失數(shù)據(jù)插補(bǔ)中的思想聯(lián)系起來。
自舉法打開了一種隱式非參數(shù)建模形式的大門。可用于復(fù)雜調(diào)查、實(shí)驗(yàn)設(shè)計(jì)和其他無法進(jìn)行分析計(jì)算的數(shù)據(jù)結(jié)構(gòu)的偏差校正和方差估計(jì)。
過參數(shù)化模型和正則化基于從數(shù)據(jù)中估計(jì)其參數(shù)的能力來形式化和概括了現(xiàn)有的限制模型大小的做法,這與交叉驗(yàn)證和信息標(biāo)準(zhǔn)有關(guān)。其中,正則化允許用戶在模型中包含更多的預(yù)測變量,而不必?fù)?dān)心過度擬合。
多級(jí)模型形式化了從數(shù)據(jù)中估計(jì)先驗(yàn)分布的「經(jīng)驗(yàn)貝葉斯」技術(shù),在更廣泛的問題類別中使用具有更高計(jì)算和推理穩(wěn)定性的方法。
通用計(jì)算算法使應(yīng)用從業(yè)者能夠快速擬合用于因果推理、多級(jí)分析、強(qiáng)化學(xué)習(xí)和許多其他領(lǐng)域的高級(jí)模型,從而對(duì)統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)中的核心思想產(chǎn)生更廣泛的影響。
自適應(yīng)決策分析將最優(yōu)控制的工程問題與統(tǒng)計(jì)學(xué)習(xí)領(lǐng)域聯(lián)系起來,遠(yuǎn)遠(yuǎn)超出了經(jīng)典的實(shí)驗(yàn)設(shè)計(jì)。
魯棒性推斷允許對(duì)不同程序進(jìn)行正式評(píng)估和建模的方式來構(gòu)建這些問題,以處理對(duì)異常值和模型錯(cuò)誤指定的其他模糊問題,而魯棒推理的想法為非參數(shù)估計(jì)提供了信息。
探索性數(shù)據(jù)分析將圖形技術(shù)和發(fā)現(xiàn)推向了統(tǒng)計(jì)實(shí)踐的主流,使用這些工具來更好地理解和診斷適合數(shù)據(jù)的新的復(fù)雜概率模型類別的問題。
作者介紹
Andrew Gelman 是哥倫比亞大學(xué)統(tǒng)計(jì)學(xué)教授。他曾獲得美國統(tǒng)計(jì)學(xué)會(huì)杰出統(tǒng)計(jì)應(yīng)用獎(jiǎng)、統(tǒng)計(jì)學(xué)會(huì)主席理事會(huì)40歲以下杰出貢獻(xiàn)獎(jiǎng)。