Science最新:用機(jī)器學(xué)習(xí)建模人類的風(fēng)險(xiǎn)認(rèn)知
人類做決定的過程有時(shí)既復(fù)雜又看似武斷ーー盡管如此,心理學(xué)家仍希望更好地理解這一過程,以便更好地預(yù)測人們在復(fù)雜情況下可能做出的各種決定。隨著人機(jī)互動(dòng)越來越頻繁,預(yù)測人類如何進(jìn)行風(fēng)險(xiǎn)決策,變的不僅是認(rèn)知科學(xué)的目標(biāo),更具有實(shí)際意義和價(jià)值。6月發(fā)表于 Science 的一篇論文,通過大規(guī)模實(shí)驗(yàn)和機(jī)器學(xué)習(xí),挖掘了人類決策理論。該研究使用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)海量風(fēng)險(xiǎn)決策數(shù)據(jù),不僅重現(xiàn)了風(fēng)險(xiǎn)決策領(lǐng)域的已有研究,更在此基礎(chǔ)上發(fā)現(xiàn)了一個(gè)預(yù)測更精確的風(fēng)險(xiǎn)決策模型。該研究通過對人類行為進(jìn)行分析,可進(jìn)行自動(dòng)化建模,指出了復(fù)雜性科學(xué)和認(rèn)知科學(xué)、社會(huì)科學(xué)結(jié)合的一種方向。
論文標(biāo)題:
Using large-scale experiments and machine learning to discover theories of human decision-making
論文地址:
https://science.sciencemag.org/content/372/6547/1209
1. 用前景理論解釋風(fēng)險(xiǎn)決策
盲盒最近幾年變得越來越流行,為何人們會(huì)偏好不確定性,例如你面對30%的概率獲得100元的商品的盲盒A,以及80%概率獲得50元商品的盲盒B,為何有人愿意選擇第一種,哪怕其預(yù)期收益更低。
諾貝爾經(jīng)濟(jì)學(xué)將得主Kahneman和Tversky在1979年提出了前景理論 (Perspect theory) ,通過非線性折現(xiàn),解釋了為何人在面對“失”時(shí)變得風(fēng)險(xiǎn)追求,而面對“得”時(shí)卻表現(xiàn)出風(fēng)險(xiǎn)規(guī)避。前景理論在經(jīng)濟(jì)建模、心理學(xué)、神經(jīng)科學(xué)、商業(yè)分析等領(lǐng)域中影響深遠(yuǎn),通過對消費(fèi)者選擇的建模,該理論可以幫助政策制定者找出能夠提升個(gè)人及社會(huì)福祉的策略。
然而是在接下來的幾十年里,隨著幾十種相互競爭的理論不斷涌現(xiàn)出來,風(fēng)險(xiǎn)決策的模型間開始自相矛盾:每個(gè)理論都被證明是不完整的。提出新理論的研究人員通常會(huì)在諸如感知、注意力、記憶、情感等問題上做出復(fù)雜的假設(shè),之后在小數(shù)據(jù)樣本而非更大的數(shù)據(jù)集上重現(xiàn)。
之所以有這么多相互競爭的理論,是因?yàn)槿祟惖臎Q策行為是復(fù)雜的,而且每個(gè)理論通常只能從不斷增長的假設(shè)清單中選擇一些,解釋部分場景下的風(fēng)險(xiǎn)決策現(xiàn)象。由于上述多樣性和復(fù)雜性,對于最佳決策理論或模型的共識仍然很少,在其整體預(yù)測能力方面也沒有什么收獲。
但模型的好壞,還需要比較模型基于的數(shù)據(jù)和其對大樣本決策數(shù)據(jù)的預(yù)測是否有明顯差異,就如同機(jī)器學(xué)習(xí)的模型要在訓(xùn)練集和測試集上表現(xiàn)一致,才可確定沒有發(fā)生過擬合。如此,心理學(xué)家提出的假設(shè),可以作為優(yōu)化問題中的約束條件,或者歸納偏差 (inductive bias) ,看看增加后是否有助于模型的預(yù)測能力,決定要不要增加這一假設(shè)。
2. 機(jī)器學(xué)習(xí)如何對風(fēng)險(xiǎn)決策建模
該研究首先利用亞馬遜的 Mechanical Turk 眾包平臺,收集了超過1萬個(gè)場景下,如圖1所示的、涉及概率的風(fēng)險(xiǎn)決策,這遠(yuǎn)遠(yuǎn)超過了以往研究中風(fēng)險(xiǎn)決策的數(shù)據(jù)。
圖1. 風(fēng)險(xiǎn)決策的某個(gè)場景示例
每一個(gè)風(fēng)險(xiǎn)決策的場景,都可以通過一組風(fēng)險(xiǎn)和收益的向量描述;之后通過t-SNE降維,可以將所有1萬個(gè)場景可視化。如圖2所示,其中綠色代表歷史中類似場景下的數(shù)據(jù),紅色代表之前最大的單一數(shù)據(jù)集,而黑點(diǎn)代表該研究用到的數(shù)據(jù)集。相比紅點(diǎn),黑點(diǎn)的數(shù)目是其30倍,且分布更均勻,更能反映風(fēng)險(xiǎn)決策本身的多樣性。
圖2. 一萬個(gè)風(fēng)險(xiǎn)決策場景降維后的可視化
人類所有可能的風(fēng)險(xiǎn)認(rèn)知函數(shù),如圖3所示,其中最簡單的預(yù)期收益 (Expect Value) ——可以看成是預(yù)期效益 (Expect Utility) 的特例,而前景理論則是采用了非線性函數(shù)的預(yù)期收益。如此,可以將所有的風(fēng)險(xiǎn)認(rèn)知的包含關(guān)系及通用程度用圖3展示,其中的BEAST 代表 Best Estimate and Sampling Tools,是該研究找到的最好的預(yù)測模型。
圖3. 風(fēng)險(xiǎn)認(rèn)知模型的包含關(guān)系示意圖
將認(rèn)知模型的假設(shè),轉(zhuǎn)換為神經(jīng)網(wǎng)絡(luò)中的約束。如圖4所示,例如基于預(yù)期收益的模型,每種效益函數(shù),可以用一個(gè)一個(gè)的神經(jīng)網(wǎng)絡(luò)來表示,之后通過全連接層的組合使得最終的預(yù)測模型中,可由梯度下降優(yōu)化的函數(shù)。
圖4. 預(yù)期效益假設(shè)下的神經(jīng)網(wǎng)絡(luò)模型架構(gòu)
3. 不同假設(shè)對應(yīng)神經(jīng)網(wǎng)絡(luò)預(yù)測性能不同
如果一個(gè)神經(jīng)網(wǎng)絡(luò)模型能夠在特定場景下預(yù)測出的選擇,和實(shí)際中人類的預(yù)測有50%以上的概率重合,那么說明該模型能夠預(yù)測該場景 。對比訓(xùn)練輪次和均方誤差,可以判斷不同的心理學(xué)理論對應(yīng)的模型,在1000個(gè)未知場景組成的測試集上的準(zhǔn)確性。
圖5. (左圖)預(yù)期效益框架下,神經(jīng)網(wǎng)絡(luò)(藍(lán)線)模型在測試數(shù)據(jù)集上隨著訓(xùn)練輪數(shù)下降;(右圖)神經(jīng)網(wǎng)絡(luò)學(xué)到的對收益和效用的 對應(yīng)函數(shù)
相比預(yù)期效益,前景理論指出人們看待不同的概率時(shí),也會(huì)有非線性的認(rèn)知 ,因此圖5最右方的主觀概率效應(yīng),并不像之前那樣是直線,而由于引入了這個(gè)額外的假設(shè),使得模型的預(yù)測更加精確,具體見圖6。
圖6. 前景理論的預(yù)測誤差(左圖)和效用和主觀概率函數(shù)(右圖)
之前的模型中,假設(shè)獎(jiǎng)勵(lì)的多少,和主觀概率是相互獨(dú)立的,不會(huì)因?yàn)槭找媸且蝗f,人們就會(huì)將千分之一的概率,在主觀上看成是百分之一,但是基于環(huán)境的模型放松了這一假設(shè)。其假設(shè)V(A) = ∑ i∈A u(x i , c 1 ) π (p i , c 2 ) ,其中每個(gè)選項(xiàng)的效用取決于當(dāng)前場景中的其它選項(xiàng),而對概率的主觀認(rèn)知,取決于概率對應(yīng)的收益。當(dāng)進(jìn)行效用估計(jì)時(shí),如只依賴于當(dāng)前場景,這樣的模型稱之為單次賭博模型 (intra-gample) ,如果依賴于其它的場景,稱為多次賭博模型 (inter-gamble) ,如果不僅僅效用函數(shù)是場景相關(guān)的,對概率的主觀估計(jì)也是,那么稱之為Inter gamble prob/outcome 模型。
圖7. 不同的基于神經(jīng)網(wǎng)絡(luò)的模型,以及傳統(tǒng)認(rèn)知科學(xué)模型對風(fēng)險(xiǎn)決策的預(yù)測誤差對比
通過圖7的對比,可以發(fā)現(xiàn)相比傳統(tǒng)認(rèn)知科學(xué)提出的模型,基于神經(jīng)網(wǎng)絡(luò)訓(xùn)練的模型,相比傳統(tǒng)模型預(yù)測效果更好, 這說明神經(jīng)網(wǎng)絡(luò)可以重現(xiàn)并超越已有的心理學(xué)研究 ,其次通過指出預(yù)測誤差最低的模型,即更為復(fù)雜的Inter gamble prob/outcome 模型,說明了 人類的風(fēng)險(xiǎn)認(rèn)知本質(zhì)上是極為復(fù)雜的, 不能歸因于簡單的假設(shè) 。雖然大部分場景可以看成是主觀概率和主觀效用的乘積,但也應(yīng)當(dāng)考慮不同場景下的相對比較,以及概率和收益之間的相互依賴。
4. 混合模型具有更好的預(yù)測能力
人們面對風(fēng)險(xiǎn)決策時(shí),時(shí)常會(huì)設(shè)想大腦中有兩個(gè)小人在相互斗嘴。這對應(yīng)的是混合模型,即每個(gè)人有多組一一對應(yīng)的主觀概率和效用函數(shù) (策略) ,之后按照特定的場景,有偏好的隨機(jī)選擇某一組策略,隨機(jī)選擇使用那組進(jìn)行判斷。研究指出, 使用混合模型,預(yù)測效果和使用基于場景的模型,其最終預(yù)測誤差相近,說明混合模型能夠包含基于場景模型中的信息 ,同時(shí)由于該模型的簡單,其在訓(xùn)練初期的表現(xiàn)更佳。
圖8. 混合模型的預(yù)測效果(左圖)效用函數(shù)示意(右圖)
圖8中神經(jīng)網(wǎng)絡(luò)學(xué)到的混合模型中對應(yīng)的效用函數(shù)和主觀概率。值得注意的是,一個(gè)策略中習(xí)得效用函數(shù)顯然是損失厭惡的,而對應(yīng)的主觀概率則如同前景理論預(yù)測的,對小概率的時(shí)間高估,而低估了大概率時(shí)的確定性,而另一個(gè)策略則是基本理性的。通過找出在什么場景下,人們會(huì)選擇理性的策略:什么時(shí)候人們會(huì)如前景理論預(yù)測的,什么時(shí)候選擇不理性的策略,研究者能夠更好地理解人類風(fēng)險(xiǎn)決策時(shí),哪些因素的影響最大。
究竟哪些因素決定了人們的策略選擇,研究者發(fā)現(xiàn)最重要的因素是不同選項(xiàng)收益之間的差異度,最大收益和最小收益,以及選項(xiàng)中有多少是負(fù)面收益。即如果面對1元和一萬元這樣懸殊的差異,或者面對大多要失去的選項(xiàng)時(shí),人們這時(shí)容易表現(xiàn)的不理性。圖9展示了對所有場景可視化后,不同場景下選擇不理性的主觀概率函數(shù)和效用函數(shù)的可能性,圖9-E中的藍(lán)色點(diǎn),則是不理性的選項(xiàng)占據(jù)主導(dǎo)的場景。
圖9. 風(fēng)險(xiǎn)決策場景二維聚類后,不同選項(xiàng)對應(yīng)的選擇概率設(shè)色熱圖
5. 總結(jié)
通過訓(xùn)練深度學(xué)習(xí)模型,來預(yù)測人類在這些問題中的選擇,訓(xùn)練好的模型可以非常高的準(zhǔn)確率模擬人類的決策”,大大優(yōu)于現(xiàn)有的模型。 這并不意味著心理學(xué)家和行為經(jīng)濟(jì)學(xué)者的工作會(huì)被機(jī)器取代,我們?nèi)匀恍枰祟愋闹牵?nbsp;來解釋深度學(xué)習(xí)模型所代表的意義,將其轉(zhuǎn)換為描述性的理論。 傳統(tǒng)模型只在特定數(shù)據(jù)集下表現(xiàn)得比機(jī)器學(xué)習(xí)得出的模型更佳,但在海量數(shù)據(jù)集下則表現(xiàn)欠佳,而大型數(shù)據(jù)集與機(jī)器學(xué)習(xí)相結(jié)合算法為揭示新的認(rèn)知和行為現(xiàn)象提供了前所未有的巨大潛力。
在學(xué)習(xí)模仿人類決策的過程中,神經(jīng)網(wǎng)絡(luò)重現(xiàn)了許多已知的認(rèn)知科學(xué)理論,例如前景理論。由于深度學(xué)習(xí)的模型靈活性高,使得研究者能夠找到關(guān)于風(fēng)險(xiǎn)認(rèn)知的全新洞見。因此,未來的認(rèn)知科學(xué),需要更多的使用機(jī)器學(xué)習(xí)去進(jìn)行自動(dòng)化建模,也需要實(shí)驗(yàn)室場景之外的更多真實(shí)數(shù)據(jù)集,例如盲盒的銷售數(shù)據(jù)等。