AI測出你幾歲死亡?Transformer「算命」登Nature子刊,成功預測意外死亡
AI真的可以用來科學地算命了!?
丹麥技術大學 (DTU) 的研究人員聲稱他們已經設計出一種人工智能模型,據說可以預測人們的生活中的重大事件和結果,包括每個人死亡的大致時間。文章在前兩天登上了Nature的子刊Computational Science。
圖片
作者Sune Lehmann稱,「我們使用該模型來解決一個基本問題:我們可以在多大程度上根據過去的條件和事件來預測未來的事件?」
看來作者研究的目的沒有別的,確實是想用AI來幫大家算命。
研究人員將人的生活軌跡表征為時間順序的生活事件序列,這種表征方法與自然語言具有結構相似性。
利用Transformer模型的表征學習能力,可以學習到生活事件的語義空間,并生成個體生活序列的緊湊向量表征。
研究人員利用丹麥約600萬人口的健康和勞動力數據,構建了基于Transformer的模型「life2vec」。
模型的輸入數據是個人的出生時間,地點、教育、健康狀況、職業和工資等,而輸出數據包括了「意外死亡」和「性格的細微差異」等和個人生活息息相關的內容。
圖片
研究團隊基于生活序列對個人的生活事件展開了預測,模型表現明顯優于當前其他方法。
圖片
相比于其他方法,life2vec模型對于性格的細微差異有更加優秀的預測結果
研究人員在論文中進一步指出,模型的概念空間和個體表征空間都是有意義和可解釋的,可以用來生成新假說,為個體化干預提供可能。
人的一生也許是可以預測的
人類目前正在經歷的人類預測時代的核心原因是海量數據集和強大的機器學習算法的出現。
在過去的十年里,機器學習通過訪問越來越大的數據集,使越來越復雜的模型成為可能,從而使圖像和文本處理領域發生了革命性的變化。
語言處理發展得特別快,Transformer體系結構已被證明可以成功地捕獲了大量非結構化單詞序列中的復雜模式。
雖然這些模型起源于自然語言處理,但它們捕獲人類語言中的結構的能力推廣到其他序列,這些序列與語言有著相似的屬性。
但是由于缺乏大規模數據,Transformer模型尚未應用于行業外的多模態社會經濟數據。
研究人員的數據集改變了這一點。他們的數據集的巨大體量使研究團隊能夠構建個體生命軌跡的序列級別表征,其中詳細說明了每個人如何在時間中移動。
研究人員可以在不同類型的事件中觀察個人生活是如何演變的(關于心臟病發作的信息與加薪或從城市搬到農村的信息混合在一起)。
每個序列中的時間分辨率和序列的總數都足夠大,研究人員可以有意義地應用基于transformer的模型來預測生活事件的結果。
這意味著表征學習可以應用于一個全新的領域,以發展對人類生活的進化和可預測性的新理解。
具體地說,研究人員采用了類似Bert的架構來預測人類生活的兩個非常不同的方面:死亡時間和個性細微差別。
研究人員發現,研究人員的模型可以準確地預測這些結果,在早期死亡的情況下,比目前最先進的方法高出~11%。
為了做出這些準確的預測,研究人員的模型依賴于生活中所有事件的單一公共嵌入空間-軌跡。
圖片
正如研究語言模型中的嵌入空間可以提供對人類語言的新理解一樣,研究人員可以研究嵌入空間的概念,以揭示生活事件之間的非平凡相互作用。
下面,研究人員提供了對由此產生的生活事件的概念空間的洞察,并展示了該空間和模型本身的健壯性和可解釋性。
基于Transformer的模型還產生了對個體的嵌入(語言表征中的類比是總結整個文本的矢量)。使用顯著圖和概念激活向量(TCAV)等可解釋性工具,研究人員表明個人摘要也是有意義的,并具有作為行為表型的潛力,可以改進其他個人水平的預測任務,例如,增強對醫學圖像的分析。
模型預測結果
研究人員用一種簡單的符號語言對豐富的數據進行編碼。
復雜的多源時態數據的原始數據流帶來了巨大的方法論挑戰,例如不規則的采樣率、數據的稀疏性、特征之間的復雜交互以及大量的維度。
用于時間序列分析的經典方法(例如,支持向量機,ARIMA)[42,43]變得繁瑣,因為它們具有伸縮性,不靈活,并且需要大量的數據預處理來提取有用的特征。
使用轉換方法允許研究人員避免手工制作的特征,而是以一種利用與語言的相似性的方式對數據進行編碼。具體地說,在研究人員的例子中,每一類離散特征和離散連續特征形成一個詞匯表。
這個詞匯表——連同時間的編碼——允許研究人員將每個生活事件(包括其詳細的限定信息)表征為一個由合成詞或概念符號組成的句子。
研究人員在每個事件上都附加了兩個時間指標。一個是指定個人在事件發生時的年齡,另一個是捕捉絕對時間,見下圖。
因此,研究人員的合成語言可以捕捉到這樣的信息:「2020年9月,弗朗西斯科在埃爾西諾爾的一座城堡里當警衛時收到了2萬丹麥克朗。」
或者「在寄宿中學的第三年,赫敏參加了五門選修課」。在這個意義上,一個人的生命進程被表征為一串這樣的句子,它們一起構成了個人的生命序列。
研究人員的方法允許研究人員編碼關于個人生活中事件的廣泛的詳細信息,而不犧牲原始數據的內容和結構。
life2vec模型
研究人員使用transformer模型來形成個人生活的緊湊表征。研究人員稱研究人員的深度學習模型為life2vec。
Life2vec模型基于transformer架構。由于其壓縮上下文信息的能力以及考慮時間和位置信息,Transformer非常適合表征生命序列。
Life2vec的訓練分為兩個階段。首先,研究人員通過同時使用
(1)一個遮蔽語言模型(MLM)任務,迫使模型使用標記表征和上下文信息。
(2)一個序列排序預測(SOP)任務,關注序列的時間連貫性(來訓練模型。預訓練創建了一個概念空間,并教會模型生命序列結構中的模式。
接下來,為了創建個人生命序列的緊湊表征,模型執行了一個分類任務。模型在這最后一步學習的個人總結取決于分類任務;它識別并壓縮了為給定下游任務最大化確定性的模式。
例如,當研究人員要求模型預測一個人的個性細微差別時,人物嵌入空間將圍繞著對個性貢獻的關鍵維度構建。
跨領域的準確預測
任何模型的首要測試是預測性能。life2vec不僅超越了現有的SOTA,同時還能在非常不同的領域進行分類預測。研究人員在兩個不同的任務上測試了他們的框架。
預測早期死亡率
研究人員估算一個人在2016年1月1日之后四年內存活的可能性。這是統計建模中常用的任務。此外,死亡率預測與其他健康預測任務密切相關,因此需要life2vec建模個人健康序列的發展以及勞動歷史,以成功預測正確的結果。
具體來說,給定一個序列表示,life2vec推斷出一個人在研究人員序列結束后的四年內(2016年1月1日)存活的可能性。
研究人員專注于對年輕的群體進行預測,包括30至55歲的個人,其中死亡率難以預測。
研究人員展示了使用修正的馬修斯相關系數C-MCC61,的模型的性能,該模型由于存在未標記的樣本而調整MCC值。
Life2vec比基線高出11%。請注意,增加RNN模型的大小并不能提高它們的性能。
下圖2.D還細分了各種子組的性能:基于年齡和性別的交叉組,以及基于序列長度的組。
圖片
預測個性的細微差別
死亡作為一個預測目標是明確定義的,也是非常可衡量的。
為了測試life2vec的多功能性,研究人員人員現在預測「個性細微差別」,這是測量光譜的另一端的結果,是個體內部的東西,通常可以通過問卷調查來衡量。
盡管很難測量,但個性是塑造人們思想、情感和行為并預測生活結果的重要特征。具體地說,研究人員關注內向-外向維度領域中的人格細微差別(為了簡單起見,下面是外向),因為相應的人格細微差別是上個世紀(在西方世界)出現的基本人格結構的幾乎所有綜合模型的一部分。
作為研究人員的數據集,研究人員使用了在「丹麥個性和社會行為小組」(POSAP)研究中為一大群有很大代表性的個體收集的數據。
研究人員隨機選擇一個項目(個性細微差別)每個外向方面,并預測個人水平的答案。
圖片
上圖顯示,將Life2vec應用于生命序列不僅允許研究人員預測早期死亡率,而且具有足夠的通用性,足以捕捉個性的細微差別)。
Life2vec在所有項目上的得分都高于RNN,但只有在項目2和3上差異有統計學意義。為這一特定任務而訓練的RNN也能夠提取個性周圍的信號,這一事實突顯出,盡管變壓器模型很強大,但使Life 2vec如此通用的很大一部分原因是數據集本身。
概念空間:理解概念之間的關系
研究人員方法的新奇之處在于,該算法學習包含人類生活中可能發生的所有事件的單個聯合多維空間。研究人員從可視化開始研究人員對這個空間的探索。
全局視野
圖片
在上圖中,使用PaCMAP將原始的280維概念投影到二維圖上,該圖保留了高維空間的局部和全局結構。
在這里,每個概念都根據其類型進行著色。
這種顏色清楚地表明,總體結構是根據合成語言的關鍵概念組織的:健康、工作類型等,但有有趣的細節,將出生年份、收入、社會地位和其他關鍵的人口統計信息分開。這個空間的結構是高度魯棒的,并在一系列條件下可靠地重復出現。
概念空間的精細結構是有意義的。深入挖掘全局布局,研究人員發現該模型學習了附近概念之間的錯綜復雜的關聯。
研究人員通過鄰居分析來研究這些局部結構,該分析利用原始高維表示中概念之間的余弦距離作為相似性度量。
個人摘要
的摘要是一個單一的向量,它概括了一個人的整個生活事件序列的基本方面。
個人摘要跨越了研究人員的人嵌入的空間。為了形成人的摘要,模型確定哪些方面與手頭的任務相關。從這個意義上說,人稱摘要是以特定的預測任務為條件的。下面,研究人員側重于死亡可能性的人稱摘要。
圖片
上圖可視化了個人概要的空間。
相對于死亡率預測,該模型將個體組織在從低到高的估計死亡率(D組中的點云)的連續體上。
在圖中,研究人員通過紅色菱形顯示真實的死亡,而預測的可信度通過點的半徑來表現(例如,具有小半徑的點是低置信度預測)。
此外,使用從黃色到綠色的顏色映射來顯示估計的概率。
研究人員看到,雖然區域2大多數都是老年人,但仍然看到很大一部分年輕人(圖5E),它包含一小部分真正的目標(圖5F)。
B區具有很大程度上相反的結構,大多數是年輕人,但也有相當數量的老年人(圖5E),只有一人實際死亡(圖5F)。
當研究人員查看低概率區域的實際死亡時,研究人員發現距離區域1最近的5個死亡原因如下--兩個意外,腦部惡性腫瘤,宮頸惡性腫瘤,心肌梗死。