新冠這只“黑天鵝”,AI該如何“馴服”?
本文轉(zhuǎn)載自公眾號“讀芯術”(ID:AI_Discovery)
2020年注定是不平凡的一年。開年伊始的新冠疫情打亂了所有人、行業(yè)、甚至國家的節(jié)奏。
人們通常把極端異常的事件成為“黑天鵝事件”,新冠這只“黑天鵝”,不僅在爆發(fā)時讓人措手不及,人們?yōu)榱硕糁埔咔槎扇〉拇胧?,正在世界全方位的系統(tǒng)中產(chǎn)生巨大的連鎖反應,包括衛(wèi)生健康、商業(yè)、金融、交通和旅行等等。
黑天鵝事件也給機器學習模型帶來了不小的挑戰(zhàn)。ML模型基于先前觀測到的數(shù)據(jù),從而可以預測到未來的場景。然而,這些模型如今遇到的事件,和它們接受過的訓練卻大相徑庭。
以信貸和金融領域為首的許多企業(yè)組織中,運行著百余個甚至上千個實時生產(chǎn)模型,這些模型對數(shù)據(jù)做出了錯誤的決策,進而會影響接下來的業(yè)務成效。未來幾天、幾個月可能出現(xiàn)問題的模型包括信貸、房屋定價、資產(chǎn)定價、需求預測、轉(zhuǎn)換/流失模型、零售公司的供求關系、廣告定價等等。
標準模型訓練過程會在模型中給出盡可能多的數(shù)據(jù),幫助其適應通用跨事件的數(shù)據(jù)結構,預測在訓練數(shù)據(jù)中未見過的場景是困難的。而真正的黑天鵝事件正是這樣,沒法在其他事件中學習結構,靠人們?nèi)ヌ钛a數(shù)據(jù)和模型的空白。那該怎么辦?
本文將試圖給出答案。事實上,已經(jīng)有一些出色的實踐,通過對生產(chǎn)模型進行強有力的監(jiān)視、分析和故障排除來掌握離群值事件。
當前的環(huán)境有多極端?
極端到了極點了。
從天氣、失業(yè)率、交通模式、用戶支出等輸入特性數(shù)據(jù)進入生產(chǎn)模型時,你會發(fā)現(xiàn)這些數(shù)據(jù)與模型的訓練數(shù)據(jù)相差甚遠。
首先看看剛剛發(fā)布的失業(yè)率數(shù)據(jù)。申請失業(yè)人數(shù)高達328萬,比第二峰值高出4-5倍,是西格瑪事件的25倍不止。
美國就業(yè)與培訓管理局1995年至今圖表
任何使用失業(yè)數(shù)據(jù)作為輸入并依此做出決策的模型,都使用了超出預期值20個希格瑪?shù)奶卣?。而這是每10萬年才會發(fā)生一次的事件!這只是系列極端事件中的一個,并且被應用于日常商業(yè)決策的模型中而已。
模型不可能完美處理所有預期外的輸入。因此,重要的是考慮整個系統(tǒng)處理這些輸入的彈性程度,以及出現(xiàn)問題時排除故障的能力。
團隊最重要的事情是擁有可觀測的模型;不會觀測,就學不會適應。這意味著要對模型決策進行檢測和分析。
模型可觀測性要求:
- 能檢測到異常值的事件,并自動展示
- 能把離群值事件和用于排除模型故障反應的分析相聯(lián)系
很明顯,失業(yè)數(shù)據(jù)將徹底散亂分布。
再來看看汽車交通的數(shù)據(jù):
素材來源:TomTom International
上圖為紐約3月18日至3月24日的交通量,交通量已經(jīng)跌至每日交通量的20%,去往任何地方的交通量都跌為先前的1-10%。
降幅遠超預期中的日值,而這只是模型預期值的一小部分。
素材來源:TomTom International
邁阿密的交通量并沒有像紐約下降的那么多。看起來邁阿密的居民并沒有像紐約那樣積極采取隔離措施。在這種情況下,進行城市特定預測的ML模型,在使用交通量作為輸入時,會因為城市的不同而產(chǎn)生變化。
模型可觀測性要求:
- 能監(jiān)控到輸入數(shù)據(jù)的分布偏移
- 模型輸入強有力的剪切和過濾能力
從目前的表現(xiàn)看,面對冠狀病毒帶來的影響,AI并沒有做好準備。天氣預報不準確,銀行也認為人工智能模型可能無法應對市場低迷。
在極端時期建立彈性機制
對于突逢巨變的企業(yè)來說,目前正應用于生產(chǎn)的AI/ML模型所依據(jù)的訓練數(shù)據(jù),與現(xiàn)如今的情況大不相同。
當模型以前沒有經(jīng)歷過這些情況時,企業(yè)應該怎么做呢?當過去與現(xiàn)在脫節(jié),我們該如何預測未來?
圖源:unsplash
新冠狀病毒持續(xù)影響許多人類系統(tǒng),利用AI/ML的企業(yè)將不得不在其生產(chǎn)環(huán)境中建立彈性機制。模型性能會不斷波動,企業(yè)需要對生產(chǎn)模型進行實時監(jiān)控,了解模型輸入是如何變化的,以及模型在哪些方面仍有欠缺。
輸入的東西必須反應在輸出
一切要從輸入數(shù)據(jù)用于生成預測的模型開始。
如果這個罕見事件和其他極端事件有相似之處,那么就有辦法將預測結果組合,創(chuàng)建基準周期并進行分析。
如果罕見事件在輸入數(shù)據(jù)結構后,與訓練集中的任何其他數(shù)據(jù)組都沒有關系,那仍然需要監(jiān)測它是如何影響模型的。
在新冠病毒肺炎的案例中,這些場景并非單次的異常值,而是出現(xiàn)在世界各地不同城市,呈數(shù)以百萬計的快速發(fā)展趨勢,每個趨勢都有不同的時間線和反應。展開情景的規(guī)模需要大量不同的分析和檢查,跨越許多不同的預測子群。
以下是AI/ML模型在生產(chǎn)中應該具備的輸入級觀測:
- 輸入檢查,以確定特性的值和分布是否與正?;鶞手芷诖笙鄰酵?/li>
- 檢測模型最敏感的特性是否已經(jīng)發(fā)生了巨大的變化
- 檢測用于確定特性與訓練集之間的差距的統(tǒng)計數(shù)據(jù)
- 檢查單個事件或少量最近發(fā)生的事件,發(fā)現(xiàn)分布問題
圖源:unsplash
模型反應怎么樣?
了解輸入發(fā)生的變化后,接下來要監(jiān)視的就是模型如何對極端輸入做出反應。
檢查特定預測子類的模型性能,諸如能源、航空或旅游業(yè)等某些行業(yè)可能面臨的重大風險,需要針對不同的預測組進行快速的在線檢查。
利用以前產(chǎn)生最壞情況的情景和基本情況的情景,然后與結果進行比較。實時監(jiān)控收到的每個新的真實事件,獲得真實世界預測的反饋。如果由于時間滯后,無法得到真實世界的反饋,可以使用代理度量標準,這樣可以通過預測和測量來決定模型的性能。
極端環(huán)境下ML模型生產(chǎn)的優(yōu)秀實踐
在Arize人工智能,我們每天都在思考ML的可觀察性和彈性,目的就是在這個不確定的時期把我們的一些經(jīng)驗傳授給更多的團隊。
ML生產(chǎn)模型的最佳實踐離生產(chǎn)軟件的最佳實踐并不遙遠,只需構建可觀測工具,以了解當模型或軟件激活時會發(fā)生什么,在其影響客戶之前捕捉到會發(fā)生的問題。
從在許多公司部署的AI/ML模型背景來看,我們正在分享這些極端環(huán)境下生產(chǎn)ML模型的一些優(yōu)秀實踐。
1. 跟蹤和識別異常事件
這包括跟蹤輸入數(shù)據(jù)和異常事件的模型性能。在為未來的極端環(huán)境收集訓練數(shù)據(jù)時,給這些事件加注釋,篩選異常事件是大有幫助??紤]是否將異常事件包括在數(shù)據(jù)中,以便將來進行模型訓練也很重要。這個模型將積極應對未來的極端情況,但它也可能認為極端情況是新的常態(tài)。
2. 決定模型后備計劃
在過去,當模型沒有什么可以學習的時候,它在做什么?
了解模型在過去極端環(huán)境中的表現(xiàn),有利于理解模型現(xiàn)在是如何執(zhí)行的。如果模型表現(xiàn)不佳,你能根據(jù)最后的n分鐘或n天設置一些簡單的預測,并將模型表現(xiàn)與這個簡單模型進行比較嗎?
3. 尋找相似的事件
能夠觀察過去類似的事件為當前的情況建立相似的模型嗎?例如,如果模型采用了失業(yè)數(shù)據(jù)作為輸入,或許可以利用類似的經(jīng)濟衰退時的失業(yè)數(shù)據(jù),比如2008年的經(jīng)濟衰退。
4. 建立多樣化的模型組合,比較模型的性能
對外部世界做出反應的實時模型,如今可能比批量預測表現(xiàn)得更好。擁有多樣化的模型組合,使團隊能夠?qū)⒛P托阅芗奥酚闪髁?,與能夠更好應對極端環(huán)境的模型進行比較。
5. 模型性能無法改善時,了解模型預測的不確定性。
有時候可能并沒有好的模型,這種情況下,如何知道你的模型有多不確定嗎?此時,可以利用貝葉斯方法返回模型的預測及其置信水平。
監(jiān)測是最重要的。馴服“黑天鵝”,或許不是天方夜譚。