到底什么時(shí)候不應(yīng)該使用機(jī)器學(xué)習(xí)?
大數(shù)據(jù)文摘出品
來(lái)源:towardsdatascience
作者:lin、Andy
對(duì)于什么時(shí)候應(yīng)該使用機(jī)器學(xué)習(xí)/AI,很多人都會(huì)遲疑和顧慮,而作者正是因?yàn)榻?jīng)歷了種種顧慮后,將經(jīng)驗(yàn)總結(jié)成這篇文章,文摘菌編譯了這篇文章,希望大家能夠減少顧慮,更好地與機(jī)器學(xué)習(xí)或AI一起暢享學(xué)習(xí)之旅。
試想一下,你剛準(zhǔn)備對(duì)一個(gè)臨床試驗(yàn)的數(shù)據(jù)集上手進(jìn)行分析一下。為了讓你有帶入感,我自己做了一份類似數(shù)據(jù):
假設(shè)這些數(shù)據(jù)列出了患者在60天的療程內(nèi),所接受的治療天數(shù)(輸入特征)以和某某療法正確劑量(輸出預(yù)測(cè))之間的對(duì)應(yīng)關(guān)系。
現(xiàn)在想象一下你正在治療一個(gè)病人,今天是第二天,那么你會(huì)建議服用多少劑量的藥物呢?
你肯定會(huì)回答“17毫克”,因?yàn)檫@個(gè)太簡(jiǎn)單了,白紙黑字直接寫著。那第四天呢?看看表,41毫克?完全正確!
那么現(xiàn)在,如果讓你寫一個(gè)軟件來(lái)輸出1-5天的正確劑量呢?你會(huì)用機(jī)器學(xué)習(xí)嗎?換句話說(shuō),你會(huì)試著先在這些數(shù)據(jù)中尋找模式,然后轉(zhuǎn)化成從輸入到輸出的模型嗎?
不會(huì),當(dāng)然不會(huì),傻子才會(huì)!你會(huì)讓軟件像你前面做的一樣:直接去表里查結(jié)果就行。這樣你就能100% 得到在所有60天內(nèi)的正確答案。不需要尋找模式也不需要什么機(jī)器學(xué)習(xí)。
哪種情況下你需要機(jī)器學(xué)習(xí)
比如現(xiàn)在,是第61天如何?正確答案是什么呢?
那么首先,我們從來(lái)沒(méi)見(jiàn)過(guò)第61天的數(shù)據(jù),因此無(wú)法查找答案。那怎么辦呢?怪運(yùn)氣不好沒(méi)第61天數(shù)據(jù)嗎?還是給目光投向機(jī)器學(xué)習(xí)?那也就還要看情況了。
如果輸入輸出之間沒(méi)有什么模式可言的話,就忘掉機(jī)器學(xué)習(xí)吧。在這樣的案例中,它基本上很難發(fā)揮作用...如果你覺(jué)得機(jī)器學(xué)習(xí)可以處理的話,那還是盡早放棄這個(gè)想法吧!
那什么情況下可以考慮機(jī)器學(xué)習(xí)呢?
第一,必須找到有用的模式:如果數(shù)據(jù)里有一個(gè)模式(說(shuō)如果),而且能發(fā)現(xiàn)它,那就可以嘗試用它預(yù)測(cè)或猜測(cè)第61天的結(jié)果。這樣機(jī)器學(xué)習(xí)就有用。
第二,模式必須能泛化:現(xiàn)在問(wèn)題是,光是數(shù)據(jù)里有一個(gè)模式還不夠,太簡(jiǎn)單了。我們還要知道,該模式在60天之后還能適用嗎。如果第61天的條件完全不同,導(dǎo)致模式不能泛化怎么辦?因?yàn)槟阋溃苍S在第61天所有患者就已治愈或死亡,或開(kāi)始服用不相容藥物。那么這時(shí),在之前數(shù)據(jù)中發(fā)現(xiàn)的模式就不會(huì)太有用。
第三,非平穩(wěn)世界:如果你的數(shù)據(jù)并不能很好的反應(yīng)未來(lái)—也許因?yàn)橐粓?chǎng)大流行改變了世界的一些運(yùn)行規(guī)則,那么之前獲得的數(shù)據(jù)再好也沒(méi)什么價(jià)值。如果你生活在宇宙中一個(gè)不穩(wěn)定的角落,那你就很難驗(yàn)證一般所說(shuō)的遍歷性和平穩(wěn)性假設(shè),翻譯成人話就是“我相信規(guī)則并沒(méi)有什么改變。”
這里,我說(shuō)的不穩(wěn)定并非旁人眼中所謂的不穩(wěn)定現(xiàn)象,例如通貨膨脹導(dǎo)致的物品平均價(jià)格隨時(shí)間的波動(dòng)。這種簡(jiǎn)單的不穩(wěn)定性(隨時(shí)間變化的可預(yù)測(cè)函數(shù))是時(shí)序分析領(lǐng)域處理的問(wèn)題。
其實(shí)我想談的是,那種你幾乎束手無(wú)策的極端不穩(wěn)定性,因?yàn)橄到y(tǒng)規(guī)則從本質(zhì)上改變,所以無(wú)法從一個(gè)周期去預(yù)測(cè)下一個(gè)。如果你過(guò)去的數(shù)據(jù)突然無(wú)法適用不確定的未來(lái),你也就很難坦然地用昨天去預(yù)測(cè)明天。
也許你運(yùn)氣很好。
如果現(xiàn)在有一個(gè)模式,而且這個(gè)模式適用于新條件,那么就可以直接開(kāi)干了。先通過(guò)已有數(shù)據(jù)去找到這個(gè)模式,做出一個(gè)模型,之后用它去獲取第61以及之后每天的數(shù)據(jù)!
尋找模式并使用它們,這就是所謂的機(jī)器學(xué)習(xí)。
何時(shí)使用機(jī)器學(xué)習(xí)
在應(yīng)用機(jī)器學(xué)習(xí)和AI時(shí),你不是單純重復(fù)之前見(jiàn)過(guò)的例子—這根本不用機(jī)器學(xué)習(xí)來(lái)做,只要查下表就行!記住,你是來(lái)讓模型學(xué)習(xí)的。
只是重復(fù)舊答案嗎?不,ML可以做得更好!它能在新實(shí)例上也進(jìn)行預(yù)測(cè)。
你的任務(wù)是?搭建一套可以成功泛化的解決方案,或者…放棄治療。
換句話說(shuō),如果你的解決方案不能處理之前從未見(jiàn)過(guò)的新示例,那么它就不是好的解決方案。當(dāng)然這個(gè)新示例并不用完全打破穩(wěn)定宇宙的所有規(guī)則,而只是在相關(guān)學(xué)習(xí)主題上有一些小變動(dòng)。
我們不是在鸚鵡學(xué)舌,而是需要泛化到新情況。那才是機(jī)器學(xué)習(xí)的威力和魅力。
如果你從未見(jiàn)過(guò)某個(gè)具體的數(shù)據(jù)組合(比如第61天的數(shù)據(jù)),那么如何獲得它地答案? 好吧,也許這就需要給舊模式總結(jié)成一個(gè)模型,之后用它來(lái)預(yù)測(cè)。例如,如果你從成千上萬(wàn)的動(dòng)物照片中訓(xùn)練了一個(gè)貓分類器,你可以讓它告訴你一張新照片中是否有貓,但你不應(yīng)該讓它告訴你一幅畫(huà)是否立體派風(fēng)格。
機(jī)器學(xué)習(xí)適合你嗎
如果你討厭我稱機(jī)器學(xué)習(xí)為事物標(biāo)簽器,或是另一種編寫代碼的方法,那么就讓換一種說(shuō)法吧。
機(jī)器學(xué)習(xí)是一種自動(dòng)化重復(fù)決策的方法,包括用算法從數(shù)據(jù)中尋找模式,并利用這些模式來(lái)正確處理新數(shù)據(jù)。
要了解機(jī)器學(xué)習(xí)是否適合你,我提供了三個(gè)你可能會(huì)喜歡的指南:
- 是ML / AI項(xiàng)目入門者嗎?22項(xiàng)實(shí)用檢查清單:http://bit.ly/quaesita_realitycheck
- 查找ML / AI用例的建議:http://bit.ly/quaesita_island
- ML / AI入門?從這里開(kāi)始:http://bit.ly/quaesita_dmguide
那么,存在有用的模式嗎?
如果仍舊對(duì)第61天的結(jié)果好奇?那么我可以告訴你,其實(shí)示例數(shù)據(jù)中是有一個(gè)模式地。我知道這個(gè),因?yàn)檫@是我設(shè)置的。甚至我可以向你保證,它將泛化到你能想到的最大數(shù)字再加一天,因?yàn)樵谶@個(gè)極度不穩(wěn)定的時(shí)代,我發(fā)現(xiàn)能用一個(gè)這樣能隨改變有規(guī)律變化的數(shù)據(jù)真是一個(gè)奢侈的享受,所以讓大家也奢侈一下。
對(duì)于那些喜歡挑戰(zhàn)的人,不妨試試看自己喜歡的機(jī)器學(xué)習(xí)算法能否找到這個(gè)數(shù)據(jù)中的模式?讓我知道你認(rèn)為的第61天的答案是什么。大約一周內(nèi),我會(huì)在注釋中添加用于生成這些數(shù)據(jù)的代碼,這樣你們就能知道自己是否做對(duì)了。
我也懷疑可能大部分人會(huì)通過(guò)分析的方法,而不是通過(guò)機(jī)器學(xué)習(xí)來(lái)解決。祝你好運(yùn)吧!愿最好的方法獲勝!
如果你非常想嘗試ML,那請(qǐng)別忘了按正確的順序開(kāi)始,好的方法能助你一臂之力。
相關(guān)報(bào)道:
https://towardsdatascience.com/when-not-to-use-machine-learning-or-ai-8185650f6a29
【本文是51CTO專欄機(jī)構(gòu)大數(shù)據(jù)文摘的原創(chuàng)譯文,微信公眾號(hào)“大數(shù)據(jù)文摘( id: BigDataDigest)”】