大數(shù)據(jù)分析的三大障礙
大數(shù)據(jù)問世之后,很多企業(yè)把大數(shù)據(jù)當(dāng)成解決企業(yè)問題良方。盡管大數(shù)據(jù)同樣可依現(xiàn)代科學(xué)方法來研究和處理難解問題,但意大利科學(xué)家薩羅‧蘇奇(Sauro Succi)博士和倫敦大學(xué)學(xué)院(UCL)名譽(yù)教授彼得‧科維尼(Peter V. Coveney)指出,大數(shù)據(jù)分析仍存有三大障礙無法突破,因此雖然大數(shù)據(jù)帶來新視角,但企業(yè)卻不能把它當(dāng)成救世主。
蘇奇與科維尼于2019年發(fā)表了一篇名為《大數(shù)據(jù):科學(xué)方法的終結(jié)?(Big data: the end of the scientific method? )》[1]文章。蘇奇與科維尼認(rèn)為,我們身處的世界非常復(fù)雜,因此大數(shù)據(jù)研究方法所提出的一些主張仍需要修訂。因?yàn)樵醋杂谫だ缘摹脯F(xiàn)代科學(xué)方法」,背后存在著一些障礙,這些障礙包括:非線性(nonlinearity)、非局部性(non-locality)和高維度性(hyperdimensions),如圖1所示。

圖1 大數(shù)據(jù)分析的三大障礙 繪圖者:張琬旖
1.非線性(nonlinearity)
非線性是在理論建模時(shí),眾所周知的難題。非線性建模最典型的案例,就是氣象學(xué)里的「蝴蝶效應(yīng)(Butterfly effect)」。一只小蝴蝶在中美洲的古巴拍拍翅膀,能在美國德州引發(fā)龍卷風(fēng)嗎?(Does the Flap of a Butterfly’s wings in Brazil Set Off a Tornado in Texas?[2])
蝴蝶效應(yīng)是由美國氣象學(xué)家,也是麻省理工學(xué)院的教授愛德華‧諾頓‧羅倫茲(Edward Norton Lorenz)所提出,意思是指在一個(gè)復(fù)雜的系統(tǒng)中,一個(gè)變量的微小變化,配合背后的連鎖反應(yīng),將會(huì)對整個(gè)系統(tǒng)造成巨大的影響。而這種非線性的影響,大大限制了模型的預(yù)測能力。大數(shù)據(jù)分析可以協(xié)助解決一些非線性系統(tǒng)的問題,但許多機(jī)器學(xué)習(xí)算法的基本假設(shè),并不適合用在非線性系統(tǒng)當(dāng)中。
2.非局部性(non-locality)
非局部性則是指存在著遠(yuǎn)距離的相關(guān)性,縱使在系統(tǒng)里不同的子系統(tǒng)或是變量之間距離很遠(yuǎn),但仍然可能保有因果關(guān)系。非局部性通常「違反直覺」,畢竟一般人會(huì)認(rèn)為,越接近的事物,它們彼此之間的相互作用影響也最多。用機(jī)器學(xué)習(xí)來解決非局部性問題顯然是一個(gè)重大挑戰(zhàn)。
3.高維度性(hyperdimensions)
我們已經(jīng)習(xí)慣在三維空間上,再加上時(shí)間維度來生活。但當(dāng)維度超過三個(gè)以上,人類的認(rèn)知就會(huì)受到相當(dāng)大的限制(這時(shí)一般會(huì)透過數(shù)學(xué)來運(yùn)算)。復(fù)雜系統(tǒng)背后所探討的變量非常多,而這也造成計(jì)算維度的復(fù)雜。
蘇奇與科維尼最后指出,如果機(jī)器學(xué)習(xí)技術(shù)能夠協(xié)助克服上述三個(gè)基本障礙,那將是非常理想的,但到目前為止,幾乎沒有證據(jù)能表明大數(shù)據(jù)分析研究能有效突破以上的障礙,這需要大家持續(xù)的努力(一些例外是在天文學(xué),機(jī)器學(xué)習(xí)在天文領(lǐng)域開始獲得很大的進(jìn)展)。