大數據的結果是福是禍?
一、統計現象可能是病態(tài)的;
我們經常得到一些用戶的消費或者娛樂行為,但是這些行為可能是病態(tài)的。這里我就舉兩個病態(tài)的習慣現象作為例子說明。有些用戶具有一種病態(tài)的消費習慣,習慣于同時消費一定數量的產品,或者某種特定的產品組合。比如,有些肥胖癥病人,喜歡吃高熱量食品,當然就喜歡看到高熱量食品擺放在一起,但是這樣就無形中鼓勵了對這些用戶的不良消費習慣。另一個例子是網絡文學。現在的網絡文學可算是世界奇觀,大量的穿越,意淫小說充斥網絡。我喜歡看電子書,可是從網上很難看到像樣的新書可以閱讀,大多數還是從正規(guī)出版社進行購買紙質書閱讀。這種一味迎合特定讀者群的網絡文學現象,相當程度上進一步惡化了當前的教育生態(tài)。那些網絡文學只會傷害青少年的閱讀品味,甚至走上犯罪的道路。當我們看到了一種統計現象,我們僅僅是看到了當前的一種規(guī)律,但是這種規(guī)律是否是病態(tài)的,還是要進一步分析,我們不能因為可以利用這種規(guī)律掙錢,就可以推波助瀾。
二、統計現象可能是暫時的;
中國是在快速發(fā)展的過程中,由于歷史的原因和社會發(fā)展的階段性原因,很容易出現一窩蜂的現象,統計規(guī)律有時候表現的非常明顯。這給我們一個假象,認為這可能是社會發(fā)展的未來趨勢。但是我們忽視了中國社會的特殊性,這種特殊性在于很多消費習慣是一種補償性消費習慣,而對于補償性消費心理來說,可能是過度夸張的。比如,飲酒的習慣,在中國過去,飲酒僅僅是生活中很奢侈的一部分,因此飲酒的習慣對于身體的影響并不很大,但是現在物質豐富了,人們還按照過去的習慣進行飲酒,但是數量大大增加了,于是身體的健康受到的非常大的影響。最近我的一些朋友們陸續(xù)開始戒酒,因為他們已經發(fā)現,原來認為是友好的表現,現在可能被認為是不禮貌的,比如勸酒。還有就是房地產和汽車消費。除了投資和投機心理之外,中國人對于房子有著獨特的熱忱,其原因在于中國人還從來沒有真正擺脫居住的窘迫,于是大家都非常渴望有自己的住房。汽車也一樣,這是補償性消費的過度行為表現。假如我們去迎合這種暫時的現象,我們會助推一些病態(tài)行為,導致社會成本急劇上升,尤其是整體資本成本更為夸張。
三、統計現象可能是局部的;
有時候去吃飯,朋友會通過網上預訂,但是去吃了之后往往不如意。其主要原因在于,統計數據的來源并不是全部消費人群。喜歡上網的人群是受限制的,上網又喜歡點評的人更是其中一些樂于此事的人,他們并不能代表所有的消費群體。比如,喜歡點評吃飯的人,往往是學生和年輕的職工,他們收入少,好奇心重,因此對于這種既便宜又能品嘗到一定品味的信息來源比較喜歡,這種統計結果對于其他人群可能就完全沒有參考價值。還比如,網上有些投票活動,其結果的不可靠跟吃飯的效果一樣。我們不能說網上的統計結果沒有意義,但是也不能夸大這種只有部分代表性的結果,否則我們可能會被誤導。想到前段時間那些惡意的大V們被封殺,也是類似的現象。之所以大V們有一定的市場,還是因為我們缺少對于網絡輿論的全面認識。聽到一些號稱鼎鼎大名的一些網絡名人,我也覺得自己有點OUT了,因為作為經常使用網絡,并且自認為不那么落伍的人,居然從來就沒有注意到這些人。
四、統計現象可能是曲解的;
很多統計現象需要進一步解釋,而不能看直接的結果,這些統計結果很多都存在誤讀現象。有個例子能夠很好地證明。英國二戰(zhàn)時期跟德國進行空戰(zhàn),每次戰(zhàn)斗機回來都發(fā)現,機翼上有很多槍眼,大多數工程師認為機翼是很容易受到攻擊的地方,需要進行防護,可是增加了防護之后,發(fā)現飛機的損失率并沒有降低,反而提高了,因為增加了防護,降低了飛機的靈活性和航程。原來是曲解了那個統計規(guī)律,因為在戰(zhàn)損的飛機里面,有許多飛機沒有回來,其被擊落的真正原因并沒有被統計,因此主要問題沒有發(fā)現。相反,機翼受損還能飛回來,只能說明機翼被攻擊部分本身的影響并不大。“統計學家 Wald 建議統計飛機上彈孔(槍眼)的位置,有了足夠的樣本后,然后在沒有槍眼的部位加強防護,因為這些部位被擊中的飛機都沒有返航,最后效果很好”(參考第三樓發(fā)言補充)。這個統計結果是不可信的,至少不是最重要的因素。
五、統計現象可能是濫用的。
根據數學中的大數定律,樣本數量和范圍需要超過一定程度才能得到有價值的統計規(guī)律,樣本的數量和范圍取決于模型本身的復雜度。可是在現實中,即便是在很嚴格的科學研究領域,統計被濫用的現象處處存在。大多數情況下可能是如下景象,一個科研人員或者工作人員,得到了一批樣本,根據自己的模型或者理論假設進行簡單的統計分析,不管是定量的還是定性的,得到一個結果,于是結論就出爐了,甚至發(fā)表在了影響因子很高的雜志上。可是就我多年來參加過的答辯會或者成果介紹的過程來看,相當數量的結果是不可靠的,甚至沒有參考價值,因為那些樣本數量少的可憐。比如,對于一個復雜現象,就用幾十個樣本做一個復雜的結論,這就充滿了風險,沒有檢驗過程,沒有驗證過程,這些結果可能會大大誤導我們對于自然的認識。另外,在統計結果分析的過程中,人為的選擇樣本,人為的改造樣本,這些例子已經屢見不鮮。
根據上述觀察,即便我們進入了大數據時代,意識到數據對于決策的重要性,這是好事,但是如果不能意識到數據本身帶來的種種問題,那就無從談起如何使用。即便是統計結果有一定的參考價值,我們也不能一味的迎合這些所謂的習慣和趨勢,因為這些習慣和趨勢可能將我們引入一個不可持續(xù)的發(fā)展過程。從國家層面鼓勵科學使用大數據結果的研究是非常必要的。個人或者商業(yè)團體往往會傾向于自我或者本組織的利益,不大會真正從社會總成本和總的發(fā)展健康度角度看問題。這些負面影響的研究是一種公益事業(yè),只能是政府牽頭來主導,并且有意識的引導這種現象。對于一些沒有經過科學驗證的統計結果進行甄別和檢驗。但當我們看到一種規(guī)律或者現象,我們能夠科學的判斷這種規(guī)律是否為病態(tài)的,還是暫時的,還是局部的,還是被曲解的,還是被濫用的結果,是非常必要的。在當前迎合為主的情況下,不會有好的結果,在大多數情況下,統計結果可能給我們帶來的不是商業(yè)機會,而是危險的前兆。誤導性的統計結果甚至會引起不必要的社會心理暗示,從而產生嚴重的社會大眾效果。也許大數據統計分析的第三方檢驗會是未來的一個很重要的商業(yè)機會。