狐貍,貝葉斯與大數據的思維方式
假設擲出一枚硬幣,正面朝上的概率是50%,如果連續99次投擲硬幣都是正面朝上落地,那么下一次投擲硬幣正面朝上落地的概率是多少?這是Taleb在《黑天鵝》一書中給出的一個假想的問題。在Taleb的書中,受過正統教育的約翰博士給出了教科書教給我們的標準回答,下一次投擲硬幣正面朝上落地的概率仍然為50%,因為下一次硬幣朝向與之前投擲的結果無關。而教育背景沒有那么光鮮的胖托尼則認為下一次投擲硬幣正面朝上的概率為99%。孰對孰錯?我和讀者都不妨給出自己的判斷。而如果一定要為自己的答案下一萬塊錢的賭注的話,我和Taleb一樣,更傾向于與不是那么教條的胖托尼保持一致,更傾向于相信下一次硬幣正面朝上的幾率為99%,更傾向于相信我之前的有關正面朝上落地的概率是50%的假設是錯誤的。
2012年,“大數據”是一個抓住了上到國家政要下到普通老百姓眼球的熱詞。隨著技術的進步,數據獲取成本、數據存儲與處理成本都在以指數的速度迅速下降,普通老百姓都能感覺到數據將對人們的生活產生至關重要的影響。雖然,人們談大數據時往往都會談及利用Hadoop等新興技術對海量數據處理等技術問題,也會談及Facebook、Google等公司所處理的PB級別數據的問題。但是,正如周濤教授所言,大數據的核心問題在于預測。電子商務網站通過數據預測顧客是否會購買推薦的產品;信貸公司通過數據預測借款人是否會違約;執法部門用大數據預測特定地點發生犯罪的可能性;交通部門利用數據預測交通流量。但是,預測不是大數據時代才有的新問題,它是人類本能的一部分。心理學家認為,對世界一致性觀點的需求以及對環境控制力的需求是人類的兩個基本需求,而在此基本需求驅動下,人類像“樸素的科學家”(na?ve scientist)一樣行為,理性地合乎邏輯地驗證自己關于世界的假設。即使原始人通過他的切身體會也可以知道,如果將手伸到火中將會被燙傷。這樣,原始人根據其直接經驗可以構建關于火與燙傷之間關系的關聯模型。數字是人類直接感覺的延伸,正如麥克盧漢所說,“數字是我們最親密的、相互關系最密切的(觸覺)的延伸與分離……古代世界不可思議地將數字與物質實體的性質聯系在一起,與事物的因果關系聯系在一起……科學始終傾向于將一切客體量化……(數字是)我們的中樞神經系統在電力時代的延伸。”而未來無所不在的傳感器將構成地球的中樞神經系統(Central Nervous System for the Earth CeNSE)。這個地球的中樞神經系統使得人們能夠超越其直接體驗,感知到來自地球每個角落的訊息,這些形式多樣的、海量的、快速的(Variety、Volume、Velocity)信息流將構成大數據時代的主要特征。而人們將基于這些信息理解世界,構建與驗證關于世界的新的假設,并以此為基礎進行預測,并采取行動。
但是,與科學研究中以求真為目的的構建模型不同,大數據時代的模型構建將更加以務實為目的,即遵循統計學家George E. P. Box的觀點“本質而言,所有模型都是錯誤的,只是有些模型更有用”(Essentially, all models are wrong, but some are useful)。大數據時代的很多模型都是為了指導商業決策而設的,而商業決策通常會影響決策者的利益。所以,一個模型是否正確不是最重要的,重要的是決策者對這個模型有多大的把握,決策者能否從這個模型中獲利。所以,大數據時代中最為關鍵的應該是基于數據的模型能否說服決策者據此進行決策,并且幫助決策者改善決策賺取相應的利潤。前者表現為決策者愿意將多少錢押在這個模型上,而后者表現為這個模型在現實中的表現如何。所以,如果讓讀者你參加本文開始所設計的假想賭局,無論約翰博士看起來多么專業也不能阻止讀者更相信胖托尼的模型,因為畢竟這涉及到真金白銀。胖托尼也許在最初和約翰博士一樣,相信硬幣正反面朝上面落地的概率各是50%。既然所有模型都是錯的,但是胖托尼能夠利用他所觀察到的硬幣一次次正面朝上落地的事實修訂他的模型,使其越來越接近真實情況。而約翰博士仍然抱殘守缺,固守著他的50%的最初假設。
以賽亞*伯林(Isaish Berlin)曾經援引古希臘詩人的殘簡“狐貍多知而刺猬有一大知”將知識分子分為狐貍和刺猬兩類。刺猬用一個宏大的概念解釋所有現象,如約翰博士一般;狐貍知道很多事情,用多元化的甚至相互矛盾的視角看待問題,狐貍也愿意包容新的證據以使得自己的模型與之相適應,如胖托尼一般。Tetlock等人的研究表明,在現實的預測中,狐貍的表現要優于刺猬。在大數據時代,人們能夠接觸越來越多的信息,這些信息能否修訂決策者已有的觀念,對決策者的決策產生影響,這是大數據能否發揮價值的關鍵所在。有些刺猬類決策者,他們可能會有意無意忽略與其觀念相左數據而只保留那些能夠證明其想法的數據,在這里無論系統處理了什么規模的數據,這些系統投資也只是粉飾太平的裝飾,沒有太大意義。
很多人都知道亞當斯密(Adam Smith)在《國富論》中所描述的市場中的“看不見的手”。在市場中,沒有人掌握有關生產和消費的全局信息,但是人們通過市場交易對供需的行為作出反應,從而逐步更新價格,進而達到平衡。與亞當斯密同時代且同在蘇格蘭接受教育的Thomas Bayes的貝葉斯定理(Bayesian's Theorem)也和亞當斯密的“看不見的手”有相通之處。貝葉斯理論允許每個人擁有有關世界的先驗的信念,胖托尼也許最初認為硬幣正面朝上的概率是1/2,如果他看到了99次投擲硬幣的結果中有50次是正面朝上,他會認為這個硬幣正面朝上的概率是51/101,大致可以確信硬幣正面朝上的概率是50%。而當他看到了連續99次的硬幣正面朝上落地,則他不斷利用數據修改其信念,認為這個硬幣可能有問題,正面朝上的概率應為100/101,即本文開始部分所預測的99%。當然,你也可以如約翰博士一樣固守自己最初50%的教科書般的假設,而這樣的結果是你輸掉了一次又一次的賭博,直到出局。
利用新的數據與新的證據不斷修訂對世界的假設是狐貍式的思維方式也是貝葉斯思維方式的基本理念,這也應當是大數據時代思維的基本理念。隨著互聯網及云計算的普及,在大數據時代,人們有機會從多個渠道、多個角度獲得對事物的知識。貝葉斯的“看不見的手”利用這些知識逐步修訂人們對事物的假設,而人們基于這些假設進行的決策通過亞當斯密的市場的“看不見的手”被評估與選擇,從而形成相應的社會秩序。無論人們最初關于事物的認識存在什么樣的差異,在貝葉斯與亞當斯密兩重“看不見的手”的作用下,“隨著越來越多的證據的出現,我們的信念將趨于一致,并且趨于真相……即使我們最初擁有有誤的甚至是錯得離譜的先驗認識,最終也將趨于真相。”
作者:《證析》一書作者,大數據實驗室合伙人