指引大數據未來發展方向的九大真理

筆者總會時不時沉浸在對大數據原則的思索當中,這里討論的并不是Hadoop與關系數據庫或者Mahout與Weka的對抗,而是更具根源性的智慧——將數據作為“新時代貨幣”的思維方式。不過也許將數據描述成“新時代的石油”更加貼近,或者,我們還需要一種新的比喻更全面地詮釋數據的價值與內涵。
比喻本身既非事實也難以證明,但它們確實能夠創造出指引我們找到真理的話題。比喻讓復雜的概念變得更易理解,正如本文中所引用的經典語錄——它們有助于解釋大數據的各項基本原則。本文將列舉八條與大數據密切相關的真理——大家對此也許有所耳聞、至少略有耳聞——并按時間進行排序。最后,筆者將做出自己的推測,與各位朋友分享“未來的真理”。
1. “相關性并非因果關系”
這樣的說法我們已經聽過不止一次。在大學的哲學課堂上,我了解到這樣一個關于基礎謬論的表述版本,叫作post hoc ergo propter hoc,翻譯過來就是“后發者因之而發”。聽起來實在有些隱晦,更直白點解釋,就是說“B事發生于A事之后,因此B事由A事而起”。
大家可以讀讀O’Reilly Radar的博客。在其中一篇名為《猜測的隱性成本》的文章中,Alistair Croll指出:“最明顯的相關性表現在大數據的專長方面……并行計算、算法的改進以及摩爾定律的準確特性已經大大降低了對數據集進行分析的成本,”由此衍生出一個“由數據驅動的社會,既聰明又愚蠢。”最終結論?保持聰明的特性,尊重相關性與因果關系之間的差別。模式只是表現、并非結論。
2. “所有模型都是錯誤的,但其中一些確實管用”
意外事件統計學家George E.P.Box在他1987年編撰的教科書《實證模型構建與響應面》當中寫下了這樣的結論。在從教的整個職業生涯當中,Box一直努力將自己的思路轉化成模型,而這種習慣對于大數據分析技術而言非常適用。1976年12月,《美國統計協會》雜志曾經發表過一篇題為《科學與統計》的文章,其中具體論證了模型的前世今生與現實意義。
3. 大數據(幾乎)洞悉一切
如果大家還無法認同這一結論,請盡快強迫自己接受。這句話源自Scott McNealy在1999年發表的一份聲明,他表示“大家將徹底告別隱私……請學會適應這一點。”值得一提的是,McNealy正是Sun Microsystems公司的聯合創始人兼CEO。如今大數據侵入個人生活的例子比比皆是:分析師有能力根據社交言論推斷發言者的性別,或者通過購買習慣判斷其家中是否存在孕婦;Acxiom等從事大量商業信息存儲的企業迎來輝煌的業務飛躍;預測及防災信息整合正全面崛起;美國國安局的“棱鏡門”事件也已經大白于天下。
4. “與業務相關的信息當中,有八成源自非結構化形式,主要是文字(但也包括視頻、圖像以及音頻)”
在2008年的一篇文章中有這樣的結論——雖然正如當時所說,由于很難精確量化,可能早在上世紀九十年代初非結構化數據已經扮演起重要角色,只是我們當時體會不到??偠灾?,八成以上的說法只是種模糊的概念而不能過分較真,因為據我所知,沒有任何一種評估機制針對這個問題進行過系統性衡量。盡管如此,相信每一位與Box秉持相同理念的統計學者都會認為“八成非結構化”這一論斷頗具指導意義——即使其并不正確。無論具體數量如何,文本與內容分析都應該成為大家工具包中的常駐成員。
5. “這不是信息超載,而是過濾器故障”
Clay Shirky在2008年9月于紐約舉辦的Web 2.0博覽會上提出了這一論斷。Shirky對于過濾器本身的評價顯得有些保守,例如“數據量的增加并不意味著就能帶來更好的結論”,但這正好與我的觀點不謀而合。但前提是事情別做過頭;大家千萬別像Eli Pariser那樣認為“過濾器概念純粹是泡沫”,他的眼界最多也只能達到自動化的層面、無法再望向更為廣闊的未來。
6. “相同的含義可以通過多種不同方式進行表達,相同的表達當中可以涵蓋多種不同含義”
在2009年3月IEEE智能系統大會上,谷歌公司員工Alon Halevy、Peter Norvig以及Fernando Pereira在一篇題為《數據的非合理化有效性》一文中陳述了以上觀點。數據的非合理化有效性是如何顯露出來的?他們給出的答案是,“不精確且模棱兩可的”自然語言的語義解釋就是最好的實例。此外,通過機器學習進行關系推斷、從而實現對大規模聚合內容的解釋也能證明這一點。。
7. “大數據的核心不是數據!大數據的價值在于分析”
哈佛大學教授Gary King在與第六條中的幾位谷歌員工一同出席IEEE會議時表達了這一觀點。不過我并不完全贊同King的這種說法。在核實數據需求并制定理想方案以收集并整理數據結構的執行過程當然也存在價值。分析能夠幫助我們發現這些價值,因此我站在King的肩膀上總結出這樣一種更準確些的表述:大數據的價值通過分析來實現。
不過這只是我的想法,未必能得到King本人的認同。對這個話題感興趣的朋友可以點擊此處查看由Steve LaValle、Eric Lesser、Rebecca Shockley、Michael S. Hopkins以及Nina Kruschwitz于2010年12月在《麻省理工大學-斯隆管理評論》期刊上發表的文章《大數據、分析以及由觀點到價值的路徑》。
8. “直覺的重要性并未受到影響”
這句話來自Phil Simon,也就是今年早些時候發表的《大到不容忽視:大數據商業案例》一文的作者。(我為該文的撰寫提供了關于文本及情感分析的一些材料。)
Simon解釋稱,“大數據并沒有,至少目前還沒有,取代直覺;后者僅僅作為前者的補充存在。二者之間的關系是連貫統一的,而絕不是非黑即白。”Tim Leberecht在今年六月由CNN刊發的《為什么大數據永遠無法替代商業直覺》一文中也做出了類似的表述。
最后,這八大指引未來的真理還需要最后一點補充才夠完整——不過這一點尚未得到廣泛理解:
9. 大數據的未來在于綜合與背景
大部分解決方案當中所欠缺的元素在于整合不同來源信息的能力,這種能力會以適當方式考量與內容相關的產生環境,從而得出準確的結論。這里我打算引用設計策略師Jon Kolko在一份啟發性論文中所涉及的論證過程(當然,多少會有些斷章取義)。首先,Kolko援引了認知心理學家——他們嘗試研究直覺與解決方案之間的聯系——的結論作為例子。當事者會“根據實際背景理解人物、地點以及事件之間的關聯,弄清事件發生的具體時間,從而對未來可能發生的情況做出判斷并采取相應的行動。”
Kolko將設計綜合性視為關鍵性要素,是一種“將數據的操作過程、組織、調整以及過濾過程與背景相結合的方式,旨在將數據轉化為信息與知識。”這能帶來怎樣的結果?IBM公司研究員Jeff Jonas認為,“通用目的”型背景系統將有助于在同一數據空間內對不同數據加以定位。此類方案能夠使我們對不斷變化的觀察空間進行可規?;瘮U展、實時且前所未見的探索。
這不正是我們為大數據制定的發展目標嗎?從模式檢測向可操作結論邁進。我希望自己總結的這九大真理能夠幫助各位了解大數據的這一發展路徑。