大數據不能做什么?
在左派技術管理者的眼里,大數據就像“雷神之錘”,所有與數據有關的難題看上去都像是釘子,但實際上大數據在很多方面都無法取代人類的智慧和判斷、大數據可以處理大量非結構化數據,彌補管理者過于依賴直覺的不足;但是人們也應當意識到,大數據也有很多不擅長的地方:例如無法對“情感”和“社會關系”等進行定性分析,原始數據和分析結果會受到人類主觀意識影響等。
在這個大數據爆炸的時代, 數據分析似乎無所不能, 從商業, 到體育, 到醫療甚至到軍事領域, 大數據分析都在大顯身手。 不過, 就像任何工具一樣, 大數據分析也有其局限性。 最近紐約時報的專欄作者David Brooks就對大數據的局限性發表了一些觀點。編譯如下。
不久以前, 我和一位大銀行的CEO晚餐時, 他提到他正在做一個艱難的決定:鑒于經濟形勢以及可能的歐元危機, 要不要把公司從意大利撤出來。
這位CEO有銀行的經濟學家為他做的一系列經濟預測, 情景分析, 以及各種情況對公司的影響。 但是, 最后, 他還是依靠價值觀做了最后的決定。
他的銀行已經在意大利開展了近10年的業務。 他不想讓意大利人覺得他們銀行是一個“可以共富貴, 不能共患難”的朋友。 他不想讓公司的員工認為公司的經營理念就是在情況不好的時候跑路。 他決定銀行還是留在意大利來面對各種潛在的風險, 以及甚至可能發生的短期成本。
他并非對數據分析的結果視而不見。 不過, 最終他采用了不同的思考方式。 他這么做是有道理的。 商業依賴的是信任, 而信任是一種情感方面的互惠。 在困難時刻, 人們的表現能夠讓他們贏得贊賞和尊重。 這一價值非同一般, 不過很難用數據分析來發現。
我將這個故事的目的是想指出數據分析有其強項, 但是也有其局限性。 如今, 人們的生活已經離不開各式各樣的計算設備, 這些計算設備都能夠采集數據。 在這個時代, 大數據可以被用來分析很多復雜的現象。 數據可以彌補我們單靠直覺的不足, 也可以糾正我們由于自身偏好所導致的判斷偏差。
不過, 還是有很多方面, 大數據并不擅長的。 這里我來列舉一些方面:
大數據不擅長社會關系分析
人們的大腦在數學方面比較差(告訴我437的平方根是多少), 而在社會認知方面則超級強。 人們很容易就能夠感知到對方的情緒, 分辨出不友好的行為, 以及根據感情進行價值評估。
而計算機主導的數據分析, 則擅長于分析社會關系的數量而非質量。 社交網絡的數據科學家可以分辨出6個你的同事, 你一天中有76%的時間會見他們。 而卻很難發現你一個一年只見兩次面的童年伙伴。 更別說發現像但丁對貝特麗絲的愛情那樣, 只見過兩次面就深愛上對方的情況了。
因此, 在需要基于社會關系作出決定時, 只依靠計算機而不是依靠你的大腦是愚蠢的。
大數據不擅長上下文情景分析
人們的決定并不是僅僅基于離散的事件的, 它往往是基于前后關聯的情景的。 我們的大腦很擅長這種事情。 在講故事的時候, 人們很擅長把不同的原因和情景結合在一起。 而數據分析則在這方面表現糟糕。 它很難分析清楚就算最簡單的小說里的線索和各種前后關系。
大數據產生過多的發現
有一句諺語叫做“在麥堆里面找針尖”。 麥穗和針尖看起來差不多。 而大數據則讓麥穗變得更多了。 當我們的數據越來越多, 我們很容易能夠發現很多的統計上重要的關聯。 絕大多數的這些關聯都是虛假的, 會引導我們作出錯誤的結論。(參考本站文章:避免大數據的“思維陷阱”)。 而隨著數據的增長, 這種虛假關聯的情況將呈指數級增長。
大數據不擅長處理真正的巨型問題
如果你想看一下哪些郵件對推廣活動最有效, 你可以進行隨機抽取對比組樣本。進行比較。 可是, 如果我們像模擬一個衰退期的經濟體。 我們沒辦法去找這樣的一個對比組。 我們經常會看到人們爭論什么是最好的經濟刺激政策。 而我從來沒有看到爭論的雙方能夠用數據分析說服另外一方的。
數據分析的結論往往基于大眾偏好
數據分析可以發現很多人們喜愛的產品。 而很多重要的(掙錢的)產品一開始往往不為人們所喜愛因為人們最初不熟悉。 大數據分析往往可能漏掉這樣的產品。
原始數據往往會被扭曲
我最近讀了一本書叫做《原始數據的矛盾》。 其中一個觀點就是“原始”數據其實也并不原始, 它總是按照某設計者的要求來進行組織的。 這樣一來, 設計者的觀點或者價值觀總是或多或少會代入這些“原始”數據中去。 因此在數據的采集到解釋的過程中, 都會帶有原始數據設計者的意志。
這里, 我并不是想說大數據分析不是一個好的工具。而是想說, 就像任何好的工具一樣, 它有它所擅長的地方, 也會其局限的地方。 而世界正因為不能單從一個方面解釋而顯得有趣。
原文鏈接:http://www.ctocio.com/ccnews/11533.html