為大數據正名:人即數據,大數據就是我們自己
2012年,沃爾瑪每小時就能產生2.5PB、100多萬名用戶的消費記錄。同年,Facebook報道稱他們每天要處理25億個內容碎片(鏈接、評論)、27億個贊和3億次圖片下載。
與此同時,對顆粒數據的收集也迎來了***的機遇。今年二月,基于對用戶數據分析,Facebook新推出了六組多樣化的表情(emoji)按鈕,豐富了用戶交流回復時感情流露的深度和廣度。
隨著全球數據流的高速集聚與融匯,大數據的應用也進入了白熱化階段,迅速滲透至各個領域。人即數據,大數據就是人。這其中包含兩層解讀。舉例來說,大數據首先可被理解為是由人們的點擊量和定向選擇組成的;其次,大數據又可以反作用于人們的決策,特別是一些與社會大眾密切相關的政策的制定等。它甚至可以影響我們對自我的界定、關系、選擇等等。
一些文化評論家把大數據妖魔化為一種“新型精神控制”,甚至認為它能影響大選結果。也有人將其描述為某種形式的人類掠奪工程。哈佛大學商學院的Shoshana Zuboff 認為,對人類行為數據的侵略性掠奪會對我們的自由、隱私、道德和自主性產生巨大的反作用,而且這種作用很可能會在數十年后才顯現,是一種新型的惡性資本主義。
大數據=可掠奪的資源
“大數據”這一說法很容易讓人誤認為它完全不受人類主觀意識左右。最近,一批社會科學學者正致力于研究從“數據中心”向“人本中心”的轉變。他們認為人們過分關注大數據帶來的驅動作用,卻忽視了人才是一切研究工作的核心。這一提法雖然對我們起到了警示作用,但忽略了一個關鍵事實:數據痕跡的本質就是人活動的痕跡。
雖然大數據作為一個新概念被提出,但數據的收集方法其實并不新鮮。社交媒體平臺的設計縱然不斷更新,對數據的監測卻早就存在了。然而對大數據錯誤、冗贅的解讀也使得大眾對這一概念的理解越來越混亂。另外,對于數據收集與個人隱私間的矛盾也一直爭議不止。
盡管人們已經在數據收集和個人隱私間打了無數口水仗;盡管人們都曾被屢次提醒這些個人信息的外露可能導致許多后果,但能真正打從心底認識到個人數據集可以左右公共決策、影響社會發展的委實少之又少。同樣,時至今日,多數人依舊認為大數據是不受人為干預的最客觀的資源,就像是在自然界長出的花草果實,我們只要去收割就可以了。而那些掌控著這些數據資源的人當然不希望事實被揭穿。因為一旦大眾看清了正在發生的一切,他們定會更奮力地反抗。
大數據與人的淵源
大數據和數據驅動的科學與社會科學淵源頗深。這是因為大數據科學越來越深入到了個人領域范疇,涉及到了越來越多與自我、個性、觀念等方面的信息,而這些都是社會學長久以來關注的重點。
人類對數據的挖掘方式在不斷演化。從20世紀早期的社會調查、問卷調查,到20世紀晚期的分組調研等,隨著研究技術的不斷改進,這些調查變得越來越細致和有針對性。人們似乎再也無法逃脫數據搜捕的巨網。就像心理學家James Sully在1881年所寫到的:“即使是搖籃里的小嬰兒也不得不承受科技的監視。”
1924至1926年間,社會學家Robert Lynd和Helen Lynd夫婦曾就印第安納州曼西市的當地文化開展了一項大型研究。人們愛看什么電視節目、每天要在廚房花多少時間等等,事無巨細,全被一一記錄。1947年,心理學家Roger Barker在堪薩斯州奧斯卡盧薩的一個小鎮上創建了社會科學實驗室“中西部心理學實驗站”。小鎮成為了某種形式的實驗室。Barker和他的同事們開辟了一種全新的數據收集形式——日常生活數據收集。舉個例子,在他們收集的信息里有這樣一條:“1949年4月24日,星期二,早7:01,七歲的Raymond撿起一只襪子,套在了自己左腳上,然后慢慢從床上爬起。他媽媽開玩笑地說:“你的眼睛還沒醒嗎?”進入20世紀50年代晚期,研究學者Terry Bristol和Edward Fern提出了“專題小組”的調查形式。參與者們可以通過匿名的方式對一些共同經歷表達自己的看法。這其實就是美國現代社會科學中常用的調查手段——主觀信息客觀化的雛形,也是大數據的***意義。
另一個值得關注的發展方向就是人類學研究的介入了。參與人類學研究的人們很多是為了增進自我認識、社會參與度、反饋等等。其中,名叫Don Talayesva的霍皮族印第安男子可以說是歷史上被觀測記錄最多的人了。從1890年到1976年,他的生活一直處于被記錄狀態。他作為霍皮人的生活經驗甚至填補了耶魯大學百科知識庫中“人類關系分區檔案”中生物分類學上“霍皮族”的空白。Talayesva還為學家們貢獻了8000頁日記、341個夢境記錄,以及一系列訪談內容等等,儼然成了一個龐大的數據庫。
新瓶裝舊酒
人們對于數據收集的態度變化也十分有意思。以電話采訪為例,在這一調查方法剛推出時,人們還是很配合訪問的。然而,隨著電話采訪的頻繁“騷擾”,如今還肯接受采訪的群眾大概就只剩下3%了。其次是街頭采訪。20世紀50-60年代,當街頭采訪***“空降”巴黎時,得到了公眾的極大關注。然而今日,群眾似乎已經對此習以為常,有些人甚至會覺得無聊而刻意躲避。更糟糕的是,在調查中,一些人還會通過挖苦、諷刺回應調查人員,以顯示自己對調查的不屑與挑釁。
人們對大數據的態度恐怕也不過如此。雖然現在多數人還沉迷于大數據為我們營造的神奇世界,我們往往是貪圖那一時的便利或享樂而無償奉上了自己的行為數據。但隨著深入了解,也許在不久的將來,我們就會對自己當下的天真與盲目感到吃驚,因為我們還沒真正意識到自身行為數據的價值所在。今天的大數據收集與當年人們的社會調查本質是相似的,只是規模更大、顆粒化程度更高而已。
20世紀,由美國牽頭的行為科學研究席卷全球,試圖深入推進對人類行為數據的收集,使其成為可被智能機器利用的原始物料。這就是大數據的前身。這一項目有時也會得到來自政府或軍方的支持,為其決策提供參考。這也是為什么大數據在今天會得到如此大的關注:它溝通了人本信息和物質世界,甚至實現了二者之間的相互轉化。
究其根本,大數據其實并不是什么新事物。只是在高新技術的浸入下,它逐漸成為了現代社會的核心“推進器”,滿足了人們締造一個透明可視、且能自我優化的“機械化人格”,而你就是人格的一部分。我們真正應該看到的,是數據背后的人性。