大數據在美國 已完成從灰姑娘到公主的蛻變
大數據的老家在哪里?如果從血脈淵源來看,應該在美國。麥肯錫的報告、自然雜志的專刊,以及Gartner、IBM專家的演說都證明了這一點。今天我們就來聊一聊她和她的家鄉。
起初,她只是一位灰姑娘
要想富先修路,美國從上世紀50年代開始修路,建起了全美的高速公路網。修路不是一件簡單的事情,要人要錢要技術,不過這也正好解決了就業、刺激了經濟。路修好了又拉近了距離,人活了,貨活了,錢更活了,想去哪里去哪里。
上世紀90年代,風流倜儻的克林頓總統提出要將路修到互聯網去,隨后全美信息高速公路聲勢浩蕩地開建了。
20年后,這條路修好了,路上承載了更多信息,文字、圖片、影音… 類型越來越多,數量也越來越大,不僅如此,以前一年產生的量,如今一個月就生成了。不知不覺中,有人開始頭疼如何處理他們,有人開始關注如何挖掘他們,于是,大數據這位灰姑娘進入了人們的視野。
聯邦政府看上她
這位灰姑娘的出現,引得越來越多人關注,終于有一天聯邦政府看上了她。2012年,奧巴馬政府正在籌劃修建另一條路,這條路隱于無形,聯系著萬事萬物,像神經一樣重要卻不可見。那么這次修路的工具和材料哪里來呢,“眾里尋他千百度,驀然回首,那人卻在燈火欄珊處”,他們的這次相遇注定將被載入史冊。
2012年3月,白宮發布了「大數據研究和發展倡議」(「Big Data Research and Development Initiative」),家里六個兄弟紛紛斥巨資同她合作,聽說加起來超過了2億美元。科學基金(NSF)、衛生研究院(NIH)、能源部(DOE)、國防部(DOD)、國防部高級研究計劃局(DARPA)、地質勘探局(USGS)這六個兄弟稟賦異常,與大數據聯合起來,簡直就是傳說中的葫蘆七兄妹。
他們的項目列表涵蓋了科研教學、環境保護、工程技術、國土安全、生物醫藥好多領域,半年后,美國再次公布了一批研究項目。至此,美國大數據戰略2.0版閃亮登場。
天使與惡魔只在一念間
水能載舟亦能覆舟,如何面對大數據的超能力,聯邦政府開始糾結了。2014年5月,白宮發布了白皮書「大數據:抓住機遇,保存價值」(「Big data:seizing opportunities, preserving values」)
(滾動字幕:浙江大學歷史數據研究小組的效率堪比美劇字幕小組,第一時間推出了中文版,這次的翻譯成員大部分是2012級的浙大本科生,他們來自各個專業,時間緊任務重,想必大家一定付出了很多艱辛)
“抓住機遇,保存價值”—原以為是保存大數據妹妹的價值,通篇讀完才知道這是美國人的思維,他們關注的是大數據的超能力對美國價值觀的沖擊。
這一切源于奧巴馬對情報問題的關注。顧問團隊90天后提交了兩份報告,一份是白皮書,另一份是「從技術角度看待大數據與隱私保護」。(「Big Data and Privacy: A Technological Perspective」)。這讓我想到此前去上海電力調研的收獲,上海電力信息部門統管科技項目和信息化項目,他們第一年通過科技項目做可行性研究,條件具備的話第二年再上信息化項目。這種臺面上一杯水臺下一桶水的做法還是靠譜的。
整份報告很糾結,也很讓人欣慰。
也許我們沒有想過大數據可能帶來不平等—連鎖超市通過數據分析選擇在不同區域差異定價造成價格歧視,不使用智能手機人群在打車軟件面世后更難打車。
也許我們沒有想過大數據可能帶來傷害–基因預測模型一旦出錯則會誤傷一片。
也許我們同樣沒有想過大數據可能對社會造成潛移默化的負面影響—過濾器泡泡正在孜孜不倦的構筑意識形態和文化的隔離,使每個人都沉浸在自己感興趣的信息當中,減少沖突體驗。時間長了,人們對熟悉領域的愿望和期待增強了,卻慢慢忘記了那潛伏在暗夜的,未知爪牙。
糾結完,接下來開始大干一場吧。
兄妹同心 其利斷金
大數據給美國政府裝上了動力外骨骼。以紐約為例,那里設立了市長數據分析辦公室(MODA),通過數據分析來提升政府日常運作水平、預防和處置緊急事件,MODA還和新企業加速服務團隊(NBAT)合作,利用量化分析手段評估政府決策。市政府出臺一個政策,他們就數據分析這個政策效果如何,好的話就推廣不好的話就砍掉。
大數據在美國的公共事業領域也大顯身手。美國教育和醫療的信息化一直都走在全球前列,有了大數據,他們可以更進一步了。學校關注如何通過數據分析,來調整教學方法。衛生研究院(NIH)、食品和藥物管理局(FDA)這些機構一方面力推生物醫學數據共享重用,另一方面著手研發大數據醫療神器,包括流行病預測的、重大疾病早期診斷的,還有像大白這樣實時個性化服務的。能源部(DOE)資助建設大數據平臺,鼓勵公眾高效利用能源。波士頓市和麻省理工學院合作利用大數據提供城市交通解決方案。
聯邦政府與大數據的這一次合作背后還有很多神秘人物默默支持,他們一方面通過特許協議、年度協議與政府保持聯系,另一方面以大咖身份投資最領先的大數據技術,In-Q-Tel(IQT)就是其中的一員,IQT投資了很多數據分析和數據管理的公司,而且主要進行早期投資,盡管投資總額小于紅杉、英特爾等大佬,但是參與的大數據領域早期投資數量位居全美第三。
腹有詩書氣質華
大數據在美國不是花瓶,她不僅天生麗質,而且勤奮努力,技術功底是相當的扎實。
美國是流行大數據計算框架的發源地。從Google說起,到Hadoop、Spark、Storm,這些框架都來自這里。活躍的開源社區還匯集了全球大數據人才的頭腦。
美國還有一批像51區那樣神秘的研究機構,硅圖(SGI)是其中之一,誰也說不好這家公司目前正在發展怎樣的尖端超級計算能力。這些日常生活中鮮有接觸的重型裝備,在制造業、媒體、生命科學和地球科學這些數據密集型行業可是大有用處。
美國高校也正孕育著一群科學小狂人兒。伊利諾伊大學在Grainger基金會的資助下正在發展一門大數據的工程學科,并且把它當做其他跨學科創新活動的秘密武器。紐約大學、伯克利和華盛頓大學在摩爾和斯隆基金會支持下也在小黃人兒的幫助下開展秘密研究活動。
阿凡達中的靈魂樹
大數據已經滲透到美國生產生活的方方面面。這一次的工業對決中,德國工業4.0企圖從工業滲透到互聯網,美國則要從互聯網滲透到工業。美國建設國家制造業創新網絡(NNMI),其背后的殺手锏想必就是大數據了。
在零售領域,看看啤酒尿片經典案例誕生地沃爾瑪的收購名單就已經讓人驚嘆不已,Kosmix、SetDirection、OneRiot一大批數據分析和營銷應用的初創企業都赫然出現在名單上。農業方面,孟山都這類大型企業不用說了,就連家庭農場主也都將大數據運用得游刃有余,關鍵是還得到了豐厚的回報。
IBM、Oracle那一幫大佬自然不會落后。IBM將大數據列為企業戰略目標,將軟件、硬件、咨詢服務、研發各個領域的資源都整合起來,正在積蓄著發一個大招。甲骨文也強調垂直整合,早在2011年就推出了集成硬件、存儲和軟件的大數據機。微軟也推出了一體機和大數據產品,明確了普及計算和環境智能的發展戰略。英特爾推出Hadoop商業發行版,入股了很多公司。EMC也不斷加大并購和研發的投入。
美國最大的亮點的應該還是谷里風起云涌的初創企業,像Cloudera、Hortonworks、MapR這些公司在Hadoop上深耕,Splunk把實時數據分析系統做得越來越強大,Databricks又稱為給力Spark,Pivotal提供了企業級大數據基礎平臺,Tableau的可視化萌萌噠,Flatiron Health試圖利用大數據來治愈癌癥,人工智能公司Vicarious正在復制人類大腦皮層,還有像Palantir這種帥呆又神秘的大數據分析公司。
我們對她的了解還是太少
上面看起來熱鬧非凡的場景,放到20年后來看或許只是發動汽車的揚塵。她太神秘、太美麗、太強大,或許以相來求她是錯的,或許她終究是無處不在的。