一文看懂大數據的四十年發(fā)展史
1980-2000:早期探索階段
1980年,美國科技記者阿爾文·托夫勒(Alvin Toffler)出版了自己的著作——《第三次浪潮(The third wave)》。
在書中,阿爾文·托夫勒對人類的文明發(fā)展史進行了大膽的斷代。他認為,人類歷史上一共經歷了兩次文明浪潮的洗禮:第一次是耗時數千年的農業(yè)文明革命,第二次是18世紀60年代開始的工業(yè)文明革命。
他進而提出,隨著信息技術的發(fā)展,人類將要迎來第三次浪潮,也就是信息化革命。在這次浪潮中,“工業(yè)主義滅亡,新文明崛起”。
阿爾文·托夫勒的觀點,在當時引起了極大的震撼,影響非常深遠。這本書出版后,被翻譯成三十多種文字,發(fā)行量超過一千萬冊,是史上發(fā)行量最大的未來學書籍。他本人,也被世人稱為現代最有影響力的“未來學家”之一。
阿爾文·托夫勒
那么,阿爾文·托夫勒與《第三次浪潮》,和本文主題——大數據,有什么關系呢?
關系很大。因為,大數據這個概念首次出現,就是在《第三次浪潮》中。
阿爾文·托夫勒在書中提出了很多大膽的預言。而大數據,就是其中之一(其它還包括跨國公司、無紙化辦公、產消合一等)。他非常肯定地指出,“數據就是財富”。而大數據(Big Data),將是“第三次浪潮的華彩樂章”。
阿爾文·托夫勒對數據價值的認知,確實是非常超前的。要知道,那時候才1980年,PC剛剛出現,硬盤仍處于MB級,人類的數據規(guī)模并不算大。風起云涌的信息技術浪潮正在起步,而阿爾文·托夫勒卻已經看到了未來。
進入90年代后,隨著互聯網的誕生和爆發(fā),信息革命進入了全新的階段。越來越多的人開始購買計算機,訪問互聯網。也有越來越多的科研機構和企業(yè)開始上線IT系統,推動自身的信息化轉型。
隨著信息化的逐漸深入,人們開始發(fā)現,研究、生產和業(yè)務環(huán)節(jié)產生的數據越來越多,逐漸對IT系統形成了壓力。
90年代中期,諾貝爾獎獲得者吉姆·格雷(Jim Gray)指出:大數據的挑戰(zhàn)將會首先來自科學,而非商業(yè)。
1997年10月,在IEEE會議上,美國宇航局(NASA)研究員邁克爾·考克斯(Michael Cox)和戴維·埃爾斯沃斯(David Ellsworth)發(fā)表論文提到:在模擬飛機周圍的氣流的過程中,產生了極為龐大的數據集,給主存儲器、本地磁盤和遠程磁盤帶來了巨大負擔。
他們將這個問題,稱之為“大數據問題”。
論文首頁
無獨有偶,1998年,美國高性能計算公司SGI的首席科學家約翰·馬西(John Mashey),在一個國際會議上發(fā)表了題為“大數據與下一波計算浪潮(Big Data and the Next Wave of Computing)”的演講,也提到了類似問題。
約翰·馬西指出:隨著數據量的快速增長,必將出現數據難理解、難獲取、難處理和難組織等四個難題。他同樣采用了“大數據”這一概念,來描述這些挑戰(zhàn),引起了業(yè)界的廣泛關注。
數據的規(guī)模在不斷膨脹,人類的存儲技術和計算技術已然跟不上數據增長的步伐。業(yè)界意識到,數據的價值是無法估量的,而我們必須擁有更強大的技術,去挖掘數據中的這些價值。
█ 2000-2012:全面爆發(fā)階段
到了21世紀,圍繞大數據的理論探討仍在繼續(xù)。
2001年,麥塔集團(META Group,后被Gartner收購)的分析師道格·蘭尼(Doug Laney)將大數據定義為三個以“V”開頭的單詞,即:Volume(體量大)、Velocity(速度快)和Variety(種類多)。
“3V”理論后來被廣泛接受,并成為描述大數據特征的標準。再后來,在“3V”的基礎上,業(yè)界又演變出了“4V”、“5V”,甚至“7V”,包括:Veracity(真實性)、Value(價值密度)、Variability(變異性)、Visualization(可視性)等。
道格·蘭尼
2002年,在經歷了“911”襲擊之后,美國政府曾計劃整合現有政府的數據集,組建一個用于篩選通信、犯罪、教育、金融、醫(yī)療和旅行等記錄來識別可疑人的大數據庫。
雖然后來美國政府停止了這一項目(涉嫌侵犯公民隱私),但這算是人類大數據系統建設的一次早期嘗試。
21世紀初期,互聯網已經形成非常龐大的規(guī)模。社交網絡的崛起、電子商務的普及、社會政府和企業(yè)的信息化升級……各式各樣的互聯網行為,產生了更多的數據,這使得海量數據的存儲和管理變得更具挑戰(zhàn)。
2003年至2006年,搜索引擎公司谷歌(Google)接連發(fā)布了三篇重量級論文,推出了GFS、MapReduce、BigTable,開創(chuàng)了大數據時代的新紀元。
2006年,雅虎工程師道卡廷(Doug Cutting)根據Google的論文,開發(fā)了后來大名鼎鼎的大數據框架系統——Hadoop。
道卡廷
大數據的技術根基,算是初步完成了。這為后來大數據技術和應用的騰飛,創(chuàng)造了必要條件。
再后來,大數據終于進入了發(fā)展的快車道。越來越多的政府和企業(yè),開始加大對大數據的研究和投入,也初步建立起一些大數據系統。
2009年1月,印度政府宣稱,將建立印度唯一的身份識別管理局,對12億人的指紋、照片和虹膜進行掃描,并為每人分配數字ID號碼,將數據匯集到世界最大的生物識別數據庫中。
2009年5月,美國奧巴馬政府正式推出了聯邦數據和國家資源庫網站(Data.gov)。這個網站是美國“開放政府”承諾的關鍵部分。它按照原始數據、地理數據和數據工具三個門類,開放了數十萬項數據,涵蓋了農業(yè)、氣象、金融、就業(yè)等大約50個門類(截止2012年)。
奧巴馬本人在競選中也使用了大數據技術
后來,美國政府還和印度政府合作,搞了個開源政府平臺,把Data.gov給開源了。
在大數據系統建設上,聯合國也有動作。
同樣是2009年,為了應對全球金融危機,時任聯合國秘書長潘基文提出創(chuàng)建警報系統,分析“實時數據帶給貧窮國家經濟危機的影響” 。聯合國還成立了項目,研究了如何利用手機和社交網站的數據源來分析預測市場價格以及傳染病。
在商業(yè)領域,包括沃爾瑪等大公司,也開始研究建立大數據系統,幫助商業(yè)營銷和推廣。
同一時期,學術界對大數據的研究又進入了新的高度。
2008年,計算社區(qū)聯盟(Computing Community Consortium)發(fā)表白皮書《大數據計算:在商務、科學和社會領域創(chuàng)建革命性突破》,詳盡闡述了大數據對社會治理的推動作用,及其潛在的商業(yè)價值。圍繞大數據的討論,開始全面升溫。
2010年,肯尼斯·庫克耶(Kenneth Cukier)在《經濟學人》上發(fā)表了長達14頁的大數據專題報告《數據, 無所不在的數據(Data, data everywhere)》,對大數據時代趨勢提出了深刻洞見。
肯尼斯·庫克耶
他表示:“世界上有著無法想象的巨量數字信息,并以極快的速度增長。從經濟界到科學界,從政府部門到藝術領域,很多方面都已經感受到了這種巨量信息的影響。”
2011年5月,全球知名咨詢公司麥肯錫發(fā)布了一份報告——《大數據:創(chuàng)新、競爭和生產力的下一個新領域(Big data: The next frontier for innovation, competition and productivity)》。
報告指出:“大數據已經滲透到當今每一個行業(yè)和業(yè)務職能領域,成為重要的生產因素。人們對于海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈余浪潮的到來。”
2012年,維克托·邁爾·舍恩伯格(Viktor Mayer-Sch?nberger)及肯尼斯·庫克耶(前面提到的那位)合著的《大數據時代》一書出版,將大數據這個概念推向了高潮。
大數據時代(中文版)
《大數據時代》被認為是全球大數據系統研究的先河之作,在社會上形成了非常大的影響力。這本書是國內很多人了解大數據的第一本讀物。
作者在書中明確指出:“大數據帶來的信息風暴正在變革人類的生活、工作和思維,并將引領整個時代的思維變革、商業(yè)變革和管理變革。”
同樣是2012年,世界經濟論壇指出:“數據已經成為一種新的經濟資產類別,就像貨幣和黃金一樣”。這無疑將大數據的價值推到了前所未有的高度層面上。
從那時起,大數據逐漸成為家喻戶曉的概念,并在各行各業(yè)快速普及。
2012-現在:升級和轉折階段
最近的十幾年,大數據技術的聲浪似乎越來越小。這并不是因為大數據不再重要,而是因為這項技術已經走出了當年的炒作和喧囂,逐漸進入了平穩(wěn)發(fā)展期。
在政府治理、科學研究以及商業(yè)經營領域,大數據技術“潤物細無聲”,默默發(fā)揮著重要的作用。它不僅改變了我們處理和分析信息的方式,也為決策分析提供了重要的參考依據。
大數據相關的技術,在這一階段發(fā)生了一些變化。
例如,UC伯克利AMP實驗室開發(fā)的Spark,支持內存計算,性能遠超MapReduce,逐漸成為行業(yè)新寵。
再例如,HBase、Cassandra等NoSQL(非關系型)數據庫系統蓬勃發(fā)展,支持大規(guī)模數據存儲和訪問。NewSQL數據庫的出現,結合了SQL(傳統關系型)和NoSQL的優(yōu)勢,適用于需要處理大規(guī)模數據和高并發(fā)訪問的場景,也受到了業(yè)界的追捧。
數據倉庫、數據湖、湖倉一體的概念不斷演進,圍繞數據生產、數據聚合、數據分析和數據消費的整套大數據技術體系,變得越來越強大、完善。
更值得一提的是,AI人工智能的崛起,讓數據的價值再次爆發(fā)。
大數據為人工智能提供了豐富的數據資源,而人工智能則通過先進的算法和技術從大數據中提取價值。作為AI三要素之一,數據(集)的質量,直接影響到AIGC大模型的能力表現。整個社會對數據的重視程度,進一步提升。
在應用大數據的過程中,人們也在想辦法解決大數據所帶來的挑戰(zhàn)。
其中最主要的挑戰(zhàn),當然是隱私問題。
2014年5月,美國白宮發(fā)布了研究報告《大數據:抓住機遇、守護價值》。報告鼓勵使用數據以推動社會進步,但也提出:需要相應的框架、結構與研究,來保護個人隱私,確保公平、防止歧視。
2018年5月25日,歐盟出臺了《通用數據保護條例》(General Data Protection Regulation,簡稱GDPR),是全球數據隱私保護的一個里程碑事件。繼該條例之后,世界上許多國家都頒布了自己的數據保護立法。
最后的話
好了,以上就是今天文章的全部內容。
四十多年的時間,大數據從無到有,從弱到強,已經充分證明了自己的價值,成為數字社會的重要組成部分。
未來,隨著數字技術的不斷進步,尤其是人工智能的不斷發(fā)展,大數據的應用將更加廣泛和深入,為各行業(yè)帶來更多機遇和挑戰(zhàn)。
真正的數據白金時代,正在加速向我們走來。
參考文獻:
1、《他預見了第三次浪潮,還發(fā)明了“大數據”這個詞》,吳曉波頻道;;
2、《大數據的崛起:從數據積累到智能決策的變革》,新報觀察;
3、《大數據發(fā)展現狀與未來趨勢》,梅宏;
4、《美國大數據研究與應用》,胡經國;
5、百度百科、維基百科等。