1983到2012:大數(shù)據(jù)發(fā)展演進大事記
近幾年來,大數(shù)據(jù)一直是公共領域的一個熱詞,但其根源其實早已深植于整部IT發(fā)展史中。回溯過去30年,我們就會發(fā)現(xiàn)一些在影響著我們收集、管理和分析數(shù)據(jù)的關鍵事件,這些事件有助于解釋為何大數(shù)據(jù)今天會如此熱門的原因。
1983
IBM發(fā)布***的關系數(shù)據(jù)庫管理系統(tǒng)DB2,使用結(jié)構化查詢語言,很快成為政府部門的主流產(chǎn)品。
1985
面向編程(OOP)語言,如Eiffel開始流行。
1990
用于互聯(lián)網(wǎng)搜索的***搜索工具Archie誕生。
1991
萬維網(wǎng)(World Wide Web)利用超文本傳輸協(xié)議(HTTP)和超文本標記語言(HTML)逐漸成為信息共享的公共服務。
而Gopher作為互聯(lián)網(wǎng)上分布、搜索和提取文檔的TCP/IP應用層協(xié)議,可以說是早期Web的一個替代品。Gopher的出現(xiàn)導致了兩個新的搜索程序,即Veronica和Jughead的出現(xiàn)。
1993
W3CCatalog發(fā)布,它是萬維網(wǎng)上最早出現(xiàn)的搜索引擎。
1995
Sun發(fā)表Java平臺,而Java語言則是1991年發(fā)明的。該平臺在數(shù)據(jù)治理方面獲得最廣泛使用,在Web應用中尤其普及,逐漸取代了面對面的和書面的事務。
1972年開始運行的全球定位系統(tǒng)(GPS)這一年實現(xiàn)了全球運營能力。
1997
NASA阿姆斯研究中心的Michael Cox和David Ellsworth發(fā)表了一篇論述虛擬化的論文,探討了計算資源無法即時處理的過大數(shù)據(jù)集的挑戰(zhàn)。該論文寫道:“我們稱這一問題為大數(shù)據(jù)問題,”這可能是***提出大數(shù)據(jù)這一術語。
1998
Carlo Strozzi開發(fā)出一個開源關系數(shù)據(jù)庫,并稱其為NoSQL。十年后,一場開發(fā)NoSQL數(shù)據(jù)庫以處理大型、非結(jié)構化數(shù)據(jù)集的運動開始啟動。
谷歌公司誕生。
2001
萬維網(wǎng)發(fā)明人Tim Berners-Lee提出“語義Web”這一術語,夢想著機器與機器交互“會讓在Web上分析所有數(shù)據(jù)成為可能。”
維基百科發(fā)布。
2002
2001年9月11日,紐約遭受恐怖襲擊。DARPA開始研制整體情報識別系統(tǒng),綜合了生物識別、語言處理、預測模型和數(shù)據(jù)庫技術,是美國眾多情報機構所進行的新型數(shù)據(jù)采集和分析努力之一。
2003
根據(jù)IDC和EMC的研究,電腦和其他數(shù)據(jù)系統(tǒng)在這一年中所產(chǎn)生的數(shù)字信息量超過了2003年之前歷史上全人類所產(chǎn)生的信息總量。
2005
Apache Hadoop項目這一年誕生,它注定要成為治理大數(shù)據(jù)的基礎。
美國國家科學基金會建議為“足夠多的高質(zhì)量數(shù)據(jù)科學家”創(chuàng)建職業(yè)路徑,這些科學家主要處理日益增長的數(shù)字信息集合。
2008
連接到互聯(lián)網(wǎng)上的設備數(shù)量超過了世界人口總量。
2011
IBM的沃森超級計算機每秒可掃描并分析4TB(約2億頁文字量)的數(shù)據(jù)量,并在美國著名智力競賽電視節(jié)目“Jeopardy”上擊敗兩名人類選手而奪冠。
用于NoSQL數(shù)據(jù)庫的查詢語言UnQL開始研發(fā)。
2012
奧巴馬政府發(fā)布大數(shù)據(jù)研發(fā)倡議,該倡議涉及美國政府的六個部門的84項計劃。美國國家基金會同時發(fā)布了《推進大數(shù)據(jù)科學和工程的核心方法及技術》。
IDC和EMC估計,2012年將產(chǎn)生2.8ZB的數(shù)據(jù),但其中只有3%能夠當做大數(shù)據(jù)來使用,能分析的數(shù)據(jù)量則更少。該報告預計,到2020年的數(shù)字世界將擁有40ZB的容量,是全世界所有海灘全部沙粒數(shù)的57倍!