大數據發展簡史
以下是我所羅列的在計量數據量的歷史過程中一些具有里程碑意義的事件,以及屬于“大數據”概念進化歷程中的一些“第一次”或者是新發現。
1944年
衛斯理大學圖書館員弗萊蒙特·雷德出版了《學者與研究型圖書館的未來》一書。他估計美國高校圖書館的規模每16年就翻一番。按照這一增長速度,雷德推測2040年耶魯大學圖書館將擁有“約2億冊藏書,將占據6,000余英里書架…[需要的]編目人員超過6,000人。”
1961年
德里克·普賴斯出版了《巴比倫以來的科學》,在這本書中,普賴斯通過觀察科學期刊和論文的增長規律來研究科學知識的增長。他得出以下結論:新期刊的數量以指數方式增長而不是以線性方式增長,每15年翻一番,每50年以10為指數倍進行增長。普賴斯將其稱之為“指數增長規律”,并解釋道,“科學每前進一步就以一個相當恒定的出現率產生一系列新的進步。因此在任何時候,新科學的產生數量永遠嚴格地與科學發現總量成正比。”
1964年4月
哈里·J·格雷和亨利·拉斯頓在美國電氣與電子工程師協會(IEEE)的《電子計算機學報》上發表了《應對信息爆炸的技巧》一文,在文中,他們提出了以下建議:
1)任何人都不應該發表新論文。2)如果1)不可行,僅短小的論文可以被發表。“短小”的意思是文章不超過2,500字符,空格、標點符號都計算在內。3)如果2)被采納,則應該實行下述限制:“只有將現存總長度為2501或更多字符的文章刪除一篇或多篇,短小的文章才可以被發表。”
上述建議的實行將產生一個重要的副產品,即減輕人才選拔委員會的負擔。因為一個人的出版物列表將僅被一個負數所代替,這個負數指代了他從現有信息存儲中刪除論文的凈數目。
1967年11月
B·A·馬里恩和P·A·D·德·梅恩在《美國計算機協會通訊》上發表了《自動數據壓縮》一文,文章指出,“近年來被人們所關注的‘信息爆炸’使得對所有信息的存儲需求保持在最低限度是非常必要的。”文章描寫道:“全自動壓縮機由三部分組成,能夠快速處理信息,它可以被應用于‘任何’信息主體,大大降低了緩慢的外部存儲要求,并可以通過計算機提高信息傳輸速度。”
1971年
亞瑟·米勒在《侵犯隱私》中寫道:“太多的信息處理者看似是以個人檔案存儲容量的比特數目來衡量一個人。”
1975年
日本郵電部開始實施了“信息流普查”計劃,以調查日本的信息總量(這一思想首次是在1969年的一篇文章中提出的)。普查以“字數總量”作為所有媒體的統一衡量單位。1975年的普查已經發現信息供給要比信息消費發展得快得多。1978年的普查報告指出“人們對單向傳播的大眾傳媒所提供信息的需求停滯不前,對以雙向傳播為特征的個人通信媒體所提供信息的需求大規模增長…我們的社會正在進入一個新階段…在這一階段中,處于優勢地位的是那些能夠滿足個人需求的碎片性的、更為詳細的信息,而不再是那些傳統的被大量復制的、一致性的信息。[阿利斯泰爾·D·達夫,2000;參見馬丁·希爾伯特,2012]
1980年4月
I·A·特詹姆斯蘭德在第四屆美國電氣和電子工程師協會(IEEE)“大規模存儲系統專題研討會”上做了一個報告,題為《我們該何去何從?》。在報告中,他指出“那些很早以前就熟悉存儲裝置的人們發現,‘帕金森第一法則’可以被用來解釋我們的現狀——‘數據擴展至任何可用空間’…我相信大量數據正在被保留,因為用戶無法識別無用的數據;相較于丟棄潛在有用數據的不利后果,存儲無用數據的損失不那么明顯。”
1981年
匈牙利中央統計辦公室開始實施了一項調查國家信息產業的研究項目,包括以比特為單位計量信息量。這項研究一直持續至今。1993年,匈牙利中央統計辦公室首席科學家伊斯特萬·迪恩斯編制了一本國家信息賬戶的標準體系手冊。[見伊斯特萬·迪恩斯,1994;馬丁·希爾伯特,2012]
1983年8月
伊契爾·索勒·普爾在《科學》雜志上發表了《追蹤信息流》一文,通過對1960年到1977年17種主流通訊媒體發展趨勢的觀察,他得出如下結論“這些媒體為10歲以上的美國人創造的可用詞匯以每年8.9%的速度增長…事實上這些媒體創造的、真正參與流通的單詞僅以每年2.9%的速度增長…在上述期間,信息流的增長在很大程度上是由于廣播的發展…但是在那段時期末 [1977年]情況發生了變化:點對點的媒體比廣播發展得快。”普爾、伊諾茲、高崎、赫維茨在《通信流:一項美國與日本的信息普查》中做了后續研究,這本書對美國和日本所產生的信息量進行了比較。
1986年7月
哈爾·B·貝克爾在《數據通信》上發表了《用戶真的能夠以今天或者明天的速度吸收數據嗎?》一文。貝克爾預計“古滕堡所實現的記錄密度大約是每立方英尺500個符號(字符),是公元前4,000年蘇美爾人泥土片記錄密度的500倍。到2000年,半導體隨機存取存儲器將能夠在每立方英尺存儲1.25×1011個字節。”
對于數據存儲而言,1996年數字存儲就比紙張存儲更能節約成本,這是R·J·T·莫里斯和B·J·特拉斯克渥奇在2003年7月1日《IBM系統期刊》上所發表的《存儲系統的演進》一文中指出的。
1997年10月
邁克爾·考克斯和大衛·埃爾斯沃思在第八屆美國電氣和電子工程師協會(IEEE)關于可視化的會議論文集中發表了《為外存模型可視化而應用控制程序請求頁面調度》的文章。文章以下述內容開頭:“可視化對計算機系統提出了一個有趣的挑戰:通常情況下數據集相當大,耗盡了主存儲器、本地磁盤、甚至是遠程磁盤的存儲容量。我們將這個問題稱為大數據。當主存儲器(內核)無法容納數據集,或者當本地磁盤都無法容納數據集的時候,最常用的解決辦法就是獲取更多的資源。”這是在美國計算機學會的數字圖書館中第一篇使用“大數據”這一術語的文章。
1997年
邁克爾·萊斯克發表了《世界上究竟有多少信息?》一文,萊斯克得出以下結論“世界上的信息總量近乎幾千PB;到2000年,磁帶和磁盤的生產將達到上述水平。因此,在短短幾年內,(a)我們可以存儲任何信息——沒有信息不得不被放棄,(b)人們再也不會看到典型的信息片段。”
1998年10月
K·G·科夫曼和安德魯·奧德里科發表了《互聯網的規模與增長速度》一文。他們認為“公共互聯網流量的增長速度,雖然比通常認為的要低,卻仍然以每年100%的速度增長,要比其他網絡流量的增長快很多。然而,如果以當前的趨勢繼續發展,在2002年左右,美國的數據流量就要趕超聲音流量,且將由互聯網主宰。”奧德里科隨后建立了明尼蘇達互聯網流量研究所(MINTS),跟蹤2002年到2009年互聯網流量的增長情況。
1999年8月
史蒂夫·布賴森、大衛·肯懷特、邁克爾·考克斯、大衛·埃爾斯沃思以及羅伯特·海門斯在《美國計算機協會通訊》上發表了《千兆字節數據集的實時性可視化探索》一文。這是《美國計算機協會通訊》上第一篇使用“大數據”這一術語的文章(這篇文章有一個部分的標題為“大數據的科學可視化”)。文章開篇指出:“功能強大的計算機是許多查詢領域的福音。它們也是禍害;高速運轉的計算產生了規模龐大的數據。曾幾何時我們認為兆字節(MB)的數據集就很大了,現在我們在單個模擬計算中就發現了300GB范圍的數據集。但是研究高端計算產生的數據是一個很有意義的嘗試。不止一位科學家曾經指出,審視所有的數字是極其困難的。正如數學家、計算機科學家先驅理查德·W·海明指出的,計算的目的是獲得規律性的認識,而不是簡單地獲得數字。”10月份,在美國電氣和電子工程師協會(IEEE)1999年關于可視化的年會上,布賴森、肯懷特、海門斯與大衛·班克斯、羅伯特·范·里拉和山姆·思爾頓在名為“自動化或者交互:什么更適合大數據?”的專題討論小組中共同探討大數據的問題。
2000年10月
彼得·萊曼與哈爾·R·瓦里安在加州大學伯克利分校網站上發布了一項研究成果:《信息知多少?》。這是在計算機存儲方面第一個綜合性地量化研究世界上每年產生并存儲在四種物理媒體:紙張、膠卷、光盤(CD與DVD)和磁盤中新的以及原始信息(不包括備份)總量的成果。研究發現,1999年,世界上產生了1.5EB獨一無二的信息,或者說是為地球上每個男人、每個女人以及每個孩子產生了250MB信息。研究同時發現,“大量唯一的信息是由個人創造和存儲的”(被稱為“數字民主化”),“數字信息產品不僅數量龐大,而且以最快的速度增長”。作者將這項發現稱為“數字統治”。萊曼和瓦里安指出,“即使在今天,大多數文本信息都是以數字形式產生的,在幾年之內,圖像也將如此。”2003年,萊曼與瓦里安發布了最新研究成果:2002年世界上大約產生了5EB新信息,92%的新信息存儲在磁性介質上,其中大多數存儲在磁盤中。
2001年2月
梅塔集團分析師道格·萊尼發布了一份研究報告,題為《3D數據管理:控制數據容量、處理速度及數據種類》。十年后,3V作為定義大數據的三個維度而被廣泛接受。
2005年9月
蒂姆·奧萊利發表了《什么是Web2.0》一文,在文中,他斷言“數據將是下一項技術核心”。奧萊利指出:“正如哈爾·瓦里安在去年的一次私人談話中所說的,‘結構化查詢語言是一種新的超文本鏈接標示語言’。數據庫管理是Web2.0公司的核心競爭力,以至于我們有些時候將這些應用稱為‘訊件’,而不僅僅是軟件。”
2007年3月
約翰·F·甘茨,大衛·萊茵澤爾及互聯網數據中心(IDC)其他研究人員出版了一個白皮書,題為《膨脹的數字宇宙:2010年世界信息增長預測》。這是第一份評估與預測每年世界所產生與復制的數字化數據總量的研究。互聯網數據中心估計,2006年世界產生了161EB數據,并預測在2006年至2010年間,每年為數字宇宙所增加的信息將是以上數字的六倍多,達到988EB,或者說每18個月就翻一番。據2010年和2011年同項研究所發布的信息,每年所創造的數字化數據總量超過了這個預測,2010年達到了1,200EB,2011年增長到了1,800EB。
2008年1月
布雷特·斯旺森和喬治·吉爾德發表了《評估數字洪流》一文,在文中他們提出到2015年美國IP流量將達到1ZB,2015年美國的互聯網規模將至少是2006年的50倍。
2008年6月
思科發布了一份報告,題為《思科視覺網絡指數——預測與方法,2007-2012》,作為“持續跟蹤和預測視覺網絡應用影響的行動”的一部分。這份報告預言,“從現在到2012年,IP流量將每兩年翻一番”,2012年IP流量將達到0.5ZB。這份預測比較準確,正如思科最近一份報告(2012年5月30日)指出的,2012年IP流量剛剛超過0.5ZB,“在過去的5年中增長了8倍”。
2009年12月
羅杰·E·博恩和詹姆斯·E·少特發表了《信息知多少?2009年美國消費者報告》。研究發現,2008年“美國人消費了約1.3萬億小時信息,幾乎平均每天消費12小時。總計3.6澤字節(ZB),10,845萬億單詞,相當于平均每人每天消費100,500單詞及34GB信息。博恩、少特和沙坦亞·巴魯在2011年1月發表了《信息知多少?2010年企業服務器信息報告》,繼續上述研究。在文中他們估計,2008年“世界上的服務器處理了9.57ZB信息,幾乎是95,700,000,000,000,000,000,000字節信息,或者是10萬億GB。也就是平均每天每個工作者產生12GB信息,或者每年每個工作者產生3TB 信息。世界上所有的公司平均每年處理63TB信息。”
2010年2月
肯尼斯·庫克爾在《經濟學人》上發表了一份關于管理信息的特別報告《數據,無所不在的數據》。庫克爾在文中寫道:“…世界上有著無法想象的巨量數字信息,并以極快的速度增長…從經濟界到科學界,從政府部門到藝術領域,很多地方都已感受到了這種巨量信息的影響。科學家和計算機工程師已經為這個現象創造了一個新詞匯:‘大數據’。”
2011年2月
馬丁·希爾伯特和普里西拉·洛佩茲在《科學》雜志上發表了《世界存儲、傳輸與計算信息的技術能力》一文。他們估計1986至2007年間,世界的信息存儲能力以每年25%的速度增長。同時指出,1986年99.2%的存儲容量都是模擬性的,但是到了2007年,94%的存儲容量都是數字化的,兩種存儲方式發生了角色的根本性逆轉(2002年,數字化信息存儲第一次超過非數字化信息存儲)。
2011年5月
麥肯錫全球研究院的詹姆斯•馬尼卡、邁克爾·崔、布雷德·布朗、杰克斯·卜黑、理查德·多布斯、查爾斯·羅克斯伯勒以及安杰拉·孔·拜爾斯發布了《大數據:下一個具有創新力、競爭力與生產力的前沿領域》。他們指出:“到2009年,對于美國所有的經濟部門而言,平均每個有1,000名以上員工的公司所存儲的數據至少有200TB(是美國零售商沃爾瑪在1999年數據倉儲的兩倍)”證券和投資服務部門所存儲的數據處于領先地位。總的來講,這項研究估計2010年所有的公司存儲了7.4EB新產生的數據,消費者存儲了6.8EB新數據。
2012年4月
《國際通信學報》出版了“信息計量”專題,這是多種測量信息量的研究方法與研究結果的專題。在《追蹤家庭信息流》一文中,諾伊曼、帕克和潘尼克(運用前文提到的日本郵電部和普爾的研究方法)估計,為美國家庭所提供的所有媒體信息從1960年的每天50,000分鐘增長到2005年的900,000分鐘。根據2005年的供需比例,他們估計美國人“1分鐘所需消費的信息有1,000分鐘的媒體內容可供選擇。”在《信息的國際化生產與傳播》一文中,邦妮和吉爾(運用上文中萊曼和瓦里安的研究方法)估計2008年世界產生了14.7EB新信息,接近2003年信息總量的三倍。
注釋:我有意沒有考慮對信息價值(和成本)的討論,及用金融術語和/或信息/知識工作者的數量來衡量信息經濟(例如馬克盧普、波拉特、謝曼特)的嘗試。同樣沒有考慮的還有很多有意思的關于“信息超載”的參考文獻,或者是相似的術語,詹姆斯·格雷克在最近出版的《信息》(詳見第15章)一書中對這些術語進行了調查。格雷克在克勞德·申農的注釋中發現了申農(1949年)試圖判定具有“比特存儲容量”的各種事物,如穿孔卡片、“人類遺傳學構造”(格雷克指出,申農是提出“基因組是一個信息庫,并以比特為單位進行衡量”的第一人)、唱片。在申農的列表里,最大條目是擁有100萬億兆比特的美國國會圖書館。
如果您認為還有相關事件、里程碑、研究、或者發現,請告知我。
譯者附:
字節的次方單位
十進制前綴 (SI) |
二進制前綴 (IEC 60027-2) |
|||||
名稱(英) |
名稱(中) |
縮寫 |
次方 |
名稱 |
縮寫 |
次方 |
kilobyte |
千字節 |
KB |
103 |
kibibyte |
KiB |
210 |
megabyte |
兆字節 |
MB |
106 |
mebibyte |
MiB |
220 |
gigabyte |
吉字節 |
GB |
109 |
gibibyte |
GiB |
230 |
terabyte |
太字節 |
TB |
1012 |
tebibyte |
TiB |
240 |
petabyte |
拍字節 |
PB |
1015 |
pebibyte |
PiB |
250 |
exabyte |
艾字節 |
EB |
1018 |
exbibyte |
EiB |
260 |
zettabyte |
澤字節 |
ZB |
1021 |
zebibyte |
ZiB |
270 |
yottabyte |
堯字節 |
YB |
1024 |
yobibyte |
YiB |
280 |