全球10大終極數據庫(下篇)
之前已經為大家介紹了全球5大***數據庫,即全球10大***數據庫(上篇)下文中將繼續為大家介紹另外5種數據庫。
6. Sprint 斯普林特
Sprint是全球***的通信公司之一,向5300萬客戶提供服務。在和Nextel合并之前,提供本地和長途通信服務。(Sprint Nextel公司現已是全美第3大通信公司,僅次于Verizon和AT&T。)
像Sprint這樣的大型通信公司,均有龐大的數據庫,以追蹤客戶呼叫請求。Sprint的數據庫每天要處理多達3.65億次呼叫記錄。其數據庫已擴展到2.85萬億行。在頂峰期間,每秒有7萬次呼叫詳細記錄新增到數據庫中。
Sprint數據庫概括:
1. 數據庫有2.85萬億行;
2. 每日平均處理3.65億個呼叫詳細記錄;
3. 頂峰期間,每秒插入7萬次呼叫詳細記錄。
7. Google
盡管目前外界沒有太多關于Google的數據庫真實大小的信息(Google一直能嚴守信息,這讓諾克斯堡軍事基地情何以堪。),但我們已知道Google所收集信息的數量和種類。
編者注:文中提到的諾克斯堡軍事基地,是美國國庫黃金儲備地之一(還有一個是西點,至于紐約聯邦儲備銀行的地下金庫,主要是存放外國的黃金。 )。該基地許多地方可以隨便開車進入,惟獨金庫用鐵絲網攔住,外人不得入內。故原文作者這樣說。
Google平均每天處理9100萬次查詢(Google的處理海量請求的能力是基于其龐大且強大的數據中心),這將近占整個互聯網每日查詢總量的50%。Google把用戶的每一次搜索保存在數據庫中。所以,Google平均一年要保存33萬億條查詢記錄。根據Google數據的結構類型,一年的查詢總量將折合成數百TB。
除了查詢記錄,Google還收集用戶的個人信息。(怎么收集?)Google把用戶的查詢請求和用戶電腦上Cookie保留的信息整合到一起,創建虛擬的個人信息。
尤為重要的是,除了搜索,Google帝國的疆土還在不斷擴大,現有疆土已有數字媒體(Google視頻和YouTube)、廣告(Google Ads)和郵箱等。歸根結底,Google的疆土越大,其數據庫處理的信息量就越大。就互聯網范圍內的數據庫而言,Google是No 1。
Google數據庫概括:
1. 平均每天9100萬查詢請求;
2. 查詢數量占所有互聯網查詢量的50%;
3. 不計其數的用戶虛擬資料。
#p#
8. AT&T 美國電話電報公司
和Sprint一樣,美國的老牌通信公司AT&T的數據庫也能進入排名。從結構上來說,AT&T的***數據庫是百里挑一的,因為它有2個 重要“頭銜”,總量***的獨立數據庫(312TB)和行數第二大的獨立數據庫(1.9萬億行,這個數據庫是處理呼叫記錄的)。
1.9萬億條呼叫記錄,包括了主叫和被叫號碼、呼叫時間和通話時長以及其他各種賬單目錄信息。AT&T的工作做得非常細致,他們業保存了10年前的呼叫信息。要知道,10年前可沒有保存數百TB級數據的技術。(或者說技術還不成熟。)
AT&T數據庫概括:
1. 信息量為323TB;
2. 1.9萬億的通話記錄。
9. 美國國家能源研究科學計算中心(簡稱NERSC)
第二大的數據庫應屬加州奧克蘭的NERSC。NERSC由“勞倫斯伯克利能源實驗室”和“美國能源部”共同運作。它數據庫保存的信息包括了原子能研究、高 能物理實驗和早期宇宙模擬等數據。如果想看宇宙過去的模樣,啟動NERSC的超級計算機就可以觀看“大爆炸”時期的宇宙形態。
編者注:NERSC有超級計算機群,其中***的名為“富蘭克林”。2009年11月,全球超超級計算機Top500排行榜中,“富蘭克林”位列15。
NERSC數據庫由2000多名計算機科學家操作和維護,其數據量高達2.8PB。(注:1 PB = 1024 TB;1 TB = 1024 GB;)
NERSC數據庫概括:
1. 信息量高達2.8PB;
2. 由2000多名計算機科學家共同運作;
10. 世界氣候數據中心(WDCC)
如果你有一臺價值3500萬歐元的超級計算機,你會把它用來做什么?炒股?搭建自己的“因特網”?WDCC就有一臺這樣的機器,又逢全球變暖,正好用它來做氣候研究。WDCC由馬克思·普朗克氣象研究院和德國氣候計算機中心共同運作,其數據庫是全球***的。
WDCC有220TB的網絡數據,包括氣候研究、預測氣候變化和110TB(24500張DVD)的氣候模擬數據。尤為重要的是,它還有保存在磁帶上的6PB的其他信息。你會問,這6PB的數據有多大呢?這個數據是全美所有學術研究圖書館內容總和的3倍。
WDCC數據庫概括:
1. 220TB的網絡數據:
2. 6PB的其他數據。
編者后話
對于這份原文作者整理的這份列表,相信有朋友會有疑惑,這能稱上是“全球10大***數據庫”么?我也有此疑問,但我對Google、AT&T、 NERSC和WDCC可以進入排名沒有疑問。我想,既然美國的第三通信公司Sprint能進入,那國內的同行企業的數據庫為什么沒能上榜呢?按道理來說, 有著龐大人口/用戶基數的,應該能入圍的。或許有這種可能:雖然美國通信企業的用戶數量沒法和國內的同行比,但他們保存的通話記錄比國內更長,故數據庫更 龐大。
其實本文恰當的標題應該是“全美10大***數據庫”。并且原文作者還把Facebook漏掉了。Facebook這么龐大的活躍用戶群(用戶總量已超過5億),看下面3個數據:(數據來源參考)
1. 每月處理超過250億條的信息內容(包括用戶狀態更新,評論等);
2. Facebook圖片總量已有200億張(其實共有800百張,因為每張圖片按4種分辨率保存);
3. 每個月有超過30億的圖片上傳到Facebook。
主要看***條數據(圖片不會保存在數據庫中的),每月有250億條,Facebook已運作這么多年了,數據庫中應該存有5000億條信息(保守數字),假設平均每條信息10B,則共約為50TB。
總而言之,如果要算數據庫總量大小,Facebook能進入這個列表。如果你還有其他觀點,不妨在評論中和大家一起分享。
【編輯推薦】