全球10大終極數(shù)據(jù)庫(kù)(上篇)
導(dǎo)讀:下文中將會(huì)詳細(xì)介紹全球5大終極數(shù)據(jù)庫(kù),幫助大家了解更多的數(shù)據(jù)庫(kù)知識(shí),是大家在以后選擇數(shù)據(jù)庫(kù)時(shí)很好的參考。
1. 美國(guó)國(guó)會(huì)圖書(shū)館
不管是不是在數(shù)字時(shí)代,全球最大的圖書(shū)館——美國(guó)國(guó)會(huì)圖書(shū)館都可以榮登這一列表。國(guó)會(huì)圖書(shū)館的藏書(shū)數(shù)量之高——1.4億多冊(cè),范圍之廣——從烹飪書(shū)籍到殖民地時(shí)期的報(bào)紙到美國(guó)政府刊物。據(jù)估計(jì),如果把國(guó)會(huì)圖書(shū)館的文字以數(shù)字形式存儲(chǔ),其總量將達(dá)20TB。
如果你(特指老美)在互聯(lián)網(wǎng)上找東西又找不到時(shí),那么國(guó)會(huì)圖書(shū)館應(yīng)是你要去的地方。對(duì)于研究美國(guó)歷史的用戶(hù)來(lái)說(shuō),國(guó)會(huì)圖書(shū)館是個(gè)必去之處,用戶(hù)訪問(wèn)國(guó)會(huì)圖書(shū)館網(wǎng)站的“美國(guó)記憶”目錄,該目錄下大約有5百萬(wàn)冊(cè)相關(guān)資料。
但不幸的是,國(guó)會(huì)圖書(shū)館并無(wú)計(jì)劃把所有的館藏內(nèi)容都數(shù)字化,并且有些館藏是限制查閱人群,只對(duì)最高法院法官、國(guó)會(huì)議員、館內(nèi)工作人員和其他政府官員。 但是,只要你有國(guó)會(huì)圖書(shū)館的借閱卡,就可以借閱(大部分)資料。(編者注:該圖書(shū)館的資料不能外借,讀者只能在館內(nèi)查閱。)
國(guó)會(huì)圖書(shū)館數(shù)據(jù)庫(kù)概括:
1. 館藏資料總量1.3億份; (包括書(shū)籍、照片和地圖等)
2. 2900萬(wàn)冊(cè)書(shū);
3. 每天新增1萬(wàn)館藏;
4. 書(shū)架長(zhǎng)度共有530英里;
5. 5百萬(wàn)份數(shù)字文檔;
6. 文字?jǐn)?shù)據(jù)總量20TB。
2. 美國(guó)中央情報(bào)局(CIA)
CIA的任務(wù)(之一)就是收集和散發(fā)各種信息和資料,所以CIA能上榜就不足為奇了。雖然CIA數(shù)據(jù)庫(kù)的總量外界不得而知,但下面這個(gè)說(shuō)法是十分肯定的。這個(gè)機(jī)構(gòu)一定收集了大量的公共信息和私人信息。(編者注:其收集信息的手段十分多樣化。)
CIA數(shù)據(jù)庫(kù)對(duì)公眾開(kāi)放的部分有:“信息自由法”電子閱覽室、“世界概況”和其他情報(bào)相關(guān)出版物。在“信息自由法”電子閱覽室中,公眾可以看到成千上 萬(wàn)的美國(guó)政府官方文檔(也有已解密的文檔)。電子閱覽室每月新增100份文檔,文檔主題內(nèi)容范圍很廣,從巴基斯坦核發(fā)展到“韓戰(zhàn)”(西方皆稱(chēng)“韓戰(zhàn)”,大 陸稱(chēng)“抗美援朝”)中的啤酒種類(lèi)。“世界概況”收藏了各個(gè)國(guó)家和地區(qū)的信息,包括地圖、人口數(shù)量和軍事能力等。
編者注:美國(guó)中央情報(bào)局圖書(shū)館電子閱覽室網(wǎng)站 根據(jù)《美國(guó)信息自由法》,美國(guó)政府公布了大批中央情報(bào)局國(guó)家情報(bào)評(píng)估等情報(bào)檔案。在該網(wǎng)站“文件搜索”框中輸入關(guān)鍵詞便可搜尋所需檔案,也可按地理、功能和形式分類(lèi)查詢(xún)。
CIA數(shù)據(jù)庫(kù)概括:
1. 電子閱覽室每個(gè)月新增100份文檔;
2. 覆蓋全球250多個(gè)國(guó)家和地區(qū)的統(tǒng)計(jì)數(shù)據(jù);
3. 數(shù)目不詳?shù)臋C(jī)密資料
#p#
3. Amazon 亞馬遜
Amazon,全球最大的零售網(wǎng)站,“收藏”了5900萬(wàn)活躍用戶(hù)的信息,包括個(gè)人信息(電話號(hào)碼等)、收據(jù)/發(fā)票、清單和還有其他能從用戶(hù)那提取的數(shù)據(jù)。Amazon也有25萬(wàn)多的在線書(shū)籍(可以全文閱讀的),并允許用戶(hù)在其各個(gè)頁(yè)面進(jìn)行評(píng)論和交互。因此,Amazon躋身為全球最大的在線社區(qū)之 一。
(不知你有注意Amazon的Logo上的箭頭么?有2層意思:1. 從A到Z是指其物品繁多;2. 笑臉。)
上述這些數(shù)據(jù)和Amazon每年的數(shù)百萬(wàn)巨額銷(xiāo)售量,再加上Amazon合伙人的巨額銷(xiāo)售量,造就了一個(gè)超大數(shù)據(jù)庫(kù)。Amazon最大的2個(gè)數(shù)據(jù)庫(kù)的數(shù)據(jù)量加起來(lái)有42TB,這還只是開(kāi)始。如果Amazon公開(kāi)其所有的數(shù)據(jù)庫(kù)數(shù)量和每個(gè)數(shù)據(jù)庫(kù)的數(shù)據(jù)量,這就不僅是42TB了。
盡管如此,我們暫且就算它42TB吧。42TB數(shù)據(jù),如果換算成論壇帖子的話,應(yīng)該是37萬(wàn)億個(gè)帖子。
編者注:我猜想,這里所說(shuō)的帖子,應(yīng)該是主題帖和回帖的統(tǒng)稱(chēng),不是特指主題帖。另外,Amazon賣(mài)出的第一本書(shū)是道格拉斯·霍夫斯塔特的《Fluid Concepts and Creative Analogies: Computer Models of the Fundamental Mechanisms of Thought》。
Amazon數(shù)據(jù)庫(kù)概括:
1. 5900萬(wàn)活躍用戶(hù);
2. 數(shù)據(jù)量超過(guò)42TB。
4. YouTube
在經(jīng)過(guò)這些年的積累發(fā)展,YouTube已經(jīng)成為全球最大的視頻庫(kù)(視頻網(wǎng)站)。如今,YouTube上每日視頻播放次數(shù)高達(dá)1億次,60%的視頻是在線觀看的。
2006年8月,《華爾街日?qǐng)?bào)》稱(chēng)YouTube的視頻總量已有45TB。相對(duì)互聯(lián)網(wǎng)上數(shù)據(jù)量來(lái)說(shuō),這個(gè)數(shù)字聽(tīng)起來(lái)不是很高,但自從這個(gè)數(shù)字公布以 來(lái),YouTube正經(jīng)歷了一段大幅增長(zhǎng)時(shí)期,(每天有65000段視頻上傳至YouTube,)所以在過(guò)去五個(gè)月中,YouTube的數(shù)據(jù)庫(kù)大小很可能 已經(jīng)翻倍了。
因?yàn)閅ouTube上的每段視頻的大小不一,所以要估計(jì)YouTube的數(shù)據(jù)庫(kù)大小并非易事。不過(guò),也可以大膽來(lái)預(yù)測(cè)一下:
每天上傳6500段視頻,故每個(gè)月共有 65000 * 30 = 1,950,000段視頻;
假設(shè)每段視頻大小為1MB,每月將有 1.95TB;
假設(shè)每段視頻大小為10MB,每月將有19.5TB。
所以,YouTube下個(gè)月將增加近20TB數(shù)據(jù)。
(編者注:YouTube上的第一段視頻是Youtube的聯(lián)合創(chuàng)始人Jawed Karim上傳的,視頻名稱(chēng)《Me at the zoo》。)
YouTube數(shù)據(jù)庫(kù)概括:
1. 每日的視頻播放量為1億次;
2. 每日新增65000段視頻;
3. 60%的視頻是在線觀看的;
4. 視頻總量大小至少是45TB。
5. ChoicePoint
設(shè)想一下:在一本10億頁(yè)的電話本上找一個(gè)電話號(hào)碼。這是一項(xiàng)什么的工作。當(dāng)你有求于ChoicePoint的時(shí)候,ChoicePoint的員工就得干這活。如果把ChoicePoint的數(shù)據(jù)庫(kù)資料全部打印出來(lái),在不這些紙張連起來(lái),其長(zhǎng)度足以在地月之間往返77回。
ChoicePoint是一家信息服務(wù)機(jī)構(gòu),你可以通過(guò)它查詢(xún)美國(guó)的人口數(shù)量、地址和電話號(hào)碼、駕駛記錄和犯罪記錄等。在大多數(shù)情況下,Choicepoint數(shù)據(jù)庫(kù)中的數(shù)據(jù)是只賣(mài)給出價(jià)最高的買(mǎi)主,包括美國(guó)政府。
ChoicePoint到底知道多少呢?2002年,借助ChoicePoint數(shù)據(jù)中的DNA和個(gè)人記錄數(shù)量,政府成功破獲了費(fèi)城和柯林斯堡的一起系列強(qiáng)/奸案。2001年,世貿(mào)中心有很多遇難者已無(wú)法辨別身份,在提取遇難者的DNA后,通過(guò)比對(duì)ChoicePoint數(shù)據(jù)庫(kù)中的遇難者家屬的數(shù)據(jù),才得以確認(rèn)遇難者身份。
ChoicePoint數(shù)據(jù)庫(kù)概括:
1. 個(gè)人數(shù)據(jù)總量為250TB;
2. 信息覆蓋2.5億人。
以上就是這五種終極數(shù)據(jù)庫(kù)的基本知識(shí),這幾種數(shù)據(jù)庫(kù)各有各的優(yōu)勢(shì),究竟哪種數(shù)據(jù)庫(kù)是最好的?這個(gè)問(wèn)題沒(méi)有確切的答案,因?yàn)?,我們不能片面的去判定那個(gè)好,那個(gè)不好,這時(shí)就要根據(jù)自身的情況,選擇一款適合自己的,只有適合自己的才是最好的。
【編輯推薦】