大數(shù)據(jù)史記2013:盤點中國2013行業(yè)數(shù)據(jù)量
說人類步入了信息時代,有個事情是非常重要的,就是物理世界的信息化,包括信息基礎設施建設和數(shù)字化,緊接著就是如何將數(shù)字化的東西(數(shù)據(jù))進行儲存、傳輸、交換以及使用,這一脈絡伴隨著移動互聯(lián)網(wǎng),云計算、大數(shù)據(jù)以及各種各樣智能終端的出現(xiàn),顯得也越來越清晰。很多人都已認可,我們可能來到一個工業(yè)革命之后,一個比我們想象地更加重要的變革時代,我們把它命名為產(chǎn)業(yè)互聯(lián)網(wǎng)的時代。畢竟這一切都是互聯(lián)網(wǎng)出現(xiàn)之后才發(fā)生的,無論是云,通過網(wǎng)絡隨需調(diào)用的計算資源;大數(shù)據(jù),關聯(lián)的可分析在線數(shù)據(jù);還是各種智能終端,都要依托互聯(lián)網(wǎng)。同時這些工具又幫助互聯(lián)網(wǎng)從消費互聯(lián)網(wǎng)進化到改變各個行業(yè)的生產(chǎn)性互聯(lián)網(wǎng),其中,數(shù)據(jù)成為產(chǎn)業(yè)互聯(lián)網(wǎng)重要的生產(chǎn)要素。當然,數(shù)據(jù)成為生產(chǎn)要素還有個前提,就是獲取數(shù)據(jù),并有效的梳理與標簽。
2013 年中國產(chǎn)生的數(shù)據(jù)總量超過0.8ZB(相當于8億TB),2 倍于2012 年,相當于2009 年全球的數(shù)據(jù)總量。預計到2020 年,中國產(chǎn)生的數(shù)據(jù)總量將是2013年的10倍,超過8.5ZB。(來源,ZDNET《數(shù)據(jù)中心2013:硬件重構與軟件定義》年度技術報告)
我們通過服務器和數(shù)據(jù)中心數(shù)量,以及各行業(yè)數(shù)據(jù)梳理,大致判斷國內(nèi)目前一年產(chǎn)生、存儲的數(shù)據(jù)總量以及大致分布,在這一回中,我們嘗試將所收集的資料匯總起來,進一步分析下各個行業(yè)、領域的數(shù)據(jù)總量和分布情況,以供參照。
1、BAT代表的互聯(lián)網(wǎng)公司
(百度)現(xiàn)在的數(shù)據(jù)總量接近一千個PB左右,網(wǎng)頁的數(shù)量大概是幾千億的網(wǎng)頁,從大量的網(wǎng)頁里面我們拿出幾百億來建索引,對于大量的網(wǎng)頁,我們每年更新幾十億左右,每天會享受用戶的查詢也會在幾十億左右,我們查詢的也是幾百PB。(百度云計算首席架構師林仕鼎2013)
根據(jù)公開的信息,作為全球最大的中文搜索引擎,百度每天響應來自138個國家和地區(qū)的數(shù)十億次請求,百度每日新增數(shù)據(jù)10TB,要處理超過100PB的數(shù)據(jù),從浩如煙海的信息中精確抓取約10億網(wǎng)頁,同時索引庫還擁有千億級在線索引能力,以幫助用戶完成搜索過程。面對海量的大數(shù)據(jù),百度正在通過自建數(shù)據(jù)中心,開發(fā)了自己的大數(shù)據(jù)存儲系統(tǒng),并使用了多項新技術。計劃投資47.08億元的百度云計算(陽泉)中心已于2012年8月奠基,該項目預計2015年完工。建成后的百度云計算(陽泉)中心數(shù)據(jù)存儲量將超過4000PB,可存儲的信息量相當于20多萬個中國國家圖書館的藏書總量。
百度的數(shù)據(jù)量大大家可能不會懷疑,甚至說中國擁有最大數(shù)據(jù)量的公司,大家可能也不會懷疑。因為我們是提供搜索服務,我們要把全中國的中文網(wǎng)頁全部搜索起來,放到我們中心。全部的網(wǎng)頁多大呢?目前估計是三千億左右,三千億個中文網(wǎng)頁要把它全部抓過來,放到我們的數(shù)據(jù)中心。這個數(shù)據(jù)大概是10-50個PB,這個范圍很大,因為這個情況是每隔一小時時間就會發(fā)生很大變化。再一個想不到的是日志,百度的系統(tǒng)里面每天有很多大量的日志,這些日志是作為我們分析處理用戶行為習慣,包括數(shù)據(jù)恢復和災難備份很重要的基礎,這個數(shù)據(jù)量是最大的,目前能達到100個PB以上。數(shù)據(jù)倉庫,數(shù)據(jù)倉庫是經(jīng)過清洗以后的日志信息,這個是結構化的。再一個大家知道,百度上有百度推廣,俗話叫廣告。和傳統(tǒng)廣告一樣,除了有客戶的信息之外,還有廣告本身,這部分數(shù)據(jù)比較小,1TB,但是這部分數(shù)據(jù)對它處理的要求非常高,首先是要高度的一致性。最后一個是UGC,用戶產(chǎn)生的內(nèi)容,大家都知道百度有貼吧,有百度知道,百度文庫,這些內(nèi)容是廣大互聯(lián)網(wǎng)網(wǎng)民自己產(chǎn)生,自己上傳,大家一起分享的數(shù)據(jù),這部分數(shù)據(jù)目前達到1PB,而且這里的數(shù)據(jù)大量是用戶上傳的視頻、圖片等等多媒體的數(shù)據(jù)。(百度技術委員會理事長陳尚義2012)
擁有近5億注冊用戶,2013年有篇報道指出阿里巴巴掌握的總體數(shù)據(jù)量為30P。行業(yè)內(nèi)部人士預計阿里集團大概有30萬臺左右服務器,目前保存的數(shù)據(jù)量應該在近百PB(對新浪微博的投資,對高德等的收購等行為,會進一步提高阿里巴巴可接觸的數(shù)據(jù)量)。2012年7月10日,阿里集團就宣布設立首席數(shù)據(jù)官崗位(CDO),負責推進“數(shù)據(jù)分享平臺”戰(zhàn)略。阿里巴巴也一直在嘗試對數(shù)據(jù)進行加工。從早期的“淘寶指數(shù)”,到為店鋪經(jīng)營提供運營管理數(shù)據(jù)分析的“數(shù)據(jù)魔方”,到將“云”理念與大數(shù)據(jù)結合的“聚石塔”,再到以數(shù)據(jù)分析為基石的“阿里金融”,阿里在大數(shù)據(jù)開發(fā)方面一直走在業(yè)界前沿。
從淘寶創(chuàng)立之時,阿里巴巴就開始搜集平臺上的數(shù)據(jù),直至支付寶、聚劃算、一淘等平臺,隨著業(yè)務的爆發(fā)式增長,阿里諸平臺上的數(shù)據(jù)成倍增加,匯集成海。這些數(shù)據(jù)包括交易數(shù)據(jù)、用戶瀏覽和點擊網(wǎng)頁數(shù)據(jù)、購物數(shù)據(jù)等等。阿里集團首席戰(zhàn)略官曾鳴預測,“阿里本質(zhì)上,未來會是一家數(shù)據(jù)運營公司。”前者,是如何將大數(shù)據(jù)用好,而后者則意味著,如何讓大數(shù)據(jù)更好用。
在2013年大數(shù)據(jù)大會上,騰訊公司數(shù)據(jù)平臺助理總經(jīng)理蔣杰表示,在國內(nèi)互聯(lián)網(wǎng)體系中,騰訊擁有的數(shù)據(jù)覆蓋多個領域,總存儲數(shù)據(jù)量經(jīng)壓縮處理以后在100PB左右。
騰訊QQ目前擁有8億用戶,4億移動用戶,在數(shù)據(jù)倉庫存儲的數(shù)據(jù)量單機群數(shù)量已達到4400臺,總存儲數(shù)據(jù)量經(jīng)壓縮處理以后在100PB左右,并且這一數(shù)據(jù)還在以日新增200TB到300TB,月增加10%的數(shù)據(jù)量不斷增長,現(xiàn)在正在為1000個PB做準備。亞洲最大的數(shù)據(jù)承載中心,騰訊天津研發(fā)與數(shù)據(jù)存儲中心正在濱海新區(qū)緊張地建設中,騰訊天津中心項目總建筑面積9.33萬平方米,預計服務器托管能力超過10萬臺。
其他像360、一些地圖、社交、影視娛樂類互聯(lián)網(wǎng)公司,也擁有PB量級數(shù)據(jù)儲備。如果按某媒體所說的BAT中阿里巴巴擁有90%以上的電商數(shù)據(jù),百度以70%以上的搜索市場份額坐擁龐大的搜索數(shù)據(jù),騰訊擁有大量社交、游戲等領域積累的文本、音頻、視頻和關系類數(shù)據(jù),這三大巨頭擁有的數(shù)據(jù)量肯定是在EB級別以上,全部互聯(lián)網(wǎng)公司擁有的數(shù)據(jù)量應該超過1.5EB,達到接近2EB的體量。
2、電信、金融、保險、電力、石化系統(tǒng)
2012年12月13日,在由云基地主辦的“中關村大數(shù)據(jù)日”活動上,中國聯(lián)通研究院副院長黃文良介紹,“今年,中國聯(lián)通成功將大數(shù)據(jù)和Hadoop技術引入到”移動通信用戶上網(wǎng)記錄集中查詢與分析支撐系統(tǒng)”。截止到目前,我們已經(jīng)部署了4.5PB的存儲空間。除了這些數(shù)據(jù),運營商還具有用戶通話、信息、地理位置等信息,目前主要運營商擁有的數(shù)據(jù)數(shù)量應該都在10PB以上,總體年度用戶數(shù)據(jù)增長約數(shù)十個PB。
中國銀聯(lián)公開數(shù)據(jù)顯示,全國僅“銀聯(lián)”銀行卡發(fā)行量目前接近40億張,每天有近600億交易通過銀聯(lián)的銀行卡交易,盡管單張卡片數(shù)據(jù)量不大,但匯總起來,這依舊是一個非常龐大的數(shù)據(jù)量。如果再加上開戶信息數(shù)據(jù),銀行網(wǎng)點和在線交易的各種數(shù)據(jù),以及金融系統(tǒng)自身運營的數(shù)據(jù),目前國內(nèi)銀行和金融系統(tǒng)每年產(chǎn)生的數(shù)據(jù)也能達到數(shù)十PB,保險系統(tǒng)生成的數(shù)據(jù)量也會接近PB級別。
今天,國家電網(wǎng)建成世界最大電能計量自動化系統(tǒng)。截至2013年年底,累計安裝智能電能表1.82億只,實現(xiàn)采集1.91億戶,采集覆蓋率56%,自動抄表核算率超過97%。智能電網(wǎng)可以產(chǎn)生巨大的數(shù)據(jù)量。比如國網(wǎng)信通在北京五個小區(qū), 353個采集點,采集1.2萬個參數(shù),包括頻率、電壓、電流等, 15分鐘采集一次,一天就能產(chǎn)生34GB。僅國家電網(wǎng),全國能夠采集獲得的數(shù)據(jù)總量也是上10個PB級別的,能夠保存下來的數(shù)據(jù)量也能達到近10PB,同樣,據(jù)內(nèi)部資料分析,石油化工、智能水表等領域每年產(chǎn)生和保存下來的數(shù)據(jù)量也達到數(shù)十PB級別。
3、公共安全、醫(yī)療、交通領域
隨著平安城市、智慧城市等工程的推進,監(jiān)控攝像頭已經(jīng)遍布大街小巷,安防監(jiān)控對高清化、智能化、網(wǎng)絡化、數(shù)字化的要求越來越高,數(shù)據(jù)量自然也不斷地迅速增加。據(jù)說,1080P高清網(wǎng)絡攝像機 ,速度能夠達到每秒60幀,這樣的攝像機一個月產(chǎn)生的視頻文件就達1.8T。北京目前用于視頻監(jiān)控的攝像頭有50萬個,一個攝像頭一個小時的數(shù)據(jù)量就是幾G,每天北京市的視頻采集數(shù)據(jù)量在3PB左右,而一個中等城市每年視頻監(jiān)控產(chǎn)生的數(shù)據(jù)在300PB左右。盡管出于成本考慮,很多監(jiān)控視頻具備定期清除循環(huán)的特點,但整個視頻監(jiān)控每年能夠保存下來的數(shù)據(jù),每年也在數(shù)百PB以上。
與此相關的交通方面,航班往返一次能產(chǎn)生數(shù)據(jù)就達到TB級別,還有列車、水陸路運輸產(chǎn)生的各種數(shù)據(jù)視頻、文本類數(shù)據(jù),每年也在百PB級別,能夠保存下來的,也能達到數(shù)十PB。
北京市交通運行監(jiān)測調(diào)度中心建立了包含“交通數(shù)據(jù)中心、監(jiān)測預警中心、運行協(xié)調(diào)中心、綜合交通信息發(fā)布中心”在內(nèi)的四大中心,實現(xiàn)運行監(jiān)測、協(xié)調(diào)聯(lián)動、決策支持與信息服務等功能,并為政府決策、行業(yè)監(jiān)管、企業(yè)運營、百姓出行等提供服務支持。具體來看,TOCC已整合接入行業(yè)內(nèi)外27個應用系統(tǒng)、6000多項靜動態(tài)數(shù)據(jù)、6萬多路視頻,目前靜動態(tài)數(shù)據(jù)存儲達到20T,每天數(shù)據(jù)增量達30G左右。(北京市交通運行監(jiān)測調(diào)度中心(TOCC)副主任張可)
上海申康醫(yī)院發(fā)展中心牽頭完成的“醫(yī)聯(lián)工程”項目將大數(shù)據(jù)應用于健康醫(yī)療產(chǎn)業(yè),該項目覆蓋38家市級三甲醫(yī)院,實現(xiàn)了市-區(qū)各級醫(yī)院間大規(guī)模臨床信息實時共享以及健康檔案動態(tài)更新,高效存儲檢索解決了海量影像信息高效存儲、傳輸和展示的難題,建立了PB級醫(yī)學影像檔案庫。有媒體報道說:“中國一線的大型城市,僅僅健康檔案的數(shù)據(jù),一年就有5PB之多。”醫(yī)療健康衛(wèi)生領域無疑是一個很大數(shù)據(jù)來源,包括疾病監(jiān)控等方面的數(shù)據(jù)。比如,醫(yī)療數(shù)據(jù)一個大腦的CT掃描圖要讓它分辨率很高,微米的數(shù)據(jù)量產(chǎn)生是4.5TB的數(shù)據(jù)。例如像廣州中山大學醫(yī)院2013年數(shù)據(jù)是1000個TB。有統(tǒng)計表明,中國一個中等城市(一千萬人口)50年所積累的醫(yī)療數(shù)量可達到10PB。如此推算,整個醫(yī)療衛(wèi)生行業(yè),一年能夠保存下來的數(shù)據(jù)就可以達到數(shù)百PB。
“大型醫(yī)院每年的數(shù)據(jù)增量在數(shù)十TB,僅醫(yī)學影像每年可達20TB。” 一個CT圖像含有大約150MB的數(shù)據(jù)容量,而一個基因組序列文件大小約為750MB,一個標準的病理圖與前兩者相比則大得多,文件大小接近5GB。如果將這些數(shù)據(jù)量乘以人口數(shù)量和平均壽命,僅一個社區(qū)醫(yī)院或一個中等規(guī)模制藥企業(yè)就可以生成和累積達數(shù)個TB甚至數(shù)個PB級的結構化和非結構化數(shù)據(jù)。(某大型三甲醫(yī)院計算機室主任)
4、氣象、教育、地理、政務等
目前,整個中國氣象局所保存的數(shù)據(jù)在4~5PB左右,每年大概增加數(shù)百個TB左右。包含了地面觀測、衛(wèi)星、雷達和數(shù)據(jù)預報產(chǎn)品等幾大類的觀測數(shù)據(jù)。各種地圖和地理位置信息應該每年在數(shù)十PB,但此次信息容易和互聯(lián)網(wǎng)公司以及交通運輸、物流行業(yè)產(chǎn)生信息重疊,單獨占有和保存的此類信息應該在PB級別。
除了常規(guī)的地面觀測站之外,以氣象衛(wèi)星和多普勒天氣雷達為代表的遙感遙測業(yè)務領域近三十年來取得飛速發(fā)展,這些領域一方面每天產(chǎn)生著數(shù)以TB級的觀測數(shù)據(jù)。(國家氣象信息中心副總工程師沈文海)
據(jù)悉,一個智慧城市的數(shù)據(jù)一個季度就是200PB之多。2013年,北京市政務數(shù)據(jù)資源網(wǎng)試運行一年來,已上線公布了400余個數(shù)據(jù)包,涵蓋旅游、教育、交通、醫(yī)療等門類,累計訪問量超過600萬次,地理空間數(shù)據(jù)累計下載量4800余次。有調(diào)查顯示,未來1-2年中國政府部門的數(shù)據(jù)規(guī)模超過100TB的將超過一半,達到53.3%,有將近三成(33.3%)的用戶數(shù)據(jù)規(guī)模是10-50TB。政府部門的數(shù)據(jù)多數(shù)還是集中在結構化數(shù)據(jù)上,對于非結構化數(shù)據(jù)的擁有量并沒有想象的大。整個政府部門產(chǎn)生的數(shù)據(jù),排除上述提到的幾個主要部分,也能達到PB級別。
目前,絕大多數(shù)中央部委和省級政府部門的核心業(yè)務都有數(shù)據(jù)庫支撐,核心業(yè)務數(shù)據(jù)庫覆蓋率超過80%。公安部建成了覆蓋13億人口的國家人口數(shù)據(jù)庫。國家工商總局建成了企業(yè)法人數(shù)據(jù)庫,民政部和中央編制辦公室初步建成了社會團體和事業(yè)單位信息庫,全國四級國土資源主管部門積累了近6000TB的數(shù)據(jù),國家統(tǒng)計局建成了統(tǒng)計信息庫,國家發(fā)展和改革委牽頭的自然資源和空間地理基礎信息庫正在加緊建設。此外,金融、稅務、質(zhì)檢、社保、教育等領域也都建成了一批信息庫。
5、其他,商業(yè)銷售、制造業(yè)、農(nóng)業(yè)、物流和流通等領域
隨著產(chǎn)業(yè)互聯(lián)網(wǎng)的普及,(線下)商業(yè)銷售、制造業(yè)、農(nóng)林牧漁業(yè)、(線下)餐飲、食品、科研、物流運輸?shù)鹊冗@些傳統(tǒng)行業(yè)的數(shù)據(jù)量將呈現(xiàn)迅速增長態(tài)勢,但目前來說,目前這些行業(yè)數(shù)據(jù)量還處于積累期,整個體量都不算大,多的達到PB級別,基本也就是百TB甚至數(shù)十TB級別。另外,中國國家圖書館藏書是2631萬冊,這相當于41TB。影視娛樂、出版?zhèn)髅椒矫嬉灿幸欢康臄?shù)據(jù)積累,還有教育方面目前也在產(chǎn)生著大量的數(shù)據(jù),這些都是未來可以挖掘的方向。
制造業(yè)的存儲數(shù)據(jù)一般被分為以下幾種類型:其一,產(chǎn)品設計數(shù)據(jù),這類數(shù)據(jù)的典型特點是以文件為主,非結構化,共享要求比較高,保存時間也比較長;其二,企業(yè)生產(chǎn)環(huán)節(jié)的業(yè)務數(shù)據(jù),其特點是以數(shù)據(jù)庫等結構化數(shù)據(jù)為主,這些數(shù)據(jù)的重要性不言而喻,它們不僅表現(xiàn)企業(yè)目前運行的狀況,而且為企業(yè)進一步發(fā)展決策提供有價值的分析;其三,生產(chǎn)監(jiān)控數(shù)據(jù),其特點是數(shù)據(jù)量非常大,對存儲空間以及I/O吞吐要求高。制造企業(yè)中,企業(yè)對數(shù)據(jù)的記錄多停留于兩種形態(tài):1、傳統(tǒng)的紙筆記錄;2、Excel電子表格記錄。這些操作起來看似簡單的數(shù)據(jù)管理方式,在浪費人力物力的同時,還為企業(yè)生產(chǎn)及質(zhì)量監(jiān)控埋下了巨大的隱患。而真正挖掘數(shù)據(jù)背后的價值,更是無從談起。
最后,我們再從IDC使用行業(yè)分布看一看,互聯(lián)網(wǎng)客戶仍舊是主要快速增長的客戶群體,占到40%左右,電信、生產(chǎn)制造行業(yè)也屬于使用比較多的,政府、教育行業(yè)增長較快,所占比例分別為8.7%和7.8%。數(shù)據(jù)存儲需求方面,據(jù)IDC預測,存儲市場將繼續(xù)表現(xiàn)出良好的增長勢頭。在未來五年,存儲數(shù)據(jù)容量將達到15864PB(另一數(shù)據(jù)是18EB),其中尤以政府、醫(yī)療、教育等行業(yè)增長迅速,所占份額最重。
原文鏈接:http://www.36dsj.com/archives/6285