成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

偌大的數據都在哪里?——大數據創業者的尋寶圖

云計算
科研數據屬于大數據時代前很久就存在的史前生物,可能來自生物工程、天文望遠鏡或粒子對撞機,不一而足。這些數據存在于封閉系統中,玩家都是傳統上做高性能計算(HPC)的企業,這里不再展開。

大數據蕩漾了無數創業者和技術男的春心。而它作為一個典型的2B市場,創業者們面對的是什么樣的B呢?哪些行業會擁有大數據呢?大數據通常分為四類:科研數據,互聯網數據,企業數據,和感知數據。

科研數據屬于大數據時代前很久就存在的史前生物,可能來自生物工程、天文望遠鏡或粒子對撞機,不一而足。這些數據存在于封閉系統中,玩家都是傳統上做高性能計算(HPC)的企業,這里不再展開。值得一提的是,常常聽到這些企業憤憤不平地說很多大數據技術是他們發明的,大數據只是某些人創造和炒作的新概念。公允地講,很多大數據技術脫胎于HPC不假。只是這些老兄也未必純潔。早在大數據作為一個新概念出現之前,他們就開始炒一個概念,Data Intensive Scalable Computing (DISC)。DISC挾數據庫老法師JimGray(彼時Jim公在微軟研究院做天文數據處理的研究)第四范式(The Fourth Paradigm)之名,居高臨下卻未能君臨天下。有很多原因,如DISC沒有Big Data響亮,Jim公離奇海上失蹤,等等。但在下認為最主要的原因還是格局小了,只盯著高富帥的科研數據,而忽略了大眾市場。

互聯網大數據是目前這個時代的主流,尤其社交媒體被認為是大數據的爆發點。幾乎所有的大數據技術都起源于互聯網企業。所有這些企業當中,做搜索的最大,不說谷歌,百度也達到了千PB的規模。Facebook、Yahoo等都在數百PB,Amazon、阿里應該也同在此列。互聯網數據增長的驅動力一是梅特卡夫定律(互聯網企業的價值與用戶數的平方成正比),二是扎克伯格反復引用的信息分享理論:一個人分享的信息每一到兩年翻番。

大型互聯網企業的大數據生態系統也比較獨特,一方面不同程度上參與開源,一方面維護自給自足的生態系統,甚至連硬件都越來越依靠自己了:從谷歌開始,后有Facebook的Open Compute Project,國內有TAB主導的天蝎計劃。大型互聯網公司不只是自身產生大體量數據,它還有平臺級的帶動作用,如Facebook之于Zynga。阿里牽頭做數據交換平臺也是件好事。

對于中型互聯網公司來說,基本上也能夠維持大數據技術團隊,只不過與大型互聯網公司的核心開發能力和社區貢獻能力相比,他們更多部重兵在外圍開發、優化和運維。當然,他們多少會有一些絕招,比如豆瓣的推薦,暴風的Hadoop管理。

三線互聯網公司有數據但沒有大數據能力,這催生了一些大數據技術和服務的機會,如百分點為電商網站做個性化推薦和營銷分析,各類廣告聯盟、移動應用服務平臺為網站和移動應用提供統計分析、營銷服務等。

進入移動互聯網時代后,移動平臺的感知功能和LBS的普及,使得互聯網數據與感知數據產生了重疊。同樣,企業數據和感知數據本質上也并不是所謂MECE(不重復、不遺漏)的劃分,如企業會部署物聯網收集感知數據。之所以把它們分為兩類,是傳統上認為企業數據是人產生的,感知數據是物、傳感器、標識等機器產生的。感知數據的體量要大得多,Teradata預測感知數據的總量在2015年超過社交媒體,并達到后者的10-20倍。重慶平安城市項目在薄王出事前規劃了50萬攝像頭,數據存儲需求要達到百PB級別,不亞于世界級的互聯網公司。相比而言,企業的數據比起十年前并沒有數量級的提升,只不過在傳統結構化數據的基礎上加入了非結構化數據的內容。

把企業數據和感知數據放在一起講是因為它們都涉及傳統產業,從經濟總量上要比互聯網產業大很多,而且傳統產業自身的大數據能力有限,所以這是大數據技術和服務企業的主要目標市場。但目前骨感的現實是就單個企業而言,具有大數據需求的并不多見。比如說麥肯錫的報告中把制造業列為大數據存量最多的行業,但很少聽到制造企業上馬大數據項目。即使有,如Zara,只是在市場營銷上加入了互聯網的招數,來自終端的需求獲得這塊有點意思,供應鏈和生產這塊相比大數據之前沒有太多新意。通過數據采集和分析來提升制造業的效率,會是個很大的市場,這是工業物聯網,但未必是大數據。

從行業上講,擁有大數據的主要在公共管理和服務、電信、金融、醫療和零售等方面。但啃這些客戶都不是易事:

(1) 公共管理和服務領域最高可以達到百PB級,但金主是政府,能讓他們看得上眼的沒幾家,而且BOT不好玩。

(2) 電信和金融可以達到數十PB級,但客大欺店,而且自身IT能力較強。

(3) 醫療的瓶頸在跨醫院的數據整合,這塊目前開來只能地方牽頭做,但地方的事兒有很多裙帶關系出沒。

(4) 零售業內有大數據的一定是連鎖,多數成本壓力大,議價能力強,賺他們的錢不容易。

從賺錢機會上來看,大數據還沒到“滿地是沙子、滿地是金子”的時候。對于大數據技術和服務公司而言,三線互聯網公司是現成的機會。而最大的蛋糕——企業數據和感知數據,目前只是聞到香味而已。好在競爭還不激烈,海外的高富帥(IBM、EMC、Microsoft等)太高太貴,平民產品(Cloudera的CDH、Hortonworks的HDP和Intel的IDH Hadoop發行版)還在學習市場,國內的互聯網大佬們似乎還未覬覦這塊蛋糕(阿里是最有可能先跨界伸手的),華為還戴著《基本法》的鐐銬徘徊在信息服務業的門口,三大電信有企圖但技術還不成熟。國內互聯網企業將再次扮演黃埔軍校,培養前仆后繼的大數據創業者。

最后補充一句,即使大數據還沒到大規模爆發的春天,大數據早期接納者(early adopters)的啟動還是會催生咨詢服務的市場。

面臨大體量數據,在思維和行動上要做什么樣的準備?——業務決策者應有的大數據觀

每每開會談大數據,似乎不是Hadoop就是NoSQL數據庫。究其原因,主要可能還是與會人員來自互聯網企業和技術第一線。其實,大數據是一種思維,一種戰略,而它應該是面對用戶、面向業務和應用的。業務決策者和企業IT技術人員很明顯在各種大數據峰會上缺位了。好在,前面所說的兩本書,就是為他們準備的。

大數據時代,需要新的世界觀。大數據開啟了一個新的世界,我們對這個世界的認知必須主動求變。

舊的認識是“數據是稀缺資源”,這種認識直接導致“數據小農”心態。大數據開始于數據測量,而數據小農揀著測、挑著存、采著樣來處理,總是幻想能夠從最少的數據壓榨出最多的信息。

而新的認識是,要參與大數據的游戲并且致勝,必須產生大數據。在大數據時代,擁有大數據是一種幸福和特權。舍恩伯格在《大數據時代》里指出三大思維變革之首就是要數據全集,不要樣本子集(其它兩大變革以后會說到)。這個思維的基礎是有全集數據。因此,每一個個體、企業和政府需要自覺、客觀、全面地去測量世界,并且把數據存下來。把數據采集和保存成為一種信仰,成為一種責任。

決策者需要具備的大數據觀很簡單:數據不是累贅,要投資數據采集的基礎設施,采完用完不要急著扔掉,把它存下來,數據里有很多價值(在以后講Value時會詳述),數據的存儲和搬運會越來越便宜,IT部門可以從成本中心變成利潤中心。

揀著測、挑著存、采著樣處理,問題在于自我選擇機制導致的低數據質量。有個老外寫了本書叫《Raw data is an oxymoron》,直譯是“原始數據的說法是一種矛盾修辭法”。因為數據不是自然資源,它不是“原始”的,它是帶著文化背景和主觀傾向的人去產生和解釋的,帶入了自我選擇機制,從前數字時代到數字時代,無一例外。所以,必須盡量地減少主觀性。第一,盡量由“機器”來決定采什么、哪里采。拿在程序里加日志為例,可以通過源代碼分析工具來自動插入日志的寫入點。第二,如果是答案產生的過程本身帶有主觀性(如民意調查),那數據采集可能需要設計成多變量(如通過問很多問題)來約束主觀誤差。第三,盡量把數據采集和存儲納入基礎框架,而不是來一個業務做一種采集/存儲方案。

采樣處理還有個問題,基于隨機采樣的方法可以使數據反映常態現象(個位數百分點的誤差),但容易遺漏個案的異常。由于現在經濟中的“黑天鵝現象”往往是個案異常,采樣方法可能攤上大事。

子沛在《大數據》里講到政府采集數據時的減負原則很重要。一旦數據采集是種負擔,它的完整性和真實性都會產生瑕疵。純軟件的數據采集還好,如果需要人力物力,決策者要適當引入激勵機制。

當然,在采集到大數據以后,決策者需要做的事就更多了,涉及人、文化、組織和流程等諸方面。因為今天就講大體量,這些以后再表。如果看官著急,不妨把出自Teradata的《駕馭大數據》找來看看。

舍恩伯格在他的另一本書《刪除》中表達了數字化時代要學會遺忘(digital forgetting)的觀點,講述了數據太多的煩惱和風險。這與全集思維并不矛盾。大數據的低信息密度和高冗余度不排除采取刪除(如去冗余)的手段,在很多場合下還需要匿名化(anonymization)、混淆(obfuscation)和過濾(filtering),但實施這些手段的前提是保留數據全集的完整性和分析價值。

大數據大體量,對于業界巨擘、創業者和業務決策者,不同的人有不同的理解,今天暫且侃到這兒。下一篇聊大數據的多樣性和混雜性(Variety)。

預告一下未來系列內容:

(1) 多樣性和混雜性(Variety)

(2) 快速化(Velocity)

(3) 真實性(Veracity)

(4) 大價值(Value)

(5) 相關性和因果性

(6) 數據權利

(7) 數據分析

(8) 企業IT人員的簡易手冊

(9) …

責任編輯:王程程 來源: CIO時代網
相關推薦

2018-10-16 11:02:03

2013-03-26 11:20:05

創業創業者創業失敗

2015-09-07 13:48:43

創業者未來用戶

2016-11-14 10:04:22

大數據大數據創業大數據行業

2015-03-25 13:39:52

2017-11-20 13:46:04

大數據數據數據可視化

2015-09-16 10:37:48

創業者業余創業者

2013-07-17 10:28:44

創業者建議

2013-07-17 18:24:01

手游創業

2014-10-27 10:10:53

創業

2013-08-01 10:18:44

創業

2012-02-13 11:19:49

存儲集群存儲

2010-09-14 10:49:05

李開復

2012-07-16 13:19:20

創業項目

2013-09-12 11:32:25

創業必備移動互聯網市場

2013-07-31 09:52:45

創業者

2015-08-21 11:47:46

惠普

2015-09-28 10:20:14

資本寒冬創業O2O

2016-03-21 14:22:10

app創業投資
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 一区二区免费 | 国产大学生情侣呻吟视频 | 成人三级av | 国产精品日日摸夜夜添夜夜av | 久久av.com| 久久精品国产亚洲一区二区 | 国产精品18hdxxxⅹ在线 | 一区二区三区av | 日本aaaa| 狠狠视频| 国产视频二区 | 国产aa | 国产成人久久精品一区二区三区 | 久久久男人的天堂 | 精品啪啪| 国产日韩精品在线 | 婷婷综合网| 国产精品一卡 | 日韩中文字幕视频在线 | 在线一级片 | 国产精品免费小视频 | 亚洲欧美在线观看 | 精品日本久久久久久久久久 | 国产精品乱码一二三区的特点 | 少妇久久久久 | 五月综合色啪 | 老司机免费视频 | 免费日韩av| 日韩精品一区在线 | 亚洲福利一区二区 | 免费天天干 | 国产探花在线观看视频 | 在线看亚洲 | 亚洲欧美激情视频 | 久久久人成影片免费观看 | 国产激情偷乱视频一区二区三区 | 99久久免费精品国产免费高清 | 国产日韩视频 | www.黄色在线观看 | 在线观看中文字幕dvd播放 | 91不卡 |