成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大數(shù)據(jù)謬誤 —— 為什么我們需要收集更多的數(shù)據(jù)

云計算
Michael Wu博士從人們對大數(shù)據(jù)的誤解入手,詳細的分析了數(shù)據(jù)與信息的不同。并提出了:雖然大數(shù)據(jù)的作用被夸大了,但是人們卻是要更加的重視大數(shù)據(jù)。只有收集更多的數(shù)據(jù),才會有更多的機會得到有價值的見解,從而做出正確的決策取得領(lǐng)先。

[[98958]]

Michael Wu(博士) —— Lithium首席科學分析師,為Lithium提供社交網(wǎng)絡(luò)數(shù)據(jù)復雜性探索和理解的方法。

數(shù)據(jù)的價值等同于從中挖掘到的信息和見解;并根據(jù)它們做出正確的決策,從而獲得一定的競爭優(yōu)勢。而我們對于大數(shù)據(jù)的期望也是收集足夠多的信息并獲得有價值的見解。然而人們還沒有意識到數(shù)據(jù)和信息的不同 —— 你從海量數(shù)據(jù)中提取到的信息并不一定都有意義和價值。

數(shù)據(jù)不等于信息

許多人口中的數(shù)據(jù)和信息都是等價的,然而兩者之間卻有著很微妙的區(qū)別。數(shù)據(jù)只是事情發(fā)生的簡單記錄,它只是記錄了事情發(fā)生的時間、地點以及涉及人物的原始數(shù)據(jù)。是的,數(shù)據(jù)中確實包含著大量的信息。

這也正是對大數(shù)據(jù)理解的謬誤所在:大數(shù)據(jù)雖然給你帶來了大量的信息,但是數(shù)據(jù)的增長卻沒有帶來成比例的信息增長。實際的情況就是:收集的數(shù)據(jù)越多,從中提取到的信息比例越低。這就意味著隨著數(shù)據(jù)體積激增,你從中提取到信息比例會逐漸的縮減。雖然聽起來很不可思議,但是事實就是這樣的。下面來看一些例子:

例1:數(shù)據(jù)的備份和復制。如果你認真查看你的電腦,你會發(fā)現(xiàn):這些年的使用,你創(chuàng)建了成千上萬的文件。不論它們是如何產(chǎn)生的(拍的照片、寫的博客或者是發(fā)送的電子郵件),其中必然包含著一定數(shù)量的信息。這些文件儲存在你的硬盤中,并占用一定的空間。

事情發(fā)生了:不出意外,你一定會定期的給數(shù)據(jù)做備份。這里我們可以想象一下在第一次給硬盤做備份中花掉的時間。單純針對數(shù)據(jù)的本身而言,你已經(jīng)擁有雙倍量的數(shù)據(jù)了。如果你備份之前擁有50GB數(shù)據(jù),那么備份以后你則擁有了100GB。然而經(jīng)過了備份,你就可以獲得雙倍的信息量了?結(jié)果是否定的。事實上完成這個操作以后你沒有額外的獲得任何信息,因為備份中的文件和初始磁盤上的文件包含的信息是完全相同的。

盡管我們的私人數(shù)據(jù)和大數(shù)據(jù)不搭邊,但是這個例子卻闡明了數(shù)據(jù)和信息之間微妙的差別。下面我們來看一下涉及到更大體積數(shù)據(jù)的例子。

例2:機場視頻監(jiān)視記錄。首先,視頻文件已經(jīng)是相當之大了;其次,機場使用的是24/7閉路式監(jiān)測系統(tǒng),而HD設(shè)備會進一步增加數(shù)據(jù)的體積;最終,機場可能擁有成千上萬的攝像頭。如你所見,這些檢測攝像頭記創(chuàng)建的視頻記錄可以輕松的獲得“大數(shù)據(jù)”的資格。

不妨設(shè)想一下如果我們把攝像頭的數(shù)量提升兩倍會發(fā)生什么 —— 雙倍體積的數(shù)據(jù)。然而很顯然你可能還是得不到雙倍的信息。有許多的監(jiān)視設(shè)備拍到的東西都是重復的,可能會有一些微小的區(qū)別 —— 不同的地區(qū)在些許不同的時間內(nèi)會拍到完全不同的畫面。在信息量這個方面,我們可能永遠都得不到2倍。而且隨著監(jiān)視設(shè)備的增加,信息重疊的可能性也會隨之增高。這就是為什么隨著數(shù)據(jù)的增加,信息的收益卻在減少 —— 其中的冗余越來越多。

用不等式表達就是:信息 ≤ 數(shù)據(jù)。所以信息不應該是數(shù)據(jù),而是沒有冗余的數(shù)據(jù)。這也是為什么給數(shù)據(jù)備份卻無法增加信息量的原因,因為拷貝是冗余的。

例3:社交渠道的更新。那么社交中的大數(shù)據(jù)又是什么情況呢,比如:Twitter。對比平時我們不妨多推特一倍的內(nèi)容,那么Twitter肯定會獲得兩倍的數(shù)據(jù)。但是Twitter有獲得兩倍的信息嗎?很顯然沒有,決定信息量的是你推特的內(nèi)容而不是次數(shù)。當然如果我們推特的內(nèi)容是完全無冗余的,那么Twitter毫無疑問的將獲得雙倍的信息。但是這永遠都不可能發(fā)生!我們來看一下其中的原因:

首先,我們會相互轉(zhuǎn)發(fā)。因此在互相的轉(zhuǎn)發(fā)中,會產(chǎn)生很多冗余;即使我們拒絕轉(zhuǎn)發(fā),而在同一時間發(fā)布同樣內(nèi)容的幾率也是很高的,因為使用Twitter的人太多了。雖然每個推特使用的措辭可能會完全不同,但是包含相同網(wǎng)絡(luò)內(nèi)容的不同推特所(可能是條博客、很酷的電影或者爆炸性新聞)所造成的冗余是非常高的。此外,一段時間內(nèi)我們很可能對同類的新聞感興趣。因為我們推特的內(nèi)容更趨向于我們的品味和興趣,所以同一個人推特不同的內(nèi)容都會存在一些冗余。

所以很清楚的看到:即使對比平時我們多推特了一倍的內(nèi)容,卻因為中間存在著相當多的冗余導致Twitter不會獲得雙倍的信息。此外我們還會通過不同的渠道獲得相同的內(nèi)容,但是因為僅僅是拷貝我們不會多獲得任何信息。

所以盡管數(shù)據(jù)會帶來信息,但是數(shù)據(jù)不等于信息。信息只是數(shù)據(jù)中不重復的部分。這樣的話,我們從數(shù)據(jù)中提取到信息只占數(shù)據(jù)總量的一小部分。

所以雖然理論上信息是小于等于數(shù)據(jù)的,但是現(xiàn)實中往往是信心遠小于數(shù)據(jù)。因此大數(shù)據(jù)可以捕捉大量信息的想無疑是天真和不切實際的,大數(shù)據(jù)的價值完全被夸大了。  

 

 #p# 

 

信息不等于見解

盡管我們從大數(shù)據(jù)中提取的信息量有可能被高估了,但是從大數(shù)據(jù)中獲得的見解仍然是極其寶貴的。那么信息和見解兩者又有著是什么樣的關(guān)系呢?所有的見解都源于信息,但是不代表所有的信息都可以提供見解。對于能給出有價值見解的信息,我們有3個標準:

首先,可解釋的。因為大數(shù)據(jù)包含如此多的非結(jié)構(gòu)化數(shù)據(jù)和不同的媒體類型數(shù)據(jù),導致其中大量的數(shù)據(jù)和信息都不可解釋。

舉個例子:123,243,187,89,157這組數(shù)據(jù),它們能代表什么?它可能是你在TechCruncn上讀過前五篇文章的like數(shù)目,也可能是一個黑白圖像上5個像素點的亮度。沒有更多的信息和元數(shù)據(jù),是無法解釋這樣的數(shù)據(jù)的。因此不能解釋的數(shù)據(jù)和信息是不會給你提供任何見解的 —— 見解只存在于提取出信息中的可解釋部分。

其次,關(guān)聯(lián)性。必須是和用途與價值緊密相關(guān)的信息。相關(guān)的信息通常被看作是信號,而不相關(guān)的則被作為噪音。然而關(guān)聯(lián)性有著相當?shù)闹饔^成分,對一個人很重要的信息可能完全和另一個人無關(guān)。這也是Edward Ng(一個著名的數(shù)學家)說過的:“一個人的的信號恰好是另一個人的噪音。”

此外,關(guān)聯(lián)還不僅是主觀的;同樣是前后聯(lián)系的。關(guān)聯(lián)還可能是人從一個環(huán)境中換到了另一個。打個比方:如果我下星期將要去NYC的話,那么NYC的交通將會關(guān)聯(lián)到我。但是當我回到SF,那么同樣的信息將會和我有關(guān)聯(lián)。因此見解又是關(guān)聯(lián)信息中一個非常小的子集,這里別忘記相關(guān)信息已經(jīng)是可解釋信息中非常小的一個子集。

最后,得是“新出爐”的。必須是有遠見的信息。這就意味著它必須提供一些你以前不曾擁有的新知識。

顯然這個標準也是主觀的。因為一個人知道的東西另一個人不一定也知道,而新鮮也是因人而異的。這種主觀性中有一部分繼承于關(guān)聯(lián)的主觀性。如果有些信息和你是關(guān)聯(lián)的,而且之前又并不知道;那么當你去學習的時候,它將是新的。假如這個信息和你沒有關(guān)系的話,那么再新奇你也不可能想去了解它。這樣的話這些信息對你來說就是毫無價值的。

然而這個見解一旦被你獲知,那么當下次你獲得的時候就不會再覺得那么新奇和深刻。因此隨著我們不斷的從大數(shù)據(jù)中捕獲知識,新的見解就越來越難以發(fā)現(xiàn)。那么見解這個關(guān)聯(lián)信息中的子集又將繼續(xù)縮減。

在見解這個子集層層的縮減后,就會發(fā)現(xiàn)大數(shù)據(jù)的價值被徹底的夸大了。當然這里不是說大數(shù)據(jù)是沒有價值的,只是說它的價值被夸大了,因為發(fā)現(xiàn)有價值見解的可能性非常小。

這樣來看大數(shù)據(jù)可能會讓人失望,但是這同樣是我們需要大數(shù)據(jù)的理由!因為從數(shù)據(jù)中獲得的見解越來越少,所以我們必須收集越來越多的數(shù)據(jù)讓我們擁有更多的機會獲得見解。雖然更多的數(shù)據(jù)也不能保證一定會揭露許多有價值的見解,但是增加數(shù)據(jù)量無疑會增加我們獲得見解的機會。

責任編輯:王程程 來源: TechCrunch
相關(guān)推薦

2022-08-31 15:40:13

云原生數(shù)據(jù)

2013-01-07 11:31:11

大數(shù)據(jù)大數(shù)據(jù)應用

2013-01-08 10:19:35

大數(shù)據(jù)數(shù)據(jù)分析大數(shù)據(jù)全球技術(shù)峰會

2015-01-07 14:04:25

2020-02-19 15:01:30

數(shù)據(jù)庫SQL技術(shù)

2014-07-02 09:56:33

2024-04-11 13:18:44

AIGCAGI技術(shù)

2023-06-28 10:22:50

數(shù)據(jù)中心服務(wù)器

2020-07-22 11:41:14

數(shù)據(jù)架構(gòu)大數(shù)據(jù)技術(shù)

2019-08-05 08:42:37

物聯(lián)網(wǎng)IOT技術(shù)

2018-09-14 18:00:29

無損網(wǎng)絡(luò)

2023-09-05 09:49:03

2022-08-26 08:00:19

企業(yè)架構(gòu)IT

2022-12-01 14:43:56

物聯(lián)網(wǎng)智慧城市

2020-04-06 14:45:22

云計算邊緣計算網(wǎng)絡(luò)

2025-06-24 02:00:00

5G-A運營商基站

2015-10-09 16:14:37

數(shù)據(jù)開放

2012-11-08 09:32:24

2013-11-12 09:27:01

大數(shù)據(jù)科學家大數(shù)據(jù)

2018-05-30 14:49:51

編程語言API語法
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 视频一二区 | 国产精品精品久久久久久 | 成人av久久 | 人人爽日日躁夜夜躁尤物 | 欧美国产一区二区 | 免费看91| 久久久久久成人 | 在线一区 | 亚洲国产精品自拍 | 日韩成人 | 在线视频日韩精品 | 蜜桃视频成人 | 国产成人精品免费视频 | 久久久久久久久久久丰满 | 久久久久久久久国产 | jlzzjlzz国产精品久久 | 九色www| 国产激情一区二区三区 | 亚洲精品一区国语对白 | 欧美日韩亚 | 91看片网 | 欧美大片一区二区 | 亚洲三区视频 | 天堂av中文在线 | 国产成人av在线播放 | 欧美成人高清 | www.五月婷婷.com | 中文字幕精品一区 | 久久五月婷 | 久久国产精品首页 | 中文天堂在线观看 | 一区二区三区精品视频 | 成人欧美一区二区三区 | 91高清在线观看 | 欧美视频二区 | 这里只有精品999 | 国产精品久久久久久久岛一牛影视 | 亚洲成人99 | 99在线播放| 中文字幕 在线观看 | 91精品国产一区二区三区动漫 |