成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大數據?別唬人了!真的需要盲目燒錢追求大數據嗎?

云計算
作為顧問和 IT公司向企業推銷的另一個大項目,在大數據背后的猜想還存在很多問題。幸運的是,誠實的大數據實踐者(又稱數據科學家)從不放下懷疑態度, 并提出了一系列對大數據大肆宣傳感到厭倦的理由

大數據可能是現在最炙手可熱的技術名詞了。熱就意味著有泡沫,有值得反思的地方。Quartz的Christopher Mims 5月6日發表了一篇文章,名為“大多數數據都不大,假裝大數據其實是瞎浪費錢”,有理有據,推薦一讀。以下為譯文:

 

[[72649]]

 

如果你現在還沒有加入大數據的陣營, 那你想辦法弄到一些。畢竟, 競爭需要大數據。如果你的數據量很小, 你將被競爭對手徹底打敗。

作為顧問和 IT公司向企業推銷的另一個大項目,在大數據背后的猜想還存在很多問題。幸運的是,誠實的大數據實踐者(又稱數據科學家)從不放下懷疑態度, 并提出了一系列對大數據大肆宣傳感到厭倦的理由。如下:

理由一,即使像Facebook和Yahoo!這樣的互聯網巨頭也并非總是處理大數據,Google風格工具的應用是不合適的。

Facebook和雅虎運行其巨型集群機(功能強大的服務器集合)來處理數據。必須要進行集群處理是大數據的標志之一。畢竟,在家用PC就能處理的數據不能稱為大數據。將業務拆分為小業務,使用一系列的計算機來處理每個小業務的必要性,是類似Google計算世界上每一個網頁排名的大數據問題典型特點。

現在看來,對于Facabook和Yahoo!來說,每個業務都是用同樣規模的集群機是不必要的。比如Facebook的情況,工程師提交給集群機的大多數任務都是 MB到GB的范圍,完全可以在一臺計算機甚至筆記本電腦上完成。

Yahoo!也存在類似的情況, Yahoo!集群機所處理的數據中位數只有 12.5GB,通常臺式電腦不能處理這種任務,但一臺配置較好的服務器完全可以勝任。

以上觀點均提煉于Microsoft Research的一篇名為《 Nobody ever got fired for buying a cluster》的論文。論文中指出即使是在最渴求數據的公司,多數問題也不必集群處理。因為對于大量問題類型而言,集群是一個相對低效 甚至是完全不合適的解決方案。

理由二,大數據已經成為數據分析的代名詞,這種定義是混亂的,并會起到反作用。

數據分析最早可追溯到為皇家糧倉的所有糧食制表統計,但是現在你必須要在數據前加“大”字,必要的數據分析已經卷入了一場較大但是用處不大的流行風暴中。例如,一篇文章告誡讀者“ 3個步驟將大數據運用到你的小企業中”,其實小企業的數據量谷歌文檔就能處理,更不說用筆記本的EXCEL了。

這就是說,實際上大多數企業處理的數據都是被Open Knowledge Foundation的Rufus Pollock所說的小數據。這很重要,這是一場“革命”, Pollock稱。但它與大數據關系不大。

理由三,超大化你的數據規模正在變成一件得不償失的事情。

數據越多就越好嗎?不盡然。如果你正在尋找相關方程式——x,y的關系,如何能給我提供有效信息?實際上數據越多,隨之而來的麻煩也越大。

能從大數據中提取的信息會隨著數據規模的增加而減少,Michael Wu(社交媒體分析公司Lithium的首席數據分析學家) 寫道。這意味著越過了某一點后,繼續增加數據所產生的邊際數據回報率減少到如此地步,收集更多數據僅僅是浪費時間。

原因之一:數據越“大”,尋找相關性時錯誤信息會更多。正如數據分析家Vincent Granville在《 The curse of big data》(《大數據的詛咒》)中寫道的:即使只包括1000個條目的數據集,也很容易會陷入處理幾百萬個相關分析的處境。”這意味著,“所有這些相關分析,有些可能會高度符合,但這僅僅是一種偶然:如果你使用這種相關分析作為預測模型,結果將會錯誤”。

這個錯誤經常在大數據的原始應用領域之一遺傳學中突然出現。對基因組序列有興趣的科學家苦心找尋其相關性而進行的無休止的研究,最終卻得出了各種毫無益處的結果。

理由四,在某些情況下,大數據會令你茅塞頓開,但也可能會令你陷入困惑。

公司一旦開始使用大數據,就深陷于一系列艱澀學科的研究中——統計,數據質量,和其他構成“數據科學”的一切。就像那些每天都需要發表出版物的科學,經常會被忽視或是被修正,或是從未被證實,這之中的陷阱實在太多了。

數據收集方式的偏見,上下文的缺乏,數據聚集的缺口,數據的人工處理模式和整體認知偏差都會導致即使最好的研究人員也可能發現錯誤的相關模型, 麻省理工學院媒體實驗室客座教授Kate Crawford說:“我們可能會陷入某種算法幻覺中”。換句話說,即使你有大數據,也并非IT部門的任何人都能處理的,他可能需要有博士學位或等量經驗。當處理完成后,他們的答案可能是你并不需要“大數據”。

那么哪個更好——大數據或小數據?

你的業務需要數據嗎?當然需要。但是只有 尖頭發呆伯特的老板才會像趕時髦一樣購買具有所謂重要性的數據規模。在科學領域同樣存在著企業使用數據制定決策時固有的問題——數據質量,總體目標以及上下文和直覺的重要性。記住:Gregor Mendel僅利用一本筆記本的數據就發現了遺傳的秘密。重要是數據的質量,而不是數據的規模。

責任編輯:王程程 來源: QUATRZ
相關推薦

2018-07-17 16:26:17

大數據營銷消費者

2017-08-08 09:18:03

數據大數據云計算

2016-12-22 09:42:35

醫療大數據變現

2017-01-03 10:27:42

醫療大數據醫院

2014-02-12 09:22:28

大數據

2016-02-15 10:28:07

虛擬化

2013-06-25 09:18:01

大數據數據虛擬化Hadoop

2013-06-27 10:46:33

大數據虛擬化

2012-12-31 10:25:52

大數據

2012-12-24 10:41:00

大數據數據分析

2014-09-24 09:40:16

大數據

2020-09-18 09:41:16

大數據技術教育大數據

2013-02-28 11:58:42

2019-11-04 14:25:54

大數據Hadoop大數據時代

2022-03-14 22:51:25

大數據IT企業

2015-05-18 15:36:38

大數據如何定義大數據

2017-10-26 13:05:42

大數據云計算ODPiUAB

2013-07-31 10:22:38

Sybase IQSQL Anywher大數據

2013-04-19 09:10:23

SDN大數據Internet2

2020-09-29 16:48:13

大數據IT技術
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产高清一区二区三区 | 亚洲成人在线免费 | 最新日韩精品 | 大象一区 | 99精品免费久久久久久久久日本 | 91玖玖 | 亚洲成人av一区二区 | 免费看黄色小视频 | 久久久精品网站 | 亚洲男人天堂 | 日韩av大片免费看 | 成人毛片一区二区三区 | 日韩视频一区二区在线 | 国产精品美女久久久久aⅴ国产馆 | 99久久精品免费看国产四区 | 亚洲激情综合网 | 国产成都精品91一区二区三 | 精品视频一区二区三区在线观看 | 91人人爽 | 国产亚洲网站 | 亚洲一区视频在线 | 国产精品久久影院 | 亚洲综合色视频在线观看 | 精品欧美一区二区三区精品久久 | 国产特一级黄色片 | 一区二区三区四区不卡 | 在线91| 成人亚洲精品 | 在线观看www高清视频 | 一区二区免费在线观看 | 成人福利片 | 国产精品视频在 | 国产成人a亚洲精品 | 欧美日韩中文字幕在线 | 麻豆精品久久久 | 亚洲免费观看视频网站 | 久久精品视频12 | 国产福利久久 | 亚洲视频在线一区 | 久久久久黑人 | 久久久久久中文字幕 |