成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大數據時代預測更易失敗

數據庫
科技進步最大的悖論在于,科技進步既讓我們邁入能更準確預測未來的大數據時代,但科技的進步也成為我們預測未來的最大變數。

納特 西爾弗(Nate Silver)在《信號與噪聲》一書對這句話提出了疑問。人們普遍認同的邏輯一般是:信息越多,信息流動速度越快,人們對未來的預測越準確,從而越能做出更合理的決策。但是且慢,你怎么知道你 Google 到的“信息”是有用的“信號”(有用的信息),還是干擾你的“噪聲”(無關/無用的信息)呢?我的意思是,如果你在時間充裕,方法/模型適當的條件下,你可以辨別出信號,做出合理決策。但現實往往是,你基本上總是不會擁有充裕的時間,甚至使用的方法/模型也不合適。在信息增長越來越快的現在,我們面臨這樣的困境會越來越多。

《自然》雜志曾刊登過一項研究,研究發現:美國幾大政黨對全球變暖的問題了解越多,他們之間達成共識的可能性就越小。 我們現在(這里的“現在”得比《信號與噪聲》出版時間的2012年9月更早)每天產生250兆億字節,如果信息每天以這個速度增長,其中有用的信息肯定接近于零。其中大部分信息都只是噪聲而已,而且噪聲的增長速度要比信號快得多。其中有太多假設需要驗證,有太多數據需要發掘,但客觀事實的數量卻是個相對恒量。人腦能力非凡,但根據IBM的分析,人腦的存儲量不過是全球每天所產生信息量的百萬分之一而已。我們對自己記憶的信息一定需要精心挑選才行。

以美國經濟預測為例。美國政府每年公布的數據,與經濟指標直接相關的有4.5萬個,而私人數據提供者要追蹤高達400萬個統計數據。一些經濟學家忍不住想要把所有數據都混合在一起,并給一般的數據穿上優質的“外衣”。第二次世界大戰之后只出現了11次經濟衰退的情況,如果一個統計模型試圖解釋這11次衰退帶來的后果,就必須從400萬個數據中選擇數據,由此得出的許多相關性都將會帶有欺騙性。大數據專家熱愛相關性,但如果我們不能分析出因果,我們永遠無法確定該采用哪些指標去判斷下一次經濟衰退的跡象。

人們將噪聲誤認為信號的行為,在統計學上被稱為“過度擬合”(overfit)。人類大腦的工作方式是捕捉規律,并且預測。一般來講,智商高的人的神經網絡學習能力更強,這意味著他捕捉規律的能力也越強。捕捉規律能力強意味著,對于很少的樣本中隱含的不明顯的“規律”他們也能捕捉出來。

但從很少的樣本或噪聲過多的樣本中總結出“規律”來是極為危險的事——自然界的運行很多時候并沒有確定的規律,我們帶著一雙為了發現規律的眼睛去挖掘總結,結果卻聰明反被聰明誤了。關于過度擬合的解釋,馮 諾伊曼曾有一個形象的描述:給我4個參數,我就能擬合出一頭大象,如果再加1個參數,我就可以讓這頭大象甩動它的鼻子。除了人類大腦,現在的機器學習也容易發生這樣過度擬合的現象。

過度擬合在現實中往往是被鼓勵的。無論汶川地震還是雅安地震之后,地震云或豬亂跳、羊亂叫之類的怪現象總會在微博、貼吧或論壇上流行。比如百度貼吧還有人整理了一份地震前兆大全,如果僅靠這些所謂前兆就能預測地震,那每年也不至于死傷那么多人、損失無數財產了。這是最為糟糕和最為淺顯的過度擬合例子——把毫無關系的噪聲當成了信號,從而認為噪聲與事實相關。過度擬合現象在學術上也經常發生,邏輯非常好理解:提煉出模型總是引人關注,引人關注則更容易在學術期刊得到推介,也更容易被人引用,從而將其它可靠但可能沒有模型化的理論排擠出市場。

預測失敗,除了與我們將噪聲當成信號以外,還跟我們對科技的發展無法預判有關。比如在19世紀末,一位《倫敦時報》的作家在研究倫敦街道上的馬糞問題時說到:大約到20世紀40年代,倫敦每條街道會被厚達2.7米的馬糞覆蓋。但他所沒預料到的是,大約十年后,亨利 福特開始生產 T型汽車。

倫敦不僅避免了馬糞危機,與馬和汽車周邊的產業都發生了變革——鐵匠工人失業,馬場關門,油田工人、制造工人與裝配工人卻成為市場稀缺資源。舉個更近的例子吧,在iPhone發布之前的2006年,誰又能知道諾基亞會在僅僅七年后以72億美元的價格出售?

科技進步最大的悖論在于,科技進步既讓我們邁入能更準確預測未來的大數據時代,但科技的進步也成為我們預測未來的最大變數。

原文鏈接:http://www.36dsj.com/archives/5732

責任編輯:彭凡 來源: 36大數據
相關推薦

2021-03-07 22:27:23

大數據網絡視頻

2013-09-17 18:24:46

SAP

2013-12-02 10:02:30

大數據時代

2021-10-29 22:45:47

大數據算法技術

2013-06-13 09:42:11

大數據

2017-06-09 05:55:56

存儲機器學習人工智能

2015-12-14 17:52:06

ENI經濟和信息化網

2015-07-23 09:34:57

大數據數據分析

2018-07-23 14:51:22

2021-09-30 16:28:34

大數據數據管理企業

2013-07-05 09:07:54

小時代大數據大數據時代

2013-06-17 09:40:19

大數據大安全

2017-01-03 10:23:18

大數據隱私保護

2015-08-31 14:16:15

醫療

2021-07-30 20:45:13

大數據大數據安全

2011-08-10 11:16:00

Platform

2013-06-21 10:16:44

2013-08-29 11:24:31

大數據

2011-08-05 16:40:56

Informatica大數據

2013-06-06 10:32:48

大數據
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 91超碰在线 | 免费高清av | 91精品国产综合久久久久久漫画 | 91极品尤物在线播放国产 | 国产精品久久久久久久久久久久久久 | 网站国产 | 国产精品特级片 | 七七婷婷婷婷精品国产 | 国产黄色大片 | av日韩在线播放 | 国产成人免费一区二区60岁 | 91在线视频免费观看 | 人人草天天草 | 国产精品久久久久久久久久久久 | 亚洲精品中文字幕在线观看 | 亚洲精品二三区 | 日韩无| 五月香婷婷 | 99reav| 99精品国产一区二区青青牛奶 | 亚洲高清网 | 美女福利视频 | 欧美精品在线播放 | 91佛爷在线观看 | 免费在线观看成人 | 久久成人高清视频 | 欧美午夜精品久久久久免费视 | 麻豆成人在线视频 | 亚洲精品乱码久久久久久蜜桃91 | av成人在线观看 | 福利成人 | 亚洲欧美一区二区三区1000 | 中文字幕在线精品 | 欧美成人精品一区二区三区 | 精品国产一区久久 | 一区二区免费 | 99精品在线 | 久久精品亚洲 | 国产成人精品网站 | 三级黄色网址 | 日韩在线视频精品 |