成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

一個(gè)文科教授眼中的大數(shù)據(jù):多、快、糙、耗?

云計(jì)算
眼下大數(shù)據(jù)正是大熱。我做了個(gè)小統(tǒng)計(jì),SCI/SSCI期刊上已發(fā)表270篇有關(guān)大數(shù)據(jù)的研究論文,大部分是最近一兩年內(nèi)出現(xiàn)的。其中來自計(jì)算機(jī)科學(xué)和工程技術(shù)的最多,分別占了27%;其次是醫(yī)學(xué)生物化學(xué)(20%)和基礎(chǔ)研究的數(shù)學(xué)、物理等(11%);最少的是工商管理(8%)和社會(huì)科學(xué)(7%)。我涉及的就是最后這15%的研究。

作者:香港城市大學(xué)媒體與傳播系互聯(lián)網(wǎng)實(shí)驗(yàn)室教授

用現(xiàn)在的網(wǎng)絡(luò)語言,我是一個(gè)文科男。最近莫言在接受諾貝爾獎(jiǎng)時(shí)說了一句話,文學(xué)不是科學(xué),文學(xué)是做無用的東西。我想說明一下文學(xué)不等于文科,文科的面更廣,可以進(jìn)一步分為人文學(xué)科和社會(huì)科學(xué)。社會(huì)科學(xué)研究歷來與數(shù)據(jù)打交道,當(dāng)然以前用的都是小數(shù)據(jù),數(shù)量少、速度慢、耗工時(shí),但是質(zhì)量好、也省資源,符合現(xiàn)在的綠色理念。我根據(jù)長(zhǎng)年研究小數(shù)據(jù)的經(jīng)驗(yàn)出發(fā),講講對(duì)大數(shù)據(jù)的一些看法,其實(shí)也是社會(huì)科學(xué)界的一些共識(shí)。讀者看完后也許會(huì)同意,文科(或者社會(huì)科學(xué))與科學(xué)一樣,做的東西也是有用的。

眼下大數(shù)據(jù)正是大熱。我做了個(gè)小統(tǒng)計(jì),SCI/SSCI期刊上已發(fā)表270篇有關(guān)大數(shù)據(jù)的研究論文,大部分是最近一兩年內(nèi)出現(xiàn)的。其中來自計(jì)算機(jī)科學(xué)和工程技術(shù)的最多,分別占了27%;其次是醫(yī)學(xué)生物化學(xué)(20%)和基礎(chǔ)研究的數(shù)學(xué)、物理等(11%);最少的是工商管理(8%)和社會(huì)科學(xué)(7%)。我涉及的就是***這15%的研究。

我有幸加入了中國計(jì)算機(jī)學(xué)會(huì)最近成立的大數(shù)據(jù)專家委員會(huì),也參與了委員會(huì)對(duì)大數(shù)據(jù)研究的一些熱點(diǎn)問題和發(fā)展趨勢(shì)的評(píng)選工作。按照我的理解,最近委員會(huì)發(fā)布的對(duì)大數(shù)據(jù)研究的八個(gè)熱點(diǎn)問題和十大趨勢(shì),應(yīng)該是全球范圍內(nèi)至今最系統(tǒng)的一些看法和表述。當(dāng)然美國和歐洲的各個(gè)機(jī)構(gòu)、商業(yè)、學(xué)術(shù)團(tuán)體都有一些非常精辟、精彩的看法,但從全面性講這可能是***個(gè)文件。

大數(shù)據(jù)這個(gè)概念在受到關(guān)注的同時(shí),也出現(xiàn)了很多批評(píng)的意見。也許大家都見過這一條報(bào)道,Sybase的技術(shù)總裁Irfan Khan認(rèn)為,“大數(shù)據(jù)是一個(gè)大謊話”。Sybase是做一家數(shù)據(jù)庫的公司,長(zhǎng)期為企業(yè)做BI應(yīng)用工具。他們一直在做大數(shù)據(jù)的工作,所以覺得現(xiàn)在講的大數(shù)據(jù)中的所有東西早已有之,不是什么新的東西。他從這個(gè)角度講大數(shù)據(jù)有點(diǎn)泡沫,有點(diǎn)夸張。當(dāng)然,我們做實(shí)證研究的人并不完全認(rèn)同他的說法,大數(shù)據(jù)的宣傳中確實(shí)有些地方有點(diǎn)夸大,但沒有夸大到虛假謊言的地步。

什么是大數(shù)據(jù)?***的定義是4個(gè)V: Volume, Velocity, Variety, Value。我覺得這4個(gè)V大致與中文里的“多、快、好、省”四個(gè)字相對(duì)應(yīng)。這四個(gè)字當(dāng)中,有些是理論上應(yīng)該實(shí)現(xiàn)的、有些實(shí)際上已經(jīng)展現(xiàn)出來了、但有些現(xiàn)在還有差距。大數(shù)據(jù)是不是真的多、快、好、省?我下面逐一談?wù)劇?/p>

大數(shù)據(jù)之“多”

大數(shù)據(jù)首先就是數(shù)據(jù)多。這一點(diǎn)大家講的很多,似乎沒有什么分歧。其實(shí)不盡然。關(guān)鍵在于我們用的是總體數(shù)據(jù)、樣本數(shù)據(jù)、還是局部數(shù)據(jù)。什么是總體數(shù)據(jù)?大家都明白。最直觀的例子就是每10年中國和其他很多國家都要對(duì)全體居民進(jìn)行人口普查,其結(jié)果就是總體數(shù)據(jù)。中國最近一次的人口普查在2010年,發(fā)現(xiàn)有13.8億人。樣本數(shù)據(jù)也不難理解,通過抽樣獲得。如人口統(tǒng)計(jì),除了每10年的普查,國家人口中心每年還要做千分之二的抽樣調(diào)查,用得到的樣本數(shù)據(jù)來估計(jì)每10年兩次人口普查之間中國人口增長(zhǎng)的變化。局部數(shù)據(jù)呢,則是總體數(shù)據(jù)的一個(gè)子集,但不是通過隨機(jī)方法從總體中抽出來的,而是用各種便利或現(xiàn)存的方法得到的。局部數(shù)據(jù)往往比樣本數(shù)據(jù)大很多,但兩者有嚴(yán)格的區(qū)別。

這些都是常識(shí)。我們來看看大數(shù)據(jù)的情況。理論上講大數(shù)據(jù)指的應(yīng)該就是總體數(shù)據(jù)。但實(shí)際上,由于技術(shù)、商業(yè)、保密和其它原因,除了少數(shù)大數(shù)據(jù)的原始擁有者(例如淘寶、新浪微博、國家電網(wǎng)、教育網(wǎng)等,他們也許是真正掌握了總體數(shù)據(jù)的),對(duì)于絕大多數(shù)的第三方來講,現(xiàn)在大家講的大數(shù)據(jù),基本上都不是總體數(shù)據(jù)而是局部數(shù)據(jù)。注意,這種局部數(shù)據(jù),哪怕占了總體的很大一個(gè)百分比(70%、80%),既不是總體數(shù)據(jù)、也不是抽樣數(shù)據(jù)。因?yàn)槟呐率侨绷?0%、20%的個(gè)案,局部數(shù)據(jù)跟總體也許就有很大的差別。

三種數(shù)據(jù)中,如果只考慮質(zhì)量、不計(jì)成本、效率等其它因素,總體數(shù)據(jù)最靠譜,其次是樣本數(shù)據(jù)、最不靠譜的是局部數(shù)據(jù)。我相信很多工科男并不認(rèn)同***這句話。在我們看來,樣本數(shù)據(jù)雖然規(guī)模要小很多,但實(shí)際上在很多情況下比局部數(shù)據(jù)要更有價(jià)值,更可靠。圖一是我做的一個(gè)模擬,隨機(jī)產(chǎn)生了一萬個(gè)數(shù)值(藍(lán)色),姑且把它當(dāng)作是總體。我從中隨機(jī)抽了500個(gè)值(紅色),這個(gè)樣本看上去很稀疏(即誤差大、不夠精確),但是它對(duì)總體的代表是很好的,即在X和Y軸上的平均數(shù)都與總體相同,都在原點(diǎn)上。我再抽8000個(gè)值(即總體80%)的局部數(shù)據(jù)(綠色),人為的設(shè)定一些限制,使得正面數(shù)值更容易出現(xiàn),結(jié)果緊密的多(即誤差小了),但其平均數(shù)往右上方向偏,即精確但不準(zhǔn)確。如果依靠局部數(shù)據(jù),被局部數(shù)據(jù)的海量規(guī)模所迷惑,其實(shí)是害死人的。

歷史上有過很多案例,顯示了局部數(shù)據(jù)大而無當(dāng)。社會(huì)科學(xué)研究方法中,一般都會(huì)講到是美國1936年的總統(tǒng)選舉。當(dāng)時(shí)有兩家公司在做選舉預(yù)測(cè)。一家是《文學(xué)摘要》雜志,隨著雜志給讀者寄問卷,回收了250萬份問卷。當(dāng)時(shí)全美選民大概是1億左右,250萬已經(jīng)是相當(dāng)大的一個(gè)局部數(shù)據(jù)了。他們經(jīng)過分析,預(yù)測(cè)共和黨藍(lán)頓比民主黨羅斯福領(lǐng)先14%,以絕對(duì)優(yōu)勢(shì)當(dāng)選。另外有一家是蓋洛普民意測(cè)驗(yàn)中心,那時(shí)只是剛起步的一個(gè)小公司,用隨機(jī)抽樣的方法調(diào)查了5萬人,預(yù)測(cè)將是羅斯福以56%的得票率當(dāng)選。***選舉結(jié)果羅斯福戰(zhàn)勝藍(lán)頓,也即蓋洛普的小樣本戰(zhàn)勝了《文學(xué)摘要》的大局部數(shù)據(jù)。因?yàn)楫?dāng)時(shí)訂購雜志的人更有錢,所以對(duì)共和黨更支持。數(shù)據(jù)只是大而不具有代表性,后果更差。

數(shù)據(jù)的信息量,一方面是由個(gè)案多少?zèng)Q定的,另一方面是由變量(即個(gè)案的特征值)多少覺得的。社會(huì)科學(xué)家們用的數(shù)據(jù)是個(gè)案少、變量多。理想中的大數(shù)據(jù),不僅要個(gè)案多,而且要變量多。我了解的現(xiàn)實(shí)生活中的大數(shù)據(jù)僅僅是個(gè)案多,變量并不多,與我們社會(huì)科學(xué)家的小數(shù)據(jù)正好相反。個(gè)案多、變量少的數(shù)據(jù)結(jié)構(gòu)是我們面臨的大數(shù)據(jù)的基本現(xiàn)實(shí)。造成的原因之一就是每人只掌握了一小部分變量,也就是所謂的數(shù)據(jù)孤島。只有通過分享、整合才能產(chǎn)生多個(gè)案、多變量的真正的大數(shù)據(jù)。#p#

大數(shù)據(jù)之“快”

現(xiàn)在對(duì)大數(shù)據(jù)的處理方法,以單位速度計(jì),肯定是快。但是,光講效率不講效果是沒有意思的。我還是用社會(huì)科學(xué)研究作為慢的例子和現(xiàn)在的大數(shù)據(jù)的一些基本方法來做比較。我們做的都是手工標(biāo)注,大數(shù)據(jù)主要是自動(dòng)分類。從規(guī)模上是沒辦法比的,我們一般一個(gè)樣本只有幾千個(gè),現(xiàn)在幾百萬是小數(shù)據(jù)的,成百上千億才是常態(tài)的。從準(zhǔn)確率來講,人工永遠(yuǎn)超過機(jī)器的。有人統(tǒng)計(jì)過,我自己觀察到,機(jī)器學(xué)習(xí)的準(zhǔn)確率平均差不多在80%左右,當(dāng)然也有些做自然語言處理、人工智能的會(huì)說某一個(gè)特定的項(xiàng)目能做到90%。但是如果把所有的研究都拿來平均一下,80%也許是比較樂觀的記錄。人工情況下基本能做到90%、95%,一般社會(huì)科學(xué)的學(xué)術(shù)期刊不接受準(zhǔn)確率低于95%的論文。

另一個(gè)問題是你怎么知道準(zhǔn)確率?我們的一般方法是對(duì)同樣的內(nèi)容有兩個(gè)或者更多的人分別獨(dú)立(即背靠背、互不知情)的進(jìn)行標(biāo)注,***計(jì)算相互的相似度,來估計(jì)準(zhǔn)確率。而大數(shù)據(jù)的處理,如果是全自動(dòng)無監(jiān)督的學(xué)習(xí),其結(jié)果的準(zhǔn)確率其實(shí)是無法知道的。現(xiàn)在大家都在抓網(wǎng)上內(nèi)容做預(yù)測(cè),到底預(yù)測(cè)準(zhǔn)不準(zhǔn),也許永遠(yuǎn)是一個(gè)未知數(shù)。從誤差來講,人工判斷有誤差,但這些誤差都是個(gè)人誤差,如果有幾個(gè)人同時(shí)做的話,其誤差可以互相抵消。機(jī)器學(xué)習(xí)的誤差是系統(tǒng)性的,如果你知道偏在哪兒,可以很容易的就把它改過來,但誤差偏在什么地方一般是不知道。這就是我剛才講的,局部數(shù)據(jù)問題在系統(tǒng)誤差,到底是往左偏,還是往右偏,偏高了還是偏低了并不知道。所以,按照我們的看法,人工處理的小樣本數(shù)據(jù),研究結(jié)果是準(zhǔn)確的,但是不夠精確,即不夠穩(wěn)定。機(jī)器學(xué)習(xí)的方法倒過來,因?yàn)槟阌泻A康臄?shù)據(jù),非常精準(zhǔn)。其實(shí)精準(zhǔn)這個(gè)詞從英文里面是precision,只有精確的意思而沒有準(zhǔn)確(correct或accurate)的意思。精而不準(zhǔn)是目前大數(shù)據(jù)的一個(gè)問題。大家很自然的會(huì)想到,我們需要把人工標(biāo)注和自動(dòng)分類結(jié)合起來,做有監(jiān)督的機(jī)器學(xué)習(xí)。機(jī)器學(xué)習(xí)的質(zhì)量是由訓(xùn)練集的質(zhì)量、訓(xùn)練集的規(guī)模和學(xué)習(xí)的算法三方面決定的,而這三者的重要性就是按照這個(gè)順序排的,最重要的是訓(xùn)練集的質(zhì)量,也即人工標(biāo)注的質(zhì)量。#p#

大數(shù)據(jù)之“省”

這里的問題是省了人工,還是省了能源?大數(shù)據(jù)肯定省了人工,但同時(shí)在耗能。這是一個(gè)環(huán)保的大問題,我不展開講,實(shí)際上大數(shù)據(jù)是驚人的耗電。如果現(xiàn)在才開始規(guī)劃,不注意的話,也許幾年以后大數(shù)據(jù)就成為一個(gè)新的污染重工業(yè)。我聽說某些地方在建大數(shù)據(jù)中心,搞幾百萬臺(tái)服務(wù)器。我們可以想象得到其所耗用的能源和所產(chǎn)生的輻射,是非常可怕的。實(shí)際上現(xiàn)在的各種數(shù)據(jù)每年遞增的速度遠(yuǎn)遠(yuǎn)超過我們現(xiàn)在存儲(chǔ)能力的遞增速度。在這種情況下,除非我們的存儲(chǔ)材料有突破,不然我們必須要想好一個(gè)問題,真的能夠把總體數(shù)據(jù)保存下來嗎?中國聯(lián)通的數(shù)據(jù)只能保存4個(gè)月,然后必須刪除以保存新數(shù)據(jù)。我認(rèn)為出路還是在抽樣,把大數(shù)據(jù)變小。

大數(shù)據(jù)之“好”

大數(shù)據(jù)一定比小數(shù)據(jù)好嗎?這個(gè)問題是所有問題的核心,現(xiàn)在還沒有答案的。我認(rèn)為以下幾個(gè)問題值得考慮。***,大數(shù)據(jù)是好,但是大數(shù)據(jù)在哪里?如果我們拿不到大數(shù)據(jù),就是一個(gè)櫥窗里面的蛋糕,只能在外面觀賞。我們可以把大數(shù)據(jù)分成幾種,小規(guī)模、中型規(guī)模、巨型規(guī)模。小規(guī)模的數(shù)據(jù)非常多,免費(fèi)就可以得到。中規(guī)模數(shù)據(jù)在大部分情況下也是免費(fèi)的或者是低成本的。真正巨型規(guī)模的大數(shù)據(jù)其實(shí)是得不到的。做應(yīng)用也好,做工具服務(wù)的也好,都必須面對(duì)這一現(xiàn)實(shí)。

第二是我們真的有處理和分析大數(shù)據(jù)的能力嗎?我認(rèn)為現(xiàn)在的大數(shù)據(jù)分析工具并不發(fā)達(dá),現(xiàn)在所用到的絕大部分工具都是用來解決小數(shù)據(jù)問題的,用來解決常態(tài)數(shù)據(jù)的。對(duì)異態(tài)數(shù)據(jù)的統(tǒng)計(jì)工具,現(xiàn)在基本上沒有。最近《科學(xué)》雜志發(fā)表的一篇文章中報(bào)告了用于大數(shù)據(jù)兩元相關(guān)分析的一種方法。學(xué)過統(tǒng)計(jì)的都知道,小數(shù)據(jù)的兩元相關(guān)分析是一百多年前就有了的。也就是說,我們處理大數(shù)據(jù)的能力還是處在起步的階段,相當(dāng)于19世紀(jì)80年代的小數(shù)據(jù)水平。當(dāng)然,我們肯定不需要再用120年的時(shí)間才能使大數(shù)據(jù)分析能力達(dá)到今天小數(shù)據(jù)的水平。但是,我們必須對(duì)大數(shù)據(jù)分析能力的現(xiàn)狀有客觀和足夠的認(rèn)識(shí)。

總之,我對(duì)大數(shù)據(jù)的看法即不是完全樂觀的,也不是完全悲觀的。大數(shù)據(jù)肯定代表了一個(gè)新世紀(jì)、新紀(jì)元的到來。大數(shù)據(jù)的潛在價(jià)值也是客觀存在的。但是數(shù)據(jù)的應(yīng)用、數(shù)據(jù)的分享,其實(shí)還是有很多問題的。數(shù)據(jù)的存儲(chǔ)與分析,其實(shí)還是剛剛開始。現(xiàn)在是商業(yè)和社會(huì)應(yīng)用遠(yuǎn)遠(yuǎn)走在了科學(xué)研究的前面。有志于大數(shù)據(jù)研究的科學(xué)家、社會(huì)科學(xué)家們要努力趕上。

責(zé)任編輯:王程程 來源: 中云網(wǎng)
相關(guān)推薦

2013-10-29 10:14:10

文科教授大數(shù)據(jù)

2014-08-15 10:34:42

快數(shù)據(jù)大數(shù)據(jù)

2014-06-16 09:11:29

快數(shù)據(jù)大數(shù)據(jù)

2018-03-07 16:15:32

網(wǎng)絡(luò)物聯(lián)網(wǎng)互聯(lián)網(wǎng)+

2015-11-20 11:03:26

2012-06-13 09:14:42

PhoneGapAppCan產(chǎn)品經(jīng)理

2018-08-03 08:53:28

2015-05-15 09:43:50

程序員代碼

2013-05-24 11:06:53

大數(shù)據(jù)行為數(shù)據(jù)

2019-09-16 13:14:37

數(shù)據(jù)科學(xué)家模型職業(yè)

2017-03-21 21:17:50

大數(shù)據(jù)數(shù)據(jù)互聯(lián)網(wǎng)

2012-11-09 13:59:45

產(chǎn)品經(jīng)理產(chǎn)品管理項(xiàng)目管理

2012-06-01 16:13:09

Hadoo大數(shù)據(jù)

2015-08-06 17:15:28

2013-03-05 10:28:36

大數(shù)據(jù)流媒體公司

2016-11-28 15:17:52

大數(shù)據(jù)應(yīng)用大數(shù)據(jù)

2017-01-11 09:22:03

大數(shù)據(jù)應(yīng)用資源

2020-09-21 15:16:09

大數(shù)據(jù)IT技術(shù)

2013-04-27 12:01:09

大數(shù)據(jù)全球技術(shù)峰會(huì)大數(shù)據(jù)

2015-07-21 15:24:49

文科生成長(zhǎng)過程
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 亚洲高清在线 | 综合伊人 | 97精品国产97久久久久久免费 | 日韩福利 | av网址在线 | 国产在线观看一区二区三区 | 欧美xxxⅹ性欧美大片 | 日韩免费福利视频 | 精品一区二区三区免费毛片 | 欧美精品在线免费 | 夜夜草| 国产免费一区 | 国产东北一级毛片 | a毛片视频网站 | 亚洲高清视频在线 | 亚洲人精品 | 亚洲人久久 | 91精品久久久久久久久久入口 | 精品国产乱码久久久久久影片 | av黄色在线 | 国产japanhdxxxx麻豆 | 色天天综合 | 免费三级av | 久久久久国产一区二区三区 | 精品视频一区二区三区在线观看 | 6080yy精品一区二区三区 | 免费一区二区 | 亚洲午夜视频在线观看 | 国产aⅴ| 国产91丝袜 | 免费久久精品视频 | 成年人网站国产 | 一区二区三区高清 | 一区二区三区国产精品 | 超碰欧美| 天天影视亚洲综合网 | 精品国产乱码久久久久久1区2区 | 看片国产| 国产免费一区二区三区 | 欧美视频网 | 午夜小视频在线播放 |