莫被忽悠 六問(wèn)題揭露誰(shuí)是大數(shù)據(jù)偽磚家
生火這一技術(shù)的由來(lái)在過(guò)去的一百萬(wàn)年間都很有趣,但是黑夜的結(jié)束,冬季的溫暖以及燉出來(lái)的***罐湯才真正改變了一切東西!
我最近讀了一些“大數(shù)據(jù)”方面的文章,發(fā)現(xiàn)了這個(gè)***的科技泡沫中迷惑但是完全可預(yù)測(cè)的趨勢(shì)。由于大數(shù)據(jù)很熱門(mén)、時(shí)髦、并且性感,表面上看很有趣。每個(gè)人都加入進(jìn)來(lái),躍躍欲試,好像他們是專(zhuān)家一樣。如果這讓你開(kāi)始覺(jué)得像是知識(shí)分子在Facebook上關(guān)于國(guó)際政治的演講一樣,這絕非意外。在大數(shù)據(jù)的討論中摻雜的專(zhuān)業(yè)知識(shí)和經(jīng)驗(yàn),與Facebook上關(guān)于政治的空話一樣。
我想我可能會(huì)幫你判斷自己的大數(shù)據(jù)專(zhuān)家到底是不是真正的專(zhuān)家。看看下面的這些言論對(duì)你來(lái)講是不是很熟悉呢。
1.他們談?wù)摰亩际?rdquo;大“和”數(shù)據(jù)“,而不是 “新問(wèn)題”
看上去好像整個(gè)科技行業(yè)都沉浸在 “大數(shù)據(jù)”之中。所有人都在討論它,剛剛成立的公司如雨后春筍般出現(xiàn),LinkedIn上99.9%的簡(jiǎn)歷都包括”數(shù)據(jù)科學(xué)家“這個(gè)詞語(yǔ),然而人們并不清楚這個(gè)詞語(yǔ)真正的意義是什么。
確實(shí),大多數(shù)的公司在并沒(méi)有太大的商業(yè)價(jià)值的硬件和軟件上投入了大量的錢(qián)。這并不奇怪。”大數(shù)據(jù)“對(duì)于發(fā)生在我們身邊的變革來(lái)講是個(gè)糟糕的名字。這與”大“無(wú)關(guān),與”數(shù)據(jù)“也無(wú)關(guān),而是與新問(wèn)題有關(guān),接觸海量的數(shù)據(jù)的方便性更促使了新問(wèn)題的產(chǎn)生。去年我聽(tīng)過(guò)Klout網(wǎng)站(一個(gè)評(píng)價(jià)影響力的網(wǎng)站)的技術(shù)主任做的一個(gè)報(bào)告。他提到,他們的數(shù)據(jù)庫(kù)有1.3萬(wàn)億行的數(shù)據(jù),就像是他們那里有那么多人一樣;也智能如此吧。
如果你現(xiàn)在問(wèn)的問(wèn)題還是以前-----有沒(méi)有更多的數(shù)據(jù)這種老問(wèn)題,那并不是在做“大數(shù)據(jù)”,而是在做”大的商務(wù)智能”,這個(gè)詞語(yǔ)本身就是矛盾。
2.他們談?wù)摰氖羌夹g(shù),而非商業(yè)
有一天有個(gè)人問(wèn)我,“Hadoop 對(duì)數(shù)據(jù)歸檔有什么影響”。 Hadoop是一種工具,大數(shù)據(jù)是一個(gè)商業(yè)現(xiàn)象。很多人認(rèn)為Hadoop是一種解決方法,大數(shù)據(jù)僅僅是在檔案中蹲坐著的數(shù)據(jù)。錯(cuò)誤的信息和銷(xiāo)售宣傳使人們迷失其中。
很容易這些人就陷入了速度和容量、特性與功能的討論中。這項(xiàng)技術(shù)是由工程驅(qū)動(dòng)的,沒(méi)有什么比填的滿滿的的規(guī)格表更能引起我們這些工程師興奮了。如果你是一個(gè)謹(jǐn)慎的CFO;世界上沒(méi)有比一個(gè)招人嫉妒的軟件架構(gòu)師更昂貴的了。
很多企業(yè)現(xiàn)在問(wèn)了在大數(shù)據(jù)中投入了這么多的資金,也要問(wèn)了,“價(jià)值在哪兒?”好吧,如果你不將自己的項(xiàng)目聚焦到對(duì)商業(yè)問(wèn)題的理解和解決上,那么你的項(xiàng)目所研究的出來(lái)的結(jié)果不大有可能是解決商業(yè)問(wèn)題的方案。
你可能會(huì)建成世界上***的云服務(wù)商,但是除了留給自己一點(diǎn)自夸的東西,誰(shuí)又關(guān)心這個(gè)呢?從一個(gè)商業(yè)問(wèn)題開(kāi)始,弄清楚怎樣將問(wèn)題數(shù)據(jù)化,然后利用科技找到解決方法。
3.他們關(guān)心大數(shù)據(jù)更內(nèi)在的東西,而不是行動(dòng)
我合作過(guò)的很多機(jī)構(gòu)將數(shù)據(jù)分析作為結(jié)果,完全忽視了大數(shù)據(jù)的重點(diǎn):行動(dòng)。你可以構(gòu)造出世界上***的云結(jié)構(gòu),將其填滿最干凈的數(shù)據(jù),用***的數(shù)學(xué)模型模擬,產(chǎn)生令人驚奇的見(jiàn)解。如果這些工作做完了之后,你還沒(méi)有改變公司的行為方式,你的產(chǎn)品和服務(wù)可以幫助你的顧客做些什么呢,或者你是怎樣關(guān)懷周?chē)氖澜绲哪亍=K歸到底,你會(huì)徹底失敗。
大數(shù)據(jù)不能僅僅是新的見(jiàn)解,它必須是新的行動(dòng)和新的結(jié)果。我并不是LHC的癡迷者,這個(gè)人類(lèi)歷史上***的科學(xué)實(shí)驗(yàn),最近確認(rèn)了上帝粒子(Higgs粒子)的存在。然而,如果Higgs的知識(shí)沒(méi)有賦予這個(gè)粒子一些意義,我們都將繼續(xù)質(zhì)疑在LHC上花費(fèi)的數(shù)十億美金是否值得。
洞察力很重要,但是行動(dòng)才是養(yǎng)家掙錢(qián)的來(lái)源。如果你的“大數(shù)據(jù)專(zhuān)家”在提出新見(jiàn)解的路上樂(lè)此不疲,而不是想法設(shè)法創(chuàng)造新的商業(yè)成效。那你是在經(jīng)營(yíng)一個(gè)科學(xué)實(shí)驗(yàn)了。
4.他們討論的是結(jié)論,而非聯(lián)系
如果你已經(jīng)從花費(fèi)在大數(shù)據(jù)的努力中得到分析性結(jié)果了,你的“大數(shù)據(jù)科學(xué)家”在談?wù)摰氖?ldquo;結(jié)論”,這一波的大數(shù)據(jù)專(zhuān)家很多并不理解聯(lián)系和誘因之間的細(xì)微差別。兩者看上去是一樣的,然而涉及到行動(dòng)時(shí),這區(qū)別可大了去了。聯(lián)系意味著在各事物之間有著存在著表面上的關(guān)系,預(yù)示著某個(gè)特定的輸入也許會(huì)引起某些特定的結(jié)果。但是,在“聯(lián)系”中不存在確定性。誘因就不一樣了
只要記住,近似永遠(yuǎn)都是近似。
這對(duì)喜歡絕對(duì)的商業(yè)人士來(lái)說(shuō)是當(dāng)頭棒喝;至少他們想要看上去是絕對(duì)的過(guò)程。好吧,在分析學(xué)中沒(méi)有這樣的事情。你的數(shù)據(jù)可能代表著一堆事實(shí),但是分析學(xué)和統(tǒng)計(jì)學(xué)就如同劇院一樣。你看到的不一定總是你得到的。確實(shí),許多“數(shù)據(jù)學(xué)家”更傾向于是“數(shù)據(jù)操作工”。為支持某個(gè)議會(huì)給出政策上可接受的結(jié)果。
聯(lián)系不能成為誘因。任何告訴你找到誘因的大數(shù)據(jù)專(zhuān)家應(yīng)該被馬上質(zhì)疑直到其他方面證明他沒(méi)有騙人。
5.他們討論的是數(shù)據(jù)質(zhì)量,而不是數(shù)據(jù)有效性
我看到花費(fèi)在數(shù)據(jù)質(zhì)量問(wèn)題上的筆墨越來(lái)越多。你在用好的數(shù)據(jù)嗎?你怎么知道,你怎樣凈化數(shù)據(jù)的呢?這些都是在數(shù)據(jù)庫(kù)和業(yè)務(wù)智能聯(lián)合論壇上的問(wèn)題。數(shù)據(jù)質(zhì)量是一個(gè)問(wèn)題,在那么多的垃圾流進(jìn)流出后。但是關(guān)注凈化數(shù)據(jù)只是數(shù)據(jù)庫(kù)的思維模式中的一部分。除此之外,還有一個(gè)價(jià)值數(shù)百億美金的行業(yè)。他們關(guān)注提取-轉(zhuǎn)化-上傳這個(gè)整體,有這種思維模式的商人掙扎在將數(shù)據(jù)與現(xiàn)實(shí)世界聯(lián)系起來(lái)的路上。
盡管數(shù)據(jù)質(zhì)量重要,數(shù)據(jù)有效性更重要;我究竟有沒(méi)有回答我所提出的問(wèn)題的有效數(shù)據(jù)呢?通常,答案會(huì)是“沒(méi)有”。除非你問(wèn)的是一個(gè)你們公司已經(jīng)問(wèn)了好幾十年的老問(wèn)題,這樣的話,又何必問(wèn)呢?
如果你問(wèn)的是新數(shù)據(jù)的新問(wèn)題,你怎樣直到那些數(shù)據(jù)是好的,哪些又是壞的呢?你又將哪些數(shù)據(jù)定義為“干凈”的,哪些又是“臟”的呢?直到你開(kāi)始研究這些由新的分析產(chǎn)生的新結(jié)果,進(jìn)而才能發(fā)現(xiàn)這些結(jié)果是好的還是壞的,你怎么可能在輸入數(shù)據(jù)的時(shí)候定義哪些是干凈的,哪些是臟的?
再一次,這是老套的跳出數(shù)據(jù)庫(kù)/業(yè)務(wù)智能行業(yè)思維的方式,而且與新開(kāi)發(fā)出來(lái)的大數(shù)據(jù)的領(lǐng)域不合適。許多分析都需要有效的數(shù)據(jù),但是在判斷數(shù)據(jù)是否有效前就問(wèn)這數(shù)據(jù)是不是干凈的是無(wú)論怎樣都沒(méi)有意義的。
6.他們聽(tīng)上去跟其他討論大數(shù)據(jù)的人說(shuō)的一樣
我們被埋沒(méi)在大數(shù)據(jù)的噪聲中。確實(shí),是需要一些人來(lái)研究大數(shù)據(jù)的真正意義。更多的,我聽(tīng)到的是同一個(gè)課題被一再的重復(fù);只是被誤解、被引錯(cuò),要不就是在推動(dòng)產(chǎn)品或服務(wù)的名義下變態(tài)發(fā)展。
這令人感到羞恥,因?yàn)榇髷?shù)據(jù)的背后是社會(huì)行為,而且將會(huì)一直這樣。如果你的大數(shù)據(jù)專(zhuān)家不談?wù)撨@些數(shù)據(jù)背后的社會(huì),行為模式,政治和經(jīng)濟(jì)的話,那你就錯(cuò)失良機(jī)了。這個(gè)技術(shù)很有趣,但是也只是一個(gè)找到更有意義的結(jié)論的方法。
生火這一技術(shù)的由來(lái)在過(guò)去的一百萬(wàn)年間都很有趣,但是黑夜的結(jié)束,冬季的溫暖以及燉出來(lái)的***罐湯才是真正改變了一切東西!
如果你的“大數(shù)據(jù)專(zhuān)家”不能明白這個(gè),那他們永遠(yuǎn)也不能明白了,你也是。