曾經(jīng)很多人說(shuō)“大數(shù)據(jù)就是未來(lái)”,這句話錯(cuò)了嗎?
本文轉(zhuǎn)載自公眾號(hào)“讀芯術(shù)”(ID:AI_Discovery)
“大數(shù)據(jù)”對(duì)我的吸引力已經(jīng)大不如前了。
回想當(dāng)年,在我剛開(kāi)始攻讀數(shù)據(jù)科學(xué)碩士學(xué)位的天真歲月里,任何與大數(shù)據(jù)相關(guān)的主題都會(huì)讓我興奮不已。我試圖挖掘每一組數(shù)據(jù)中屬于3V的一部分。我想要從無(wú)窮的數(shù)據(jù)流中提煉出可分析的數(shù)據(jù),然后建模、可視化、進(jìn)行數(shù)據(jù)轉(zhuǎn)換。
然而如今,每每看到“大數(shù)據(jù)”這個(gè)詞,總會(huì)不自覺(jué)地讓我揚(yáng)起眉毛,內(nèi)心不斷地猜想接下來(lái)又會(huì)出現(xiàn)哪個(gè)同樣“流行”又“模糊”的科技熱詞呢?
究竟是我變了,還是大數(shù)據(jù)變了?
流行詞與現(xiàn)實(shí)
最近,我對(duì)流行詞變得十分敏感。它們被高估了,實(shí)際上不具有任何意義。“讓大數(shù)據(jù)為數(shù)字化時(shí)代帶來(lái)創(chuàng)新”,這句話看上去很酷,但它的意義又是什么呢?現(xiàn)實(shí)可能停留在Excel電子表格、令人沮喪且緩慢的計(jì)算中。
大數(shù)據(jù)之所以令人感到興奮,是因?yàn)樗砹艘环N巨大的財(cái)富(“它將是一種巨大的財(cái)富”,聽(tīng)起來(lái)耳熟嗎?),你可以在其中搜索、查找并使用對(duì)你有價(jià)值的任何東西。
我最初對(duì)于大數(shù)據(jù)的看法是,“在所有這些數(shù)據(jù)中,肯定有什么東西是我們絕對(duì)想知道的”?;蛟S這是對(duì)的,但要從大量數(shù)據(jù)中找到那些有價(jià)值的東西,我們要付出什么代價(jià)呢?
沒(méi)有正確的基礎(chǔ)架構(gòu),大數(shù)據(jù)將毫無(wú)用處
處理大量數(shù)據(jù)需要計(jì)算能力,存儲(chǔ)能力、以及數(shù)據(jù)傳輸?shù)饶芰ΑM瑫r(shí),還會(huì)遇到各種意想不到的瓶頸。
隨著云平臺(tái)的發(fā)展,計(jì)算能力變得更加便宜和易于使用,但云存儲(chǔ)也在指數(shù)級(jí)增長(zhǎng),云計(jì)算的日常使用甚至本地服務(wù)器的維護(hù)都是一筆不小的開(kāi)銷(xiāo)。
這也就是本世紀(jì)關(guān)于數(shù)據(jù)的比較大的教訓(xùn):有時(shí)候,對(duì)某些人而言像黃金一樣的數(shù)據(jù),于另一些人而言就是浪費(fèi)整個(gè)存儲(chǔ)空間的垃圾。
很多公司都是先花錢(qián)挖掘數(shù)據(jù),然后再回過(guò)頭來(lái)看哪些數(shù)據(jù)是真的有用的。費(fèi)用卻已經(jīng)花掉了,但有沒(méi)有用可不一定。
那如果我們?cè)谑占瘮?shù)據(jù)之前就優(yōu)先確定數(shù)據(jù)是否有用,結(jié)果會(huì)怎么樣呢?
不是所有數(shù)據(jù)都是有趣的數(shù)據(jù)
數(shù)據(jù)科學(xué)界有句話叫“無(wú)用輸入再無(wú)效輸出”。在實(shí)際應(yīng)用中,有很多數(shù)據(jù)實(shí)際上是不可靠的,而且是需要下很大功夫清理才能被使用的。
通常,我們花費(fèi)了大量精力、時(shí)間和金錢(qián)卻只能在龐大的數(shù)據(jù)集中找到少量信息。根據(jù)Forrester的報(bào)告,企業(yè)內(nèi)至少60%的數(shù)據(jù)仍未使用。
如果將這些未使用數(shù)據(jù)的存儲(chǔ)成本投資在實(shí)際需要的數(shù)據(jù)的正確基礎(chǔ)架構(gòu)中,會(huì)怎么樣呢?
數(shù)據(jù)越多越好嗎?
“向AI投入盡可能多的數(shù)據(jù)”的時(shí)代已經(jīng)結(jié)束了。人們已經(jīng)意識(shí)到,不是每一個(gè)數(shù)據(jù)特性都是有用的,有些甚至可能有害,數(shù)據(jù)的質(zhì)量往往比數(shù)量更加重要。
我們更希望數(shù)據(jù)能夠以可靠、一致的方式來(lái)呈現(xiàn)我們關(guān)心的事情。通過(guò)了解數(shù)據(jù)的質(zhì)量,也會(huì)更好地將我們領(lǐng)入一個(gè)可解釋的、負(fù)責(zé)任的和安全的關(guān)于AI的研究探索階段。
這是(大型)實(shí)施和(大型)搭建更好的基礎(chǔ)架構(gòu)的時(shí)代
我們已經(jīng)獲得了數(shù)據(jù),現(xiàn)在需要做的是搭建更完善的基礎(chǔ)架構(gòu),從而更安全地使用、共享、分析數(shù)據(jù),并且能夠更加精準(zhǔn)地區(qū)分無(wú)用數(shù)據(jù)和有價(jià)值的信息。
我們還需要確保數(shù)據(jù)和人工智能的質(zhì)量和可靠性,確保全世界都可以使用它們并理解其中涵義。盡管有些人很難理解這一點(diǎn),但數(shù)據(jù)不在于龐大,而在于可靠。
盡管聽(tīng)上去沒(méi)有其他口號(hào)那樣有煽動(dòng)力,但是我還是要講:大數(shù)據(jù)已死,可靠的數(shù)據(jù)萬(wàn)歲!