聊一聊大數(shù)據(jù)的問題和缺陷
多虧了大數(shù)據(jù)和云計算,可以讓企業(yè)使用超級計算機的力量。而人們面臨的問題是用來分析和應用大數(shù)據(jù)的工具通常有一個致命的缺陷。人們進行的大部分數(shù)據(jù)分析都是基于錯誤的模型,這意味著錯誤是不可避免的。當人們夸大的期望超過其能力時,后果可能是可怕的。
如果大數(shù)據(jù)不是如此巨大,這不會是一個問題。考慮到人們擁有的數(shù)據(jù)量,有時甚至可以使用有缺陷的模型來產(chǎn)生有用的結果。這里的問題是人們經(jīng)常把結果與全知混淆起來。人們對自己的技術非常迷戀,但是當模型出現(xiàn)故障時,它會變得非常難看,尤其是當數(shù)據(jù)產(chǎn)生的錯誤是相當大的時候。
大數(shù)據(jù)失敗的例子
也許最大的和最知名的大數(shù)據(jù)失敗案例是在谷歌公司的2013年流感趨勢。谷歌于2008推出這項服務,目的是預測25個國家的流感疫情。邏輯很簡單:在特定區(qū)域分析谷歌關于流感的搜索查詢。下一步是將搜索結果與該地區(qū)流感活動的歷史記錄進行比較。基于這些結果,活動水平被分為低,中,高或極端。
盡管乍一看,這似乎是一個很酷的想法,但實際上并不是這樣。在2013年流感高峰期,谷歌預測的流感的趨勢悲慘地失敗了。事實上,這個數(shù)字是驚人的140%。原因是算法有缺陷,沒有考慮到幾個因素。例如,如果人們搜索“冷”或“發(fā)燒”這樣的詞,這并不一定意味著他們正在尋找流感樣癥狀。他們可能一直在尋找季節(jié)性的疾病。對于谷歌流感趨勢不幸的是,它無法從這場災難中恢復過來,最終導致了2013年的崩潰。
大數(shù)據(jù)失敗的原因
谷歌流感趨勢的失敗并不是唯一的災難。人們不可能列出這些年來所有大數(shù)據(jù)的錯誤,然而,分析失敗是很重要的,因為可以吸取教訓,不要在功能上重復錯誤。大數(shù)據(jù)失敗的一些原因如下:
(1)缺乏數(shù)據(jù)管理和數(shù)據(jù)管理
組織往往不完全了解他們已有的數(shù)據(jù),但他們?nèi)匀粵Q定在此基礎上開展新的項目。缺乏關于數(shù)據(jù)處理的文檔、存儲、策略和其他程序。采用大數(shù)據(jù)咨詢公司的服務是一個好主意,這樣企業(yè)就可以為自己提供一個清晰的路線圖和指導,說明如何處理已經(jīng)擁有的數(shù)據(jù),然后才能克服大數(shù)據(jù)的挑戰(zhàn)。
(2)未定目標和戰(zhàn)略
這里有很多IT術語和營銷術語,而且在白噪聲中難以理解。此外,市場上還有很多大數(shù)據(jù)產(chǎn)品,選擇合適的產(chǎn)品真的很困難。企業(yè)在決定任何事情之前,找出實現(xiàn)目標所需的服務和技術非常重要。“做大數(shù)據(jù)的小數(shù)據(jù)”,這意味著企業(yè)應該在少量數(shù)據(jù)上評估其大數(shù)據(jù)架構,以確保選擇正確的產(chǎn)品。
(3)完全不了解
數(shù)據(jù)科學和大數(shù)據(jù)是領域知識,數(shù)學,統(tǒng)計專業(yè)知識和編程技能的復雜組合。然而,同時它也必須具有商業(yè)意義。通常,IT部門會做出管理層不能理解的變更,反之亦然。為了確保企業(yè)了解大數(shù)據(jù)行為對IT和業(yè)務領導者都有意義,應該在大數(shù)據(jù)項目中構建IT與業(yè)務之間的橋梁。業(yè)務人員應該深入?yún)⑴c大數(shù)據(jù)項目的任何階段。
(4)項目太大太快
當企業(yè)第一次開始實施大數(shù)據(jù)項目時,有很多未定義的因素,比如預算、技術、行動方式等等。當企業(yè)很早就開展一個大項目時,那么注定要失敗。相反,應該選擇一個小項目進行,并衡量成功(或缺乏)增量。這樣如果出現(xiàn)問題,將能夠立即注意到它,并在項目結束之前進行必要的調整。衡量企業(yè)的進步的好方法是創(chuàng)建概念的原型或證明來驗證其所完成的工作。如果項目早期存在缺陷,推進項目的下一階段就沒有意義了。
(5)缺乏IT人才
企業(yè)找到和雇用所需要的人才來成功完成一個項目是一項艱巨的任務,但處理企業(yè)數(shù)據(jù)的工作人員是整個項目的重要組成部分。而且,他們必須精通新技術,這對于快節(jié)奏的IT環(huán)境來說是一個挑戰(zhàn)。
從上面的列表中,人們注意到的一個共同的主題是,無論想要關注數(shù)據(jù)多少,人們總是受到阻礙。即使人們想要數(shù)據(jù)來決定決策過程,人們最終還是要管理大數(shù)據(jù)流程。這包括做出基本決定,例如收集和保存哪些數(shù)據(jù),以及從大數(shù)據(jù)中尋找哪些答案。
通過迭代創(chuàng)新
當決定進行大數(shù)據(jù)項目時,許多組織感到束手無策,這就是為什么采用迭代方法處理大數(shù)據(jù)至關重要。組織應該嘗試設法讓員工自由地嘗試數(shù)據(jù)。事實上,最重要的大數(shù)據(jù)技術是開源的,這個“開始小,失敗快”的方法得到了加強。而且,很多平臺可以立即以經(jīng)濟實惠的方式訪問云服務,從而進一步降低了試用和錯誤的方法。
大數(shù)據(jù)就是要問正確的問題,所以依靠現(xiàn)有的員工是至關重要的。但是,即使擁有較高的領域知識,組織也不會糾正必要的數(shù)據(jù),從一開始就不會提出正確的問題。這種失敗應該被接受和期待。
由于企業(yè)的大數(shù)據(jù)項目的早期階段可以制定或顛覆整個事情,這就是聽從大數(shù)據(jù)咨詢公司的建議可以獲得真正回報的地方。他們可以為企業(yè)建議如何創(chuàng)建概念的原型和驗證,進行基準測試,幫助創(chuàng)建微服務架構,并幫助企業(yè)遷移到新技術。采用靈活的開放式數(shù)據(jù)基礎設施是非常重要的,這種基礎設施可以讓員工不斷修改和完善他們的方法,直到他們獲得成果。這樣,組織就可以消除恐懼,可以迭代有效地利用大數(shù)據(jù)。