數據分析的十二個誤區
在IT領域,炒作越大,誤解越多,數據分析也不例外。分析是當今信息技術最熱門的方面之一,可以帶來巨大的商業收益,但錯誤的觀念可能會阻礙分析能力順利和及時的流轉,從而使商業用戶和最終客戶受益。當企業創建或擴大他們的分析戰略時,以下是他們可能要記住的誤區。
誤區1:數據分析需要重大投資
這些天來,似乎每一項技術努力都必須經過健全性財務的過濾。當IT和業務經理提議啟動一個項目或部署一個新的工具時,"它將花費多少錢?"是他們首先得到的問題之一。
有些人認為,數據分析本質上是一項昂貴的工作,因此只限于擁有大額預算或大量內部資源的組織。但并不是所有的數據分析工作都需要重大投資,移動和在線房地產服務提供商Trulia的工程副總裁Deep Varma說。
"現在市場上有很多開源以及其他工具,可以幫助你開始展示數據分析的價值,"Varma說。"你需要對你的內部數據存儲以及你要解決的問題有一個很好的了解。云計算也讓你很容易嘗試分析解決一個商業問題"。
現代分析"基于云系統和大數據架構,顧名思義,比傳統的數據倉庫系統要便宜不少,"咨詢公司EY的分析學全球領導人Beatriz Sanz Saiz補充說。
"另外,數據和分析的應用通常是為了實現三個結果:提高流程效率、收入增長和主動風險管理,"Saiz說。"所以總的來說,數據和分析的應用給任何公司都帶來了巨大的成本效益。"
誤區2:您需要大數據來執行分析
對許多人來說,大數據和分析的概念是相輔相成的。他們的想法是,企業在進行分析之前需要收集大量的數據,以產生商業洞察力,改善決策等。
當然,大數據分析的好處已經被充分證實,擁有資源的公司確實可以通過利用其數據存儲作為分析工作的一部分來獲得巨大的競爭優勢。但認為大數據是分析工作的必要條件的想法并不正確。
"很多時候,人們試圖捕捉盡可能多的數據;他們聽到'大數據'就會感到興奮,"人事公司Allegis Global Solutions的商業智能執行總監Tim Johnson說。"人們的誤解是,數據越多越好,機器會把它全部整理出來。"
然而,分析師需要的不是更多的數據,而是具體的數據。"約翰遜說:"95%的用戶正在尋找與他們的工作相關的信息,并支持決策和改善績效。與其關注更多的數據,企業必須考慮業務用戶,不僅要確定他們需要訪問什么數據,還要確定數據的呈現方式。"
約翰遜說:"以多種格式提供對每一點信息的訪問可能會讓人不知所措,而且實際上會扼殺采用。"相反,要找出什么對他們來說是重要的,以及你如何以最簡單的格式向他們展示這些信息"。
誤區3:分析消除了人為偏見
自動化系統的執行方式不應該是有偏見的。但技術是由人類建立的,所以消除所有偏見幾乎是不可能的。有些人認為分析和機器學習消除了人類的偏見。
"不幸的是,這完全不是事實,"全球技術咨詢公司ThoughtWorks的技術主管邁克-梅森說。"算法和分析是使用'訓練數據'進行調整的,并且會重現訓練數據所具有的任何特征。"
梅森說,在某些情況下,這將給分析結果帶來良性偏差;在其他情況下,則會出現更嚴重的偏差。"他說:"僅僅因為'算法這么說'并不意味著答案是公平或有用的。
誤區4:最好的算法總是贏家
實際上,事實證明,只要有足夠的數據,"有時算法并不重要",梅森說。在他引用的一篇IEEE文章"數據的不合理的有效性"中,谷歌工程師認為,簡單的統計模型,加上極其大量的數據,比包含大量特征和總結的"智力超群"的模型取得更好的結果。
"在某些情況下,只要壓縮更大的數據堆就能取得最好的結果,"梅森說。
誤區5:算法是故障安全的
約翰遜說,人們固有的對統計模型和算法的信任程度很高,而且隨著企業建立他們的分析項目,他們越來越依賴復雜的模型來支持決策。
"因為人們不了解模型、算法和其他先進的數據科學實踐,所以他們對它們信任,"約翰遜說。用戶不覺得他們有知識來挑戰這些模型,所以他們必須相信建立這些模型的"聰明人",他說。
"在過去的50到60年里,我們聽說人工智能將在20年內接管這一切,而且我們將繼續聽到人們這樣說,"約翰遜說。"在我們可以公然相信機器學習和結果之前,還有很多地方需要覆蓋。在此之前,我們需要挑戰那些建立算法和模型的人,讓他們解釋答案是如何得出的。這并不是說我們不能依賴結果;而是說我們需要透明度,以便我們能夠信任和驗證分析結果。
誤區6:數據科學是一門神秘的"黑色藝術"
近年來,數據科學這門學科受到了很多關注,有時會讓人對它到底是什么產生混淆。基本上,它涉及使用算法來尋找數據中的模式。
"數據科學似乎很神秘,因為這些算法能夠分析更多的變量和更大的數據集,而不是人的大腦所能理解的,"數據存儲公司美光的首席信息官Trevor Schulze說。
"Schulze說:"隨著近年來計算能力和內存的擴展,我們現在能夠快速解決那些在10年前用任何技術都無法解決的問題。"數據科學是統計推理技術的自然演變,這些技術幾十年來一直被人們所熟知。一旦你理解了數學,數據科學就沒有什么神秘的。
誤區7:要做更多的數據科學,你需要更多的數據科學家
數據科學家是如今所有技術專業人員中需求量最大的。如果他們重新指導他們的工作內容,也許組織可以用更少的這些專業人員。
"梅森說:"很多數據科學家的時間都花在了非增值活動上,比如尋找數據集,把數據帶到可以工作的地方,以及轉換和清理數據。"鑒于雇用數據科學家有多難,這些低價值的任務并不是你希望他們從事的。
"Uber的米開朗基羅平臺允許數據科學家專注于特征工程、提取和分析,而不是到處搬運數據,因此允許他們大規模地提高生產力,"梅森說。
誤區8:分析時間太長
如今,快速完成工作——無論是將產品或服務推向市場,還是近乎實時地回應客戶的詢問,都是公司的一個重要競爭考慮。分析聽起來像是需要很長時間才能完成的事情,與實現速度和敏捷性的目標相悖。
Saiz說:"仍然存在這樣的神話,即這些類型的項目需要太長的時間,而且相當復雜。"在一天結束時,你會發現這一切都與人才有關。有了正確的技能組合和敏捷方法的應用,大問題可以在幾天或幾周內得到解答,而不是幾個月。"
誤區9:技術是困難的部分
隨著當今可用技術數量的不斷增加,選擇正確的工具組合來部署和集成以從分析團隊獲得所需的結果并不是一件容易的事,咨詢公司ISG的IT采購和數字咨詢服務總監James Burke說。
然而,真正困難的部分是"將組織結構和運營模式放在一起,將人員,流程,技術角度所需的所有內容放在一起,"Burke說。"此外,你如何在現有組織內部或'旁邊'做到這一點,對于組織來說似乎是最困難的。
同樣重要的是,不要假設分析工具將完成所有工作。"僅靠技術永遠無法解決任何業務問題,"咨詢公司West Monroe技術實踐的高級主管Greg Layok說。"在急于創建數據湖的過程中,組織反而陷入了沼澤,或者這可能是任何人都難以弄清楚的信息泥沼。
技術并不能解決分析問題,Layok說。"首先,確定一個業務問題,然后問,'我需要什么數據來解決這個問題?'"他說。"這將幫助您識別組織內的數據差距。"
誤區10:數據分析應該是一個獨立的部門
咨詢和數據收集公司Delvinia的總裁兼首席創新官Steven Mast說,在一些組織中,數據分析作為一個部門獨立運作,而在其他組織中,它被深深嵌入到一個跨職能的團隊中。
"馬斯特說:"然而,鑒于所有業務領域的數據爆炸和變化的速度,部門模式是行不通的。"隨著組織變得更加以客戶為中心,數據驅動的分析專家應該是一個業務部門的核心,而不是作為一個你打電話尋求支持的部門來運作。"
馬斯特說,今天組織面臨的許多復雜問題都在業務部門內,而這些問題的許多解決方案都隱藏在數據中。"數據科學家和專家,與這些業務部門密切合作,并使用大型數據集和人工智能,將是孵化下一代產品、服務和客戶體驗的關鍵。"
誤區11:分析只適合博士
分析團隊中有很多受過良好教育的人是很好的,但這并不是成功的要求。
"公司傾向于認為,如果沒有博士加入,他們將無法進行一流的分析,"Saiz說。"現代分析需要融合各種技能——那些對新興技術和開源軟件很精通的人。建立具有不同技能的'豆莢'包括大數據架構師、數據工程師、數據科學家、數據可視化專家等等,這才是最重要的。"
誤區12:人工智能將摧毀就業,破壞經濟
歷史上,新技術的引入擾亂了許多工作和行業,人們擔心人工智能將消除對人執行某些任務的需求。
"人工智能解決方案在解決某些種類的問題方面比人要好得多,"舒爾茨說。"人工智能可以讀得更快,記得更多,計算復雜的數學關系比任何一個人都好。然而,人工智能沒有能力處理真正新穎的情況,而這正是人類擅長的地方。"
舒爾茨說,可以肯定的是,某些工作已經因人工智能的發展而失去或減少,其他工作也將隨之而來。"他說:"但是,我們人類理解和處理完全不可預見的情況的能力不會被任何目前理解的人工智能技術所取代。"在可預見的未來,對人工智能最有效的方法將是用人工智能系統增強人類的能力,執行一些算法優于人的'重活'。雖然許多工作將因人工智能而改變,但人將繼續是這個商業生態系統的關鍵部分。"