大數(shù)據(jù)已死:智能數(shù)據(jù)永生
十多年來,大數(shù)據(jù)一直在穩(wěn)步增長。新興的數(shù)據(jù)驅(qū)動公司已經(jīng)崛起,并成為價值數(shù)十億美元的巨頭,而成熟的市場領(lǐng)導(dǎo)者則早日意識到了數(shù)據(jù)的力量,并進(jìn)行了相應(yīng)的投資。但是就像許多事情一樣,2020年是對數(shù)據(jù)戰(zhàn)略的一次警鐘,尤其是許多沒有立即產(chǎn)生價值的戰(zhàn)略。
我認(rèn)為現(xiàn)在是時候接受大數(shù)據(jù)的局限性并接受對智能數(shù)據(jù)的需求了。向智能數(shù)據(jù)的轉(zhuǎn)變已經(jīng)持續(xù)了至少十年。我自己的公司背后的核心思想是為企業(yè)提供他們需要的智能數(shù)據(jù),以改善需求預(yù)測。
盡管準(zhǔn)確的外部數(shù)據(jù)是可以為您的計劃帶來確定性的少數(shù)因素之一,但許多數(shù)據(jù)科學(xué)家報告稱,他們卻花費(fèi)了大約80%的時間來清理、驗(yàn)證和準(zhǔn)備數(shù)據(jù)。
在智能數(shù)據(jù)的新時代,已被清理、驗(yàn)證、特征化并且能夠插入模型并開始快速交付價值的數(shù)據(jù),可能性很大。通過配置智能數(shù)據(jù),模型可以更快地查找和使用最有影響力的數(shù)據(jù),從而了解世界的運(yùn)作方式并做出更好的決策。充分利用智能數(shù)據(jù)的企業(yè)可能是那些擺脫了大數(shù)據(jù)思維方式的公司。
我們?nèi)绾蜗萑氪髷?shù)據(jù)淹沒?
數(shù)十年來,企業(yè)一直在向數(shù)據(jù)源投入資金,并將更多的信息注入其數(shù)據(jù)湖。但是,新數(shù)據(jù)并不總是等同于新的智能(對于機(jī)器學(xué)習(xí)模型,尤其是對核心業(yè)務(wù)戰(zhàn)略),慢慢地,所有這些數(shù)據(jù)的權(quán)重就逐漸建立起來。
由于大多數(shù)數(shù)據(jù)源都需要清理和標(biāo)準(zhǔn)化,因此聘請一個擁有多個研究生學(xué)位的昂貴員工,其通常也會在一周的大部分時間里花時間整理基礎(chǔ)數(shù)據(jù)。當(dāng)將近90%的數(shù)據(jù)科學(xué)項目從未投入生產(chǎn)時,再加上產(chǎn)生有用的機(jī)器學(xué)習(xí)模型的復(fù)雜性,就意味著大量的數(shù)據(jù)科學(xué)投資并沒有取得重大收益。
2020年進(jìn)入大流行時代。當(dāng)財務(wù)團(tuán)隊對所有事務(wù)運(yùn)行精細(xì)化管理時,必須做好任何準(zhǔn)備。正確的數(shù)據(jù)項目決定成功與否,但是任何不能用于改善核心功能的東西(例如需求預(yù)測、定價或提高競爭優(yōu)勢)都是沒有道理的。數(shù)據(jù)更好的時代已經(jīng)過去,現(xiàn)在是進(jìn)入智能數(shù)據(jù)新時代的時候了。
大規(guī)模聚合和使用數(shù)據(jù)僅僅是開始
最重要的部分是獲取價值。您現(xiàn)在如何讓數(shù)據(jù)達(dá)到目標(biāo)?最近10年的分析癱瘓狀態(tài)已經(jīng)結(jié)束。
大數(shù)據(jù)策略一直試圖使數(shù)據(jù)海洋沸騰已久。這些極簡主義方法行不通,因?yàn)樗鼈兲y了。他們從來沒有做過,當(dāng)您的團(tuán)隊成員較少,利潤更緊且您的需求預(yù)測依賴于過去的數(shù)據(jù)時,他們肯定不會這樣做。從我所看到的情況來看,現(xiàn)在最好的企業(yè)正在將注意力集中在數(shù)據(jù)湖的深度和廣度上,而更多地從中獲得最大的價值。
現(xiàn)在是時候?qū)⑽覀兊臄?shù)據(jù)策略從癱瘓狀態(tài)轉(zhuǎn)變?yōu)閱⒂脿顟B(tài)了,以獲取資產(chǎn)并將其轉(zhuǎn)化為可以從中獲取價值的東西。現(xiàn)在,讓您的數(shù)據(jù)科學(xué)家自由地完成他們夢寐以求的工作:不收集、匯總和清理數(shù)據(jù),而是構(gòu)建模型以利用大數(shù)據(jù)來進(jìn)行諸如勞動力優(yōu)化和價格預(yù)測之類的核心流程。
麥肯錫的首席數(shù)據(jù)官和該公司的一位合作伙伴在2月的一篇文章中很好地指出:“許多公司在收集和利用其自身活動中的數(shù)據(jù)方面取得了長足的進(jìn)步。盡管如此,到目前為止,很少有人意識到鏈接的全部潛力內(nèi)部數(shù)據(jù)以及由第三方、供應(yīng)商或公共數(shù)據(jù)源提供的數(shù)據(jù)。忽略此類外部數(shù)據(jù)是錯失的機(jī)會。... COVID-19危機(jī)提供了一個示例,說明在短短幾個月內(nèi)外部數(shù)據(jù)的相關(guān)性、消費(fèi)者的購買習(xí)慣、活動和數(shù)字行為發(fā)生了巨大的變化,使先前存在的消費(fèi)者研究,預(yù)測和預(yù)測模型過時了;此外,隨著組織爭先恐后地了解這些不斷變化的模式,他們發(fā)現(xiàn)內(nèi)部數(shù)據(jù)很少使用。外部數(shù)據(jù)可以而且仍然可以幫助組織進(jìn)行細(xì)粒度的計劃和響應(yīng)。”
展望未來,您可以使用數(shù)據(jù)為動態(tài)決策提供依據(jù),并使模型更準(zhǔn)確,從而在大流行混亂中提供確定性。您可以使用數(shù)據(jù)來做出關(guān)于效率和機(jī)會的明智決策,而這些決策卻可以立即發(fā)現(xiàn),而無需五個人組成的五個月的研究團(tuán)隊在三個月后進(jìn)行。這就是智能數(shù)據(jù)的力量。
什么定義了智能數(shù)據(jù)?
隨著企業(yè)學(xué)會借力,自動化和機(jī)器學(xué)習(xí)變得至關(guān)重要。智能數(shù)據(jù)始于可靠且經(jīng)過驗(yàn)證的數(shù)據(jù),但不僅僅是真實(shí)的記錄。需要對其進(jìn)行豐富、情景化和特性化,以使其不再僅僅是原始信息,而是高質(zhì)量的信息。這減少了將新數(shù)據(jù)輸入到機(jī)器學(xué)習(xí)模型中的摩擦和易于出錯的特性。
在評估每個新數(shù)據(jù)源時,您應(yīng)該提出以下要求:
這些數(shù)據(jù)是否提供足夠的深度以為我正在構(gòu)建的模型要解決的問題提供足夠的背景信息?
- 數(shù)據(jù)的驗(yàn)證度和準(zhǔn)確性如何?
- 當(dāng)我們進(jìn)入期待已久但混亂的恢復(fù)階段時,更新和重新驗(yàn)證的頻率是多少?
- 是否足夠豐富,我的模型將知道如何處理其輸入?
- 這將使我的機(jī)器學(xué)習(xí)模型更快更好地做出哪些核心業(yè)務(wù)決策?
- 我可以輕松地解釋此數(shù)據(jù)源顯示什么,以及它對我的預(yù)測和運(yùn)營的影響嗎?
去年,最終的黑天鵝事件使許多企業(yè)措手不及。現(xiàn)在,許多人都在努力集成新數(shù)據(jù)并推出數(shù)據(jù)驅(qū)動的恢復(fù)計劃,以了解什么將推動他們的需求。不管是電視體育比賽還是節(jié)節(jié)高漲的需求,洪水或恐怖襲擊使需求下降,還是許多大型活動讓大多數(shù)企業(yè)無法預(yù)料的人員聚集規(guī)模,很多企業(yè)都參與其中。而且我認(rèn)為每個企業(yè)都必須做到。