不良數據會造成更嚴重后果的八個原因
數據宕機是指數據丟失、錯誤或不準確的情況。它可能讓人回憶起互聯網的早期階段,當時的網站會以令人震驚的頻率出現故障。
現在回想起來,這是有道理的。當時不僅存在基礎設施方面的挑戰,而且使用網絡的人并不多,網站也沒有那么有價值。隨著云計算、電子商務和SaaS的興起,這種情況發生了變化,確保可靠性成為企業的關鍵任務,站點可靠性工程(SRE)應運而生。
數據如今處于相似的時刻。技術在進步,企業的業務正在向云遷移,數據變得比以往任何時候都更加廣泛和更具價值。
由此得出的結論是,隨著數據變得更有價值,數據質量差的后果變得更加嚴重。在一兩年前還適用的最佳實踐、技術和投資現在可能影響企業的競爭能力。
根據調研機構Gartner公司的預計,到2025年,80%尋求擴展數字業務的企業將會失敗,因為他們沒有采用現代方法進行數據和分析治理。
以下是不良數據導致成本上升的8個原因:
1.數據正在向下游移動
不良數據的成本取決于誰發現了問題。如果數據工程師發現了錯誤的數據,他們就會得到獎勵。如果公眾發現不良數據,那么可能會根據情況產生聲譽或法律影響。
每個階段還充當過濾器,防止不良數據向下游移動。目前的挑戰在于,目前數據存在多種趨勢,這些趨勢正在加快數據從數據民主化、數據產品、反向ETL等向下游移動的步伐。
2.數據堆棧變得越來越復雜
不良數據越往下游傳播,修復成本就越高。讓數據工程師對ETL管道進行故障排除,這比讓數據科學家重新訓練已輸入錯誤數據的機器學習模型要容易和快捷得多。
數據的修復成本高昂。隨著企業越來越依賴復雜的數據資產來幫助執行業務決策,不良數據的機會成本也隨之上升。
例如,一家擁有機器學習模型的投資公司就遇到這樣的情況,該模型可以在債券符合特定標準時自動購買債券。模式錯誤會使模型離線數天或數周,其結果導致這部分業務陷入停頓。
隨著數據堆棧變得越來越復雜,也有更多的數據“交接”,從而為更多問題帶來了機會。例如,一家游戲開發商就注意到他們的新用戶在獲取數據時出現了偏差。
他們投放廣告的社交媒體平臺改變了數據時間表,因此他們每12小時而不是24小時發送一次數據。該公司的ETL設置為每天只提取一次數據,因此這意味著在突然之間,發送給他們的一半活動數據沒有得到處理或傳遞到下游。
3.增加數據采用率
隨著數據宕機,現在有更多的人在等待,企業可能擁有更多的數據消費者,這些消費者比一年前更加依賴數據。企業已經認識到數據民主化的力量,并正在迅速采取行動,使他們的企業更加以數據為驅動力。
根據谷歌云和哈佛商業評論發布的一份調查報告,?97%的接受調查的行業領導者認為,在企業范圍內訪問數據和分析對于他們的業務成功至關重要。事實上,英國最大的汽車交易網站Auto Trader UK一半以上的員工每月至少一次定期在Looker儀表板上處理數據。
這是一個令人敬畏的趨勢。然而,更多的數據消費者和更多的數據分析師意味著當數據宕機時會擔負更多的責任。
4.數據消費者的期望不斷提高
數據消費者的期望比以往任何時候都高。他們習慣于利用SaaS產品來保證5個9的可用性,這意味著他們每年的停機時間不到12分鐘。事實上,不知道有哪個數據團隊能夠達到這個目標。
不幸的是,大多數數據團隊都是根據感覺進行評估的。數據消費者和企業高管都“感覺”團隊做得好或者不好。據Gartner稱,這是因為將近60%的企業沒有衡量不良數據的年度財務成本。
由于消費者對數據的期望很高,而衡量性能的定性數據很少,數據宕機不僅對企業,而且對數據團隊都有嚴重的影響。
5.數據工程師難以尋求
招聘數據工程師可能需要一段時間,而從數據團隊那里聽到的最常見的抱怨之一是,在當今競爭激烈的勞動力市場上招聘是多么困難。他們的沮喪是顯而易見的,因為經歷了漫長而艱巨的人員招聘過程,但找不到任何數據工程師來擔任這份工作。
根據生物制藥商Dice公司的2020年技術工作報告,數據工程師是技術領域需求增長最快的工作,空缺職位數量同比增長50%,2022年報告的數據工程師平均年薪為117295美元。
數據工程師正迅速成為最有價值的資產之一。讓他們放下自己的工作以修復數據宕機成本高昂,并且反復這樣做可能會讓他們決定離職。
6.數據質量責任正在變得分散
數據網格或分散的團隊模型分配數據質量責任。目前數據中最熱門的概念之一是數據網格,它將數據所有權在域數據所有者之間聯合起來,這些所有者負責將數據作為產品提供,同時促進不同位置的分布式數據之間的通信。
這樣做的好處是讓數據團隊更接近業務,并了解所有相關數據操作的目的。然而,就其性質而言,也分散了責任。
分散的設置給清晰的溝通和清晰的流程帶來了更大的負擔。如果沒有強大的流程,責任分散可能會延長解決不良數據所需的時間或這些問題跨域時的數據宕機時間。
7.cookie的困境
由于GDPR等法規更加嚴格以及行業不再使用cookie,企業將更加依賴第一方數據和第三方數據。
這意味著他們將需要收集更多數據,這將變得更有價值,因為他們不再依賴谷歌算法來幫助他們的廣告找到合適的消費者。因此,數據宕機時間開始對企業營銷和運營產生更大的影響,不良數據的成本正在上升。
8.數據正在成為一種產品,并且具有超強競爭力
數據團隊正在創建復雜的數據產品,這些產品正迅速成為客戶產品的一部分,并為他們的公司釋放新的價值。
這在某些行業已經成為超級競爭。如果企業的團隊沒有產生可操作的見解,那么很快就會被其他人超越。
在媒體領域經常看到這種情況,數據已成為一場軍備競賽。數據團隊的規模和對他們的投資是天文數字。這些公司從每小時一次批處理到縮短到15分鐘,再到每5分鐘一次,現在開始實現流式傳輸,真是令人嘆為觀止。
在這種環境下,沒有不良數據的余地。在某一媒體的數據宕機期間,其他媒體正在發布獨家新聞、獲得點擊并獲得對其受眾的寶貴見解。
預防勝于治療
考慮到不良數據的成本不斷增加以及大多數企業的數據質量問題比他們想象的要多時,增加對數據質量或數據可觀察性的投資似乎是明智之舉。
一些數據團隊在內部信號方面非常敏銳,這表明是投資數據質量的時候了(從遷移到像Snowflake或Redshift這樣的云數據倉庫),但像以上提到的外部驅動因素可能會讓企業迷失方向。
建議采取積極主動的方法。考慮如何在人員、流程和技術方面進行投資,以降低不良數據不斷上升的成本。