喚醒數據中臺的數據,分享我的數據驅動秘籍
1.自我介紹
- 數據的抽取(從不同的數據庫、ftp)獲取數據
- 轉換(數據合并、統計)
- 生成寬表(用于支撐 BI 部門的數據展示)
這份工作跟數據打交道比較多,當時也是大數據潮流來襲的時候,正好也遇到了疫情,在家辦公期間學習了基于 Hadoop 的大數據相關的組件:
- 大數據基座 Hadoop
- 數據抽取工具 sqoop、flume
- 數據存儲和分析 Hive、HBase
- 調度工具 Azkaban(個人也集合 kettle 實現了 ktr 和 kjb 的調用)
隨著大數據知識的加深,我開始做大數據相關的系統,當時使用的大數據平臺主要是基于分布式數據庫 Greenplum 的,并非 Hadoop,但是實現思路是相似的,就是使用多個節點將數據和算力分攤開來,最終再聚合到一起。數據中臺也是很重要的一環,這些年數據資產的使用率也備受關注,“數據飛輪”的概念也越來越被推崇,我簡單分享一下自己在這方面的應用。
2.沉睡的數據
數據的存儲和管理本身并不直接創造價值,真正重要的是如何將這些數據轉化為可操作的洞見和決策支持,從而促進企業的數字化轉型和業務增長。
而且設備的數據是海量的,如果不進行合理的分析利用,日積月累的數據僅僅是量的增加,數據沉睡的原因:
- 數據冗余(沒有發掘當前業務之外似乎無關的字段價值)
- 分析維度少(沒有聚合分析數據,導致數據的分析價值較低)
- 數據未進行結構化處理(一些文檔、圖片、視頻等非結構化數據未進行分類)
3.數據飛輪讓數據再次產生價值
“數據飛輪”對我來說是比較新的概念,所謂數據飛輪,指的是數據資產與業務之間形成的正向循環,即數據被應用于業務,進而產生新的數據再反饋回系統,進一步豐富和優化數據資產,從而形成一個持續增強的循環。從運行機制來看,它強調的是一種動態的數據應用過程。整體概念并不繁復,但或許可以為企業轉型過程中如何優化數據驅動提供新的思路。
讓“數據飛輪”的概念喚醒數據中臺的數據,這通常指的是將存儲在數據中臺中的靜態數據轉化為可分析、可應用的動態信息。這個過程涉及到數據的整合、清洗、轉換和加載(etl),以及數據分析和可視化等多個步驟。以下是一些基本步驟來“喚醒”數據中臺的數據:
- 數據集成:需要將分散在不同來源的數據集中到數據中臺。這可能包括數據庫、數據倉庫、云存儲服務等不同形式的數據源。
- 數據清洗:對收集到的數據進行預處理,包括去除重復記錄、處理缺失值、糾正錯誤或格式不統一的數據等。
- 數據轉換:將數據轉換成統一的格式,以便能夠被分析工具正確理解和處理。這可能包括數據類型的轉換、單位的統一、編碼的標準化等。
- 數據加載:將清洗和轉換后的數據加載到數據中臺的數據庫或數據倉庫中,為后續的分析工作提供基礎。
- 數據建模:根據業務需求建立數據模型,通過數據挖掘和統計分析方法,發現數據中的模式、趨勢和關聯性。
- 數據分析:使用各種分析工具和技術,如sql查詢、機器學習算法、報表生成工具等,對數據進行深入分析,提取有價值的信息。
- 數據可視化:通過圖表、儀表板等形式將分析結果呈現出來,幫助用戶更直觀地理解數據和洞察。
- 數據共享和應用:將分析后的數據和洞察分享給決策者和相關團隊,用于支持決策制定、業務流程優化、產品開發等。
- 持續迭代:隨著業務的發展和市場的變化,數據中臺的數據也需要不斷更新和維護,以確保數據的準確性和時效性。
4.實例分析
我開發的項目中有一個這個樣的數據值(場強),這個值一直都是存儲在數據庫里,一直沒有使用,由于“數據飛輪”的啟發,發現:
- 可以通過場強判斷設備的類型(物聯網設備、廣告牌、路燈)
- 可以通過場強判斷距離(移動設備采集兩個設備的場強值,可以推算出速度和距離) 這個值,催生出了兩個應用,一個是設備類似判斷、一個是設備移動速度,這在應用層面增加了分析場景和應用方向。
5.簡單總結
大數據時代,借助“數據飛輪”的概念將數據中臺里的數據從靜態數據轉化為可分析、可應用的動態信息,在最初的業務場景下不斷發揮著數據價值,可是隨著數據量的增加,量變并沒有催生質變,需要我們自己去挖掘數據維度和數據的關聯關系,讓數據的價值隨著數據量的增加而增加,喚醒數據中臺中的數據是一個長期的任重道遠的工程,需要業務人員和開發人員的持續努力,“飛輪”是一個正循環,喚醒數據價值再反哺數據量,讓數據的價值持續增加。