數據倉庫指標體系搭建實戰!
01指標體系
1. 痛點分析
主要從業務、技術、產品三個視角來看:
業務視角業務分析場景指標、維度不明確;頻繁的需求變更和反復迭代,數據報表臃腫,數據參差不齊;用戶分析具體業務問題找數據、核對確認數據成本較高。
技術視角指標定義,指標命名混亂,指標不唯一,指標維護口徑不一致;指標生產,重復建設;數據匯算成本較高;指標消費,數據出口不統一,重復輸出,輸出口徑不一致;
產品視角缺乏系統產品化支持從生產到消費數據流沒有系統產品層面打通;
2. 管理目標
- 技術目標 統一指標和維度管理,指標命名、計算口徑、統計來源唯一, 維度定義規范、維度值一致
- 業務目標 統一數據出口、場景化覆蓋
- 產品目標 指標體系管理工具產品化落地;指標體系內容產品化落地支持決策、分析、運營例如決策北極星、智能運營分析產品等
3. 模型架構
02業務線定義
業務板塊定義原則:業務邏輯層面進行抽象、物理組織架構層面進行細分,可根據實際業務情況進行層級分拆細化,層級分級建議進行最多進行三級分拆,一級細分可公司層面統一規范確定,二級及后續拆分可根據業務線實際業務進行拆分。
例如滴滴出行領域業務邏輯層面兩輪車和四輪車都屬于出行領域可抽象出行業務板塊(level一級),根據物理組織架構層面在進行細分普惠、網約車、出租車、順風車(level二級),后續根據實際業務需求可在細分,網約車可細分獨乘、合乘,普惠可細分單車、企業級。
03規范定義
- 數據域
指面向業務分析,將業務過程或者維度進行抽象的集合。其中,業務過程可以概括為一個個不拆分的行為事件,在業務過程之下,可以定義指標;維度,是度量的環境,如乘客呼單事件,呼單類型是維度。為了保障整個體系的生命力,數據域是需要抽象提煉,并且長期維護更新的,變動需執行變更流程。
- 業務過程
指公司的業務活動事件,如呼單、支付都是業務過程。其中,業務過程不可拆分。
- 時間周期
用來明確統計的時間范圍或者時間點,如最近30天、自然周、截止當日等。
- 修飾類型
是對修飾詞的一種抽象劃分。修飾類型從屬于某個業務域,如日志域的訪問終端類型涵蓋APP端、PC端等修飾詞。
- 修飾詞
指的是統計維度以外指標的業務場景限定抽象,修飾詞屬于一種修飾類型,如在日志域的訪問終端類型下,有修飾詞APP、PC端等。
- 度量/原子指標
原子指標和度量含義相同,基于某一業務事件行為下的度量,是業務定義中不可再拆分的指標,具有明確業務含義的名稱,如支付金額。
- 維度
維度是度量的環境,用來反映業務的一類屬性,這類屬性的集合構成一個維度,也可以稱為實體對象。維度屬于一個數據域,如地理維度(其中包括國家、地區、省市等)、時間維度(其中包括年、季、月、周、日等級別內容)。
- 維度屬性
維度屬性隸屬于一個維度,如地理維度里面的國家名稱、國家ID、省份名稱等都屬于維度屬性。
- 指標分類主要分為原子指標、派生指標、衍生指標。
- 原子指標 基于某一業務事件行為下的度量,是業務定義中不可再拆分的指標,具有明確業務含義的名稱,如呼單量、交易金額
- 派生指標 是1個原子指標+多個修飾詞(可選)+時間周期,是原子指標業務統計范圍的圈定。派生指標又分以下二種類型:
- 事務型指標:是指對業務過程進行衡量的指標。例如,呼單量、訂單支付金額,這類指標需要維護原子指標以及修飾詞,在此基礎上創建派生指標。
- 存量型指標:是指對實體對象(如司機、乘客)某些狀態的統計,例如注冊司機總數、注冊乘客總數,這類指標需要維護原子指標以及修飾詞,在此基礎上創建派生指標,對應的時間周期一般為“歷史截止當前某個時間”。
- 衍生指標是在事務性指標和存量型指標的基礎上復合成的。主要有比率型、比例型、統計型均值
04模型設計
主要采用維度建模方法進行構建,基礎業務明細事實表主要存儲維度屬性集合和度量/原子指標;分析業務匯總事實表按照指標類別(去重指標、非去重指標)分類存儲,非去重指標匯總事實表存儲統計維度集合、原子指標或派生指標,去重指標匯總事實表只存儲分析實體統計標簽集合。
指標體系在數倉物理實現層面主要是結合數倉模型分層架構進行指導建設,滴滴的指標數據主要存儲在DWM層,作為指標的核心管理層。
05維度管理
包括基礎信息和技術信息,由不同角色進行維護管理。
- 基礎信息對應維度的業務信息,由業務管理人員、數據產品或BI分析師維護,主要包括維度名稱、業務定義、業務分類。
- 技術信息對應維度的數據信息,由數據研發維護,主要包括是否有維表(是枚舉維度還是有獨立的物理維表)、是否是日期維、對應code英文名稱和中文名稱、對應name英文名稱和中文名稱。
- 如果維度有維度物理表,則需要和對應的維度物理表綁定,設置code和name對應的字段。
- 如果維度是枚舉維,則需要填寫對應的code和name。維度的統一管理,有利于以后數據表的標準化,也便于用戶的查詢使用。
06指標管理
包括基礎信息、技術信息和衍生信息,由不同角色進行維護管理。
- 基礎信息對應指標的業務信息,由業務管理人員、數據產品或BI分析師維護,主要包括歸屬信息(業務板塊、數據域、業務過程),基本信息(指標名稱、指標英文名稱、指標定義、統計算法說明、指標類型(去重、非去重)),業務場景信息(分析維度,場景描述);
- 技術信息對應指標的物理模型信息,由數據研發進行維護,主要包括對應物理表及字段信息;
- 衍生信息對應關聯派生或衍生指標信息、關聯數據應用和業務場景信息,便于用戶查詢指標被哪些其它指標和數據應用使用,提供指標血緣分析追查數據來源的能力。
原子指標定義歸屬信息 + 基本信息 + 業務場景信息派生指標定義時間周期 + 修飾詞集合 + 原子指標修飾類型主要包含類型說明、統計算法說明、數據源(可選)
07建模流程
建模流程主要是從業務視角指導工程師對需求場景涉及的指標進行主題抽象,歸類,統一業務術語,減少溝通成本,同時避免后續的指標重復建設。
分析數據體系是模型架構中匯總事實表的物理集合,業務邏輯層面根據業務分析對象或場景進行指標體系抽象沉淀。滴滴出行主要是根據分析對象進行主題抽象的,例如司機主題、安全主題、體驗主題、城市主題等。指標分類主要是根據實際業務過程進行抽象分類,例如司機交易類指標、司機注冊類指標、司機增長類指標等。 基礎數據體系是模型架構中明細事實表和基礎維度表的物理集合,業務邏輯層面根據實際業務場景進行抽象例如司機合規、乘客注冊等,還原業務核心業務過程。
08開發流程
開發流程是從技術視角指導工程師進行指標體系生產、運維及質量管控,也是數據產品或數據分析師和數倉研發溝通協調的橋梁。
09指標體系圖譜
指標體系圖譜也可稱為數據分析圖譜主要是依據實際業務場景抽象業務分析實體,整合梳理實體涉及的業務分類、分析指標和維度的集合。 建設方法:主要是通過業務思維、用戶視角去構建,把業務和數據緊密關聯起來,把指標結構化分類組織。
建設目的:
- 對于用戶:便于用戶能夠快速定位所需指標和維度,同時通過業務場景化沉淀指標體系,能夠快速觸達用戶數據訴求。
- 對于研發:利于后續指標生產模型設計、數據內容邊界化、數據體系建設迭代量化和數據資產的落地。
▲ 指標體系圖譜模型
▲指標體系圖譜實例
▲指標體系產品化
指標體系涉及的產品集主要是依據其生命周期進行相應建設,通過產品工具打通數據流,實現指標體系統一化、自動化、規范化、流程化管理。因為指標體系建設本質目標是服務業務,實現數據驅動業務價值,所以建設的核心原則是“輕標準、重場景,從管控式到服務式”。通過工具、產品、技術和組織的融合提高用戶使用數據效率,加速業務創新迭代。
其中和指標體系方法論強相關產品就是指標字典工具的落地,其產品的定位及價值:
- 支撐指標管理規范從方法到落地的工具,自動生成規范指標,解決指標名稱混亂、指標不唯一的問題,消除數據的二義性
- 統一對外提供標準的指標口徑和元數據信息
▲工具設計流程 (方法論->定義->生產->消費)
▲指標定義
▲指標生產
10總結
文章整體介紹了指標體系建設方法論&實踐和工具產品的建設情況,指標字典和開發工具已實現流程打通,與數據消費產品的打通后續會通過DataAPI方式提供數據服務。