從0到1,聊聊貨拉拉如何搭建數(shù)據(jù)指標(biāo)體系
一、背景
指標(biāo)體系是指一系列維度、有組織及結(jié)構(gòu)的指標(biāo)集合。構(gòu)建指標(biāo)體系主要是為公司業(yè)務(wù)目標(biāo)落地做輔助決策,以及監(jiān)控業(yè)務(wù)運(yùn)行的穩(wěn)定性情況等。
具體從業(yè)務(wù)、技術(shù)及產(chǎn)品三個(gè)視角來闡述指標(biāo)體系構(gòu)建中的痛點(diǎn):
1. 業(yè)務(wù)視角:
- 可信任性:業(yè)務(wù)口徑不一致,導(dǎo)致指標(biāo)數(shù)據(jù)不一致,影響到業(yè)務(wù)部門對(duì)數(shù)據(jù)的信任感;
- 可理解性:業(yè)務(wù)術(shù)語不一致,導(dǎo)致不同人對(duì)業(yè)務(wù)的理解不一致,從而導(dǎo)致數(shù)據(jù)存在略微的差異,增加溝通成本;
- 可衡量性:指標(biāo)與業(yè)務(wù)的真實(shí)相關(guān)程度,能否準(zhǔn)確衡量業(yè)務(wù)的變化,指導(dǎo)目標(biāo)的達(dá)成;
- 可追溯性:隨著業(yè)務(wù)的發(fā)展,業(yè)務(wù)及數(shù)據(jù)口徑的變更歷史較難回溯。
2. 技術(shù)視角
- 數(shù)據(jù)穩(wěn)定性:數(shù)據(jù)的產(chǎn)出是否穩(wěn)定及時(shí);
- 數(shù)據(jù)質(zhì)量:數(shù)據(jù)是否準(zhǔn)確,完整、一致。
3. 產(chǎn)品視角
- 可訪問性:數(shù)據(jù)是否易于訪問;
- 合規(guī)性:使用是否安全合規(guī),如何防止數(shù)據(jù)泄漏的風(fēng)險(xiǎn)等。
二、指標(biāo)體系構(gòu)建
1. 指標(biāo)設(shè)計(jì)
針對(duì)上述痛點(diǎn),我們從以下三個(gè)方面去解決:
- 解決業(yè)務(wù)痛點(diǎn):在指標(biāo)設(shè)計(jì)時(shí)首先選取核心業(yè)務(wù)成體系化的來搭建指標(biāo)體系,并將整個(gè)建設(shè)流程標(biāo)準(zhǔn)化。
- 解決技術(shù)痛點(diǎn):將數(shù)據(jù)研發(fā)流程規(guī)范化,把握好數(shù)據(jù)模型的業(yè)務(wù)擴(kuò)展性及 ETL 的性能問題,并做好數(shù)據(jù)鏈路及質(zhì)量監(jiān)控。
- 解決產(chǎn)品痛點(diǎn):將建設(shè)的元數(shù)據(jù)產(chǎn)品化,數(shù)據(jù)的使用做到服務(wù)化。
對(duì)于建設(shè)范圍:先聚焦核心業(yè)務(wù),快速將核心業(yè)務(wù)的指標(biāo)體系搭建出來并落地應(yīng)用,然后再迭代優(yōu)化。切忌刻意地追求指標(biāo)的業(yè)務(wù)覆蓋面,避免導(dǎo)致需求范圍過大,實(shí)現(xiàn)周期太長(zhǎng),導(dǎo)致指標(biāo)的應(yīng)用落地嚴(yán)重延期。整個(gè)核心構(gòu)建過程如上圖中所示,目標(biāo)是圍繞賦能業(yè)務(wù)去設(shè)計(jì)指標(biāo)。
2. 指標(biāo)體系搭建
下面以貨拉拉為例,簡(jiǎn)單介紹指標(biāo)體系搭建的思路(例子與實(shí)際業(yè)務(wù)不一定相符,僅供參考):
- 首先公司會(huì)制定業(yè)務(wù)的主要目標(biāo),然后依據(jù)參與人的業(yè)務(wù)軌跡梳理核心的業(yè)務(wù)過程;
- 然后拆解負(fù)責(zé)各個(gè)核心業(yè)務(wù)的相關(guān)部門的具體目標(biāo),接著業(yè)務(wù)部門依此制定落地的方案或策略;
- 最后為了指導(dǎo)目標(biāo)達(dá)成,再梳理各業(yè)務(wù)具體的衡量指標(biāo)。
3. 指標(biāo)維度拆解
上圖中列出了指標(biāo)及維度拆解中的一些經(jīng)典原則及常用數(shù)據(jù)模型。這里強(qiáng)調(diào)兩點(diǎn):
- 遵循 MECE原則,尤其是在底層數(shù)據(jù)模型的設(shè)計(jì)過程中,最好將維度和指標(biāo)拆解地互斥且不交叉,這樣有利于保證上層應(yīng)用層維度及指標(biāo)組合的靈活性、同時(shí)也有利于提升復(fù)用率、降低整體的計(jì)算及研發(fā)成本;具體的拆分方法參考如上圖所示,二(多)分法、流程法等。
- 需要深入理解各核心業(yè)務(wù)場(chǎng)景的常用數(shù)據(jù)分析模型(比如上圖中 AARRR 等模型),結(jié)合自己公司的業(yè)務(wù)特點(diǎn),選取合適的業(yè)務(wù)數(shù)據(jù)模型來搭建部門內(nèi)部的指標(biāo)體系。
三、指標(biāo)標(biāo)準(zhǔn)化建設(shè)
指標(biāo)體系建設(shè)的標(biāo)準(zhǔn)化流程可以參考以上流程圖,重點(diǎn)強(qiáng)調(diào)的內(nèi)容有以下兩點(diǎn):
- 數(shù)據(jù)需求準(zhǔn)入評(píng)審:為了解決業(yè)務(wù)口徑描述不一致、業(yè)務(wù)口徑轉(zhuǎn)換為數(shù)據(jù)口徑的質(zhì)量問題,一定要成立一個(gè)指標(biāo)評(píng)審組織,至少由業(yè)務(wù)方、數(shù)據(jù)分析人員、數(shù)倉(cāng)研發(fā)人員這三部分組成,此項(xiàng)工作人力投入價(jià)值最大,直接影響后續(xù)數(shù)據(jù)研發(fā)的效率、交付質(zhì)量及是否返工修復(fù)數(shù)據(jù)口徑等工作量。
- 數(shù)據(jù)研發(fā)的標(biāo)準(zhǔn)化:為了數(shù)據(jù)模型設(shè)計(jì)工作的高質(zhì)量開展,需要梳理好數(shù)據(jù)口徑;核心工作內(nèi)容是數(shù)據(jù)的維度及指標(biāo)梳理,落地為指標(biāo)維度矩陣,再進(jìn)一步拆解到事實(shí)層(DWD)的維度及原子指標(biāo),這樣可以更準(zhǔn)確地評(píng)估后續(xù)數(shù)據(jù)研發(fā)的工作量。
指標(biāo)體系建設(shè)過程中數(shù)據(jù)研發(fā)的工作重點(diǎn):依據(jù)數(shù)倉(cāng)的架構(gòu)主要集中在匯總層各業(yè)務(wù)主題域的指標(biāo)維度事實(shí)表的建設(shè)落地,其次是集市層,面向業(yè)務(wù)的多賬期、跨業(yè)務(wù)主題域、衍生指標(biāo)的建設(shè)工作等。
四、指標(biāo)元數(shù)據(jù)管理
指標(biāo)建設(shè)完成后,則需要進(jìn)行指標(biāo)元數(shù)據(jù)管理,主要有四部分內(nèi)容:
- 首先管理好指標(biāo)建設(shè)流程;前期可以先采用 SOP 等文檔落地,后續(xù)再產(chǎn)品化。
- 其次管理好數(shù)據(jù)模型,包括偏向技術(shù)的物理模型和偏向業(yè)務(wù)的邏輯模型。
- 然后管理好指標(biāo)及維度的元數(shù)據(jù)信息,包括業(yè)務(wù)數(shù)據(jù)域、業(yè)務(wù)口徑、數(shù)據(jù)口徑、血緣關(guān)系等。
- 最后將數(shù)據(jù)封裝成服務(wù),并將業(yè)務(wù)應(yīng)用方的使用和調(diào)用信息登記管理起來,以便后期的服務(wù)穩(wěn)定性分級(jí)管理及指標(biāo)體系建設(shè)的業(yè)務(wù)收益回收等。
對(duì)于指標(biāo)元數(shù)據(jù)管理方面,介紹以下三個(gè)相關(guān)定義:
- 數(shù)據(jù)需求=時(shí)間+維度+指標(biāo)
- 指標(biāo)=時(shí)間+修飾詞+原子指標(biāo)
- 維度=通用維度+個(gè)性化的業(yè)務(wù)維度
因此對(duì)應(yīng)的具體管理內(nèi)容主要是如上圖所示的三部分元數(shù)據(jù)的管理,修飾詞管理、指標(biāo)管理和維度管理。
五、指標(biāo)應(yīng)用&未來發(fā)展
對(duì)于指標(biāo)體系的主要應(yīng)用場(chǎng)景包括:業(yè)務(wù)報(bào)表和看板、特定的業(yè)務(wù)數(shù)據(jù)產(chǎn)品等,另外實(shí)際已落地的新場(chǎng)景是:結(jié)合 AI 大模型通過自然語言快速取數(shù),具體框架如上圖所示。
具體應(yīng)用場(chǎng)景功能設(shè)計(jì)上,對(duì)于衍生指標(biāo),即基礎(chǔ)指標(biāo)的四則運(yùn)算、派生及衍生維度,關(guān)聯(lián)父子維度,或者簡(jiǎn)單關(guān)聯(lián)轉(zhuǎn)化的維度,我們都是通過元數(shù)據(jù)配置來實(shí)現(xiàn)的,這樣極大提高了數(shù)據(jù)應(yīng)用的靈活性,并大大降低了數(shù)據(jù)及后端數(shù)據(jù)接口服務(wù)研發(fā)的成本,同時(shí)提高了需求響應(yīng)的及時(shí)性。
對(duì)于指標(biāo)體系應(yīng)用在未來的熱門發(fā)展方向主要體現(xiàn)在通過自然語言快速取數(shù)、歸因診斷及智能運(yùn)營(yíng)這三個(gè)方面:
- 自然語言快速取數(shù)及簡(jiǎn)單可視化,在貨拉拉已經(jīng)接近落地,相關(guān)云廠商或者頭部互聯(lián)網(wǎng)公司也基本都有相關(guān)產(chǎn)品。這個(gè)場(chǎng)景的主要挑戰(zhàn)是如何降低錯(cuò)誤率,個(gè)人理解在這個(gè)場(chǎng)景中可以拒答,但是不能給出錯(cuò)誤數(shù)據(jù)。
- 診斷歸因,則處于探索逐步落地階段,前期主要先基于業(yè)務(wù)部門的分析經(jīng)驗(yàn)來配置歸因的邏輯來實(shí)現(xiàn),后續(xù)再探索如何讓大模型通過對(duì)行業(yè)業(yè)務(wù)的理解學(xué)習(xí),結(jié)合數(shù)理統(tǒng)計(jì)分析算法來自主歸因。
- 智能運(yùn)營(yíng)場(chǎng)景,為了提高運(yùn)營(yíng)效率,進(jìn)一步對(duì) AI 大模型提出了更高的定制化能力要求。傳統(tǒng)運(yùn)營(yíng)早已深入各行業(yè)公司的具體業(yè)務(wù),主要是基于個(gè)人經(jīng)驗(yàn)和歷史沉淀的經(jīng)驗(yàn)知識(shí)等,因此需要更深入理解行業(yè)及公司業(yè)務(wù)的運(yùn)營(yíng)知識(shí)。同時(shí)由于涉及到具體的運(yùn)營(yíng)策略及業(yè)務(wù)數(shù)據(jù),對(duì)于這部分的數(shù)據(jù)安全性也是一個(gè)挑戰(zhàn)。為了這個(gè)場(chǎng)景能更好地落地及推廣,還要求相關(guān)產(chǎn)品能具備通用化且安全的行業(yè)知識(shí)學(xué)習(xí)及更新能力,并最好將大模型行業(yè)知識(shí)的學(xué)習(xí)流程產(chǎn)品化,降低大家的學(xué)習(xí)使用成本,在保證運(yùn)營(yíng)效果的同時(shí),大大減少公司的運(yùn)營(yíng)人力投入成本。