手把手教你做用戶(hù)畫(huà)像:三種標(biāo)簽類(lèi)型、八大系統(tǒng)模塊
在互聯(lián)網(wǎng)步入大數(shù)據(jù)時(shí)代后,用戶(hù)行為給企業(yè)的產(chǎn)品和服務(wù)帶來(lái)了一系列的改變和重塑,其中最大的變化在于,用戶(hù)的一切行為在企業(yè)面前是可“追溯”“分析”的。企業(yè)內(nèi)保存了大量的原始數(shù)據(jù)和各種業(yè)務(wù)數(shù)據(jù),這是企業(yè)經(jīng)營(yíng)活動(dòng)的真實(shí)記錄,如何更加有效地利用這些數(shù)據(jù)進(jìn)行分析和評(píng)估,成為企業(yè)基于更大數(shù)據(jù)量背景的問(wèn)題所在。
隨著大數(shù)據(jù)技術(shù)的深入研究與應(yīng)用,企業(yè)的關(guān)注點(diǎn)日益聚焦在如何利用大數(shù)據(jù)來(lái)為精細(xì)化運(yùn)營(yíng)和精準(zhǔn)營(yíng)銷(xiāo)服務(wù),而要做精細(xì)化運(yùn)營(yíng),首先要建立本企業(yè)的用戶(hù)畫(huà)像。
一、用戶(hù)畫(huà)像是什么
用戶(hù)畫(huà)像,即用戶(hù)信息標(biāo)簽化,通過(guò)收集用戶(hù)的社會(huì)屬性、消費(fèi)習(xí)慣、偏好特征等各個(gè)維度的數(shù)據(jù),進(jìn)而對(duì)用戶(hù)或者產(chǎn)品特征屬性進(jìn)行刻畫(huà),并對(duì)這些特征進(jìn)行分析、統(tǒng)計(jì),挖掘潛在價(jià)值信息,從而抽象出用戶(hù)的信息全貌,如圖1所示。
▲圖1 某用戶(hù)標(biāo)簽化
用戶(hù)畫(huà)像可看作企業(yè)應(yīng)用大數(shù)據(jù)的根基,是定向廣告投放與個(gè)性化推薦的前置條件,為數(shù)據(jù)驅(qū)動(dòng)運(yùn)營(yíng)奠定了基礎(chǔ)。由此看來(lái),如何從海量數(shù)據(jù)中挖掘出有價(jià)值的信息越發(fā)重要。
大數(shù)據(jù)已經(jīng)興起多年,其對(duì)于互聯(lián)網(wǎng)公司的應(yīng)用來(lái)說(shuō)已經(jīng)如水、電、空氣對(duì)于人們的生活一樣,成為不可或缺的重要組成部分。從基礎(chǔ)設(shè)施建設(shè)到應(yīng)用層面,主要有數(shù)據(jù)平臺(tái)搭建及運(yùn)維管理、數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)、上層應(yīng)用的統(tǒng)計(jì)分析、報(bào)表生成及可視化、用戶(hù)畫(huà)像建模、個(gè)性化推薦與精準(zhǔn)營(yíng)銷(xiāo)等應(yīng)用方向。
很多公司在大數(shù)據(jù)基礎(chǔ)建設(shè)上投入很多,也做了不少報(bào)表,但業(yè)務(wù)部門(mén)覺(jué)得大數(shù)據(jù)和傳統(tǒng)報(bào)表沒(méi)什么區(qū)別,也沒(méi)能體會(huì)大數(shù)據(jù)對(duì)業(yè)務(wù)有什么幫助和價(jià)值,究其原因,其實(shí)是“數(shù)據(jù)靜止在數(shù)據(jù)倉(cāng)庫(kù),是死的”。
而用戶(hù)畫(huà)像可以幫助大數(shù)據(jù)“走出”數(shù)據(jù)倉(cāng)庫(kù),針對(duì)用戶(hù)進(jìn)行個(gè)性化推薦、精準(zhǔn)營(yíng)銷(xiāo)、個(gè)性化服務(wù)等多樣化服務(wù),是大數(shù)據(jù)落地應(yīng)用的一個(gè)重要方向。數(shù)據(jù)應(yīng)用體系的層級(jí)劃分如圖2所示。
▲圖2 數(shù)據(jù)應(yīng)用體系的層級(jí)劃分
二、用戶(hù)畫(huà)像的3種標(biāo)簽類(lèi)型
用戶(hù)畫(huà)像建模其實(shí)就是對(duì)用戶(hù)“打標(biāo)簽”,從對(duì)用戶(hù)打標(biāo)簽的方式來(lái)看,一般分為3種類(lèi)型:①統(tǒng)計(jì)類(lèi)標(biāo)簽;②規(guī)則類(lèi)標(biāo)簽;③機(jī)器學(xué)習(xí)挖掘類(lèi)標(biāo)簽。
下面我們介紹這3種類(lèi)型的標(biāo)簽的區(qū)別:
1. 統(tǒng)計(jì)類(lèi)標(biāo)簽
這類(lèi)標(biāo)簽是最為基礎(chǔ)也最為常見(jiàn)的標(biāo)簽類(lèi)型,例如,對(duì)于某個(gè)用戶(hù)來(lái)說(shuō),其性別、年齡、城市、星座、近7日活躍時(shí)長(zhǎng)、近7日活躍天數(shù)、近7日活躍次數(shù)等字段可以從用戶(hù)注冊(cè)數(shù)據(jù)、用戶(hù)訪(fǎng)問(wèn)、消費(fèi)數(shù)據(jù)中統(tǒng)計(jì)得出。該類(lèi)標(biāo)簽構(gòu)成了用戶(hù)畫(huà)像的基礎(chǔ)。
2. 規(guī)則類(lèi)標(biāo)簽
該類(lèi)標(biāo)簽基于用戶(hù)行為及確定的規(guī)則產(chǎn)生。例如,對(duì)平臺(tái)上“消費(fèi)活躍”用戶(hù)這一口徑的定義為“近30天交易次數(shù)≥2”。在實(shí)際開(kāi)發(fā)畫(huà)像的過(guò)程中,由于運(yùn)營(yíng)人員對(duì)業(yè)務(wù)更為熟悉,而數(shù)據(jù)人員對(duì)數(shù)據(jù)的結(jié)構(gòu)、分布、特征更為熟悉,因此規(guī)則類(lèi)標(biāo)簽的規(guī)則由運(yùn)營(yíng)人員和數(shù)據(jù)人員共同協(xié)商確定;
3. 機(jī)器學(xué)習(xí)挖掘類(lèi)標(biāo)簽
該類(lèi)標(biāo)簽通過(guò)機(jī)器學(xué)習(xí)挖掘產(chǎn)生,用于對(duì)用戶(hù)的某些屬性或某些行為進(jìn)行預(yù)測(cè)判斷。例如,根據(jù)一個(gè)用戶(hù)的行為習(xí)慣判斷該用戶(hù)是男性還是女性、根據(jù)一個(gè)用戶(hù)的消費(fèi)習(xí)慣判斷其對(duì)某商品的偏好程度。該類(lèi)標(biāo)簽需要通過(guò)算法挖掘產(chǎn)生。
在項(xiàng)目工程實(shí)踐中,一般統(tǒng)計(jì)類(lèi)和規(guī)則類(lèi)的標(biāo)簽即可以滿(mǎn)足應(yīng)用需求,在開(kāi)發(fā)中占有較大比例。機(jī)器學(xué)習(xí)挖掘類(lèi)標(biāo)簽多用于預(yù)測(cè)場(chǎng)景,如判斷用戶(hù)性別、用戶(hù)購(gòu)買(mǎi)商品偏好、用戶(hù)流失意向等。一般地,機(jī)器學(xué)習(xí)標(biāo)簽開(kāi)發(fā)周期較長(zhǎng),開(kāi)發(fā)成本較高,因此其開(kāi)發(fā)所占比例較小。
三、用戶(hù)畫(huà)像8大系統(tǒng)模塊及解決方案
搭建一套用戶(hù)畫(huà)像方案整體來(lái)說(shuō)需要考慮8個(gè)模塊的建設(shè),如圖3所示。
▲圖3 用戶(hù)畫(huà)像主要覆蓋模塊
用戶(hù)畫(huà)像基礎(chǔ):需要了解、明確用戶(hù)畫(huà)像是什么,包含哪些模塊,數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)是什么樣子,開(kāi)發(fā)流程,表結(jié)構(gòu)設(shè)計(jì),ETL設(shè)計(jì)等。這些都是框架,大方向的規(guī)劃,只有明確了方向后續(xù)才能做好項(xiàng)目的排期和人員投入預(yù)算。這對(duì)于評(píng)估每個(gè)開(kāi)發(fā)階段重要指標(biāo)和關(guān)鍵產(chǎn)出非常重要。
數(shù)據(jù)指標(biāo)體系:根據(jù)業(yè)務(wù)線(xiàn)梳理,包括用戶(hù)屬性、用戶(hù)行為、用戶(hù)消費(fèi)、風(fēng)險(xiǎn)控制等維度的指標(biāo)體系。
標(biāo)簽數(shù)據(jù)存儲(chǔ):標(biāo)簽相關(guān)數(shù)據(jù)可存儲(chǔ)在Hive、MySQL、HBase、Elasticsearch等數(shù)據(jù)庫(kù)中,不同存儲(chǔ)方式適用于不同的應(yīng)用場(chǎng)景。
標(biāo)簽數(shù)據(jù)開(kāi)發(fā):用戶(hù)畫(huà)像工程化的重點(diǎn)模塊,包含統(tǒng)計(jì)類(lèi)、規(guī)則類(lèi)、挖掘類(lèi)、流式計(jì)算類(lèi)標(biāo)簽的開(kāi)發(fā),以及人群計(jì)算功能的開(kāi)發(fā),打通畫(huà)像數(shù)據(jù)和各業(yè)務(wù)系統(tǒng)之間的通路,提供接口服務(wù)等開(kāi)發(fā)內(nèi)容。
開(kāi)發(fā)性能調(diào)優(yōu):標(biāo)簽加工、人群計(jì)算等腳本上線(xiàn)調(diào)度后,為了縮短調(diào)度時(shí)間、保障數(shù)據(jù)的穩(wěn)定性等,需要對(duì)開(kāi)發(fā)的腳本進(jìn)行迭代重構(gòu)、調(diào)優(yōu)。
作業(yè)流程調(diào)度:標(biāo)簽加工、人群計(jì)算、同步數(shù)據(jù)到業(yè)務(wù)系統(tǒng)、數(shù)據(jù)監(jiān)控預(yù)警等腳本開(kāi)發(fā)完成后,需要調(diào)度工具把整套流程調(diào)度起來(lái)。
用戶(hù)畫(huà)像產(chǎn)品化:為了能讓用戶(hù)數(shù)據(jù)更好地服務(wù)于業(yè)務(wù)方,需要以產(chǎn)品化的形態(tài)應(yīng)用在業(yè)務(wù)上。產(chǎn)品化的模塊主要包括標(biāo)簽視圖、用戶(hù)標(biāo)簽查詢(xún)、用戶(hù)分群、透視分析等。
用戶(hù)畫(huà)像應(yīng)用:畫(huà)像的應(yīng)用場(chǎng)景包括用戶(hù)特征分析、短信、郵件、站內(nèi)信、Push消息的精準(zhǔn)推送、客服針對(duì)用戶(hù)的不同話(huà)術(shù)、針對(duì)高價(jià)值用戶(hù)的極速退貨退款等VIP服務(wù)應(yīng)用。
四、一款用戶(hù)畫(huà)像產(chǎn)品是什么樣的?
開(kāi)發(fā)畫(huà)像后的標(biāo)簽數(shù)據(jù),如果只是“躺在”數(shù)據(jù)倉(cāng)庫(kù)中,并不能發(fā)揮更大的業(yè)務(wù)價(jià)值。只有將畫(huà)像數(shù)據(jù)產(chǎn)品化后才能更方便業(yè)務(wù)方的使用。這里簡(jiǎn)要介紹用戶(hù)畫(huà)像產(chǎn)品化后,主要可能涵蓋到的功能模塊,以及這些功能模塊的應(yīng)用場(chǎng)景。
畫(huà)像產(chǎn)品按常見(jiàn)的功能來(lái)看,主要包括標(biāo)簽視圖與即時(shí)查詢(xún),用戶(hù)分群,用戶(hù)人群透視分析,對(duì)用戶(hù)從事件、留存、漏斗、分布等多維度展開(kāi)的深入交互式分析等模塊。下面詳細(xì)介紹畫(huà)像的產(chǎn)品形態(tài)。
1. 標(biāo)簽視圖與查詢(xún)
標(biāo)簽視圖與查詢(xún)功能主要面向業(yè)務(wù)人員使用,如圖4所示。
▲圖4
在標(biāo)簽視圖版塊中,層級(jí)化地展示了目前已經(jīng)上線(xiàn)使用的全部用戶(hù)標(biāo)簽。用戶(hù)可以層級(jí)化地通過(guò)點(diǎn)擊標(biāo)簽,查看每個(gè)標(biāo)簽的詳細(xì)介紹。
在圖4中,當(dāng)點(diǎn)擊“用戶(hù)屬性”這個(gè)一級(jí)類(lèi)目,可進(jìn)入到“自然性別”“購(gòu)物性別”“用戶(hù)價(jià)值”等二級(jí)類(lèi)目,點(diǎn)擊“自然性別”二級(jí)類(lèi)目,可看到展開(kāi)的“男性”“女性”三級(jí)標(biāo)簽,進(jìn)一步點(diǎn)擊三級(jí)標(biāo)簽“男性”或是“女性”,可以進(jìn)入查看該標(biāo)簽的詳細(xì)介紹,如圖5所示。
▲圖5
在該標(biāo)簽詳情頁(yè)中,可以查看人口屬性這一個(gè)類(lèi)目下面的各個(gè)標(biāo)簽覆蓋用戶(hù)量情況。
每天通過(guò)對(duì)標(biāo)簽的覆蓋用戶(hù)量進(jìn)行監(jiān)控,可以作為預(yù)警使用。例如:某天某個(gè)標(biāo)簽的覆蓋用戶(hù)量與前一天相比出現(xiàn)了很大比例的波動(dòng),需要排查該標(biāo)簽當(dāng)日ETL作業(yè)是否出現(xiàn)異常或是否因業(yè)務(wù)上的操作導(dǎo)致標(biāo)簽量級(jí)的波動(dòng)。
在標(biāo)簽查詢(xún)模塊中,通過(guò)輸入用戶(hù)對(duì)應(yīng)的userid或cookieid,可以查看該用戶(hù)的屬性信息、行為信息、風(fēng)控屬性等多維度的信息,從多方位了解一個(gè)用戶(hù)的特征。
2. 用戶(hù)人群功能
用戶(hù)人群功能主要面向業(yè)務(wù)人員使用。產(chǎn)品經(jīng)理、運(yùn)營(yíng)、客服等業(yè)務(wù)人員在應(yīng)用標(biāo)簽時(shí),可能不僅僅只查看某一個(gè)標(biāo)簽對(duì)應(yīng)的人群情況,更多地可能需要組合多個(gè)標(biāo)簽來(lái)滿(mǎn)足其在業(yè)務(wù)上對(duì)人群的定義。
例如:組合“近30日購(gòu)買(mǎi)次數(shù)”大于3次和“高活躍”“女性”用戶(hù)這三個(gè)標(biāo)簽進(jìn)行定義目標(biāo)人群,查看該類(lèi)人群覆蓋的用戶(hù)量,以及該部分人群的各維度特征。下面介紹產(chǎn)品上的實(shí)現(xiàn)方式。
在“用戶(hù)人群”版塊下,點(diǎn)擊“新建人群”或編輯之前已添加的分組(如圖6),進(jìn)入詳情頁(yè)可自定義涵蓋某些標(biāo)簽的人群(如圖7)。
▲圖6 用戶(hù)自定義分群版塊
▲圖7 用戶(hù)自定義分群編輯
在自定義編輯用戶(hù)分群時(shí),對(duì)于有統(tǒng)計(jì)值類(lèi)型的標(biāo)簽,可以自定義篩選該標(biāo)簽的取值范圍,如上圖中“近30日購(gòu)買(mǎi)次數(shù)”標(biāo)簽,業(yè)務(wù)人員可篩選該標(biāo)簽的數(shù)值。對(duì)于分類(lèi)型標(biāo)簽,如上圖中“活躍度”標(biāo)簽,業(yè)務(wù)人員選中該標(biāo)簽即可圈出包含該標(biāo)簽的用戶(hù)。
“人群名稱(chēng)”和“人群描述”表單用于業(yè)務(wù)人員描述該人群在業(yè)務(wù)上的定義,方便后續(xù)繼續(xù)查看、應(yīng)用該人群。
關(guān)于作者:趙宏田,資深大數(shù)據(jù)技術(shù)專(zhuān)家,先后在中國(guó)地質(zhì)大學(xué)(武漢)和武漢大學(xué)獲得工學(xué)和經(jīng)濟(jì)學(xué)雙學(xué)士學(xué)位。在大數(shù)據(jù)、數(shù)據(jù)分析和數(shù)據(jù)化運(yùn)營(yíng)領(lǐng)域有多年的實(shí)踐經(jīng)驗(yàn),擅長(zhǎng)Hadoop、Spark等大數(shù)據(jù)技術(shù),以及業(yè)務(wù)數(shù)據(jù)分析、數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)、爬蟲(chóng)、用戶(hù)畫(huà)像系統(tǒng)搭建等。
本文摘編自《用戶(hù)畫(huà)像:方法論與工程化解決方案》,經(jīng)出版方授權(quán)發(fā)布。