58標簽體系建設實踐
一、痛點及標簽建設方案
我們先思考一個問題,業務在怎樣的發展階段時,需要建設標簽體系?
1、怎樣的業務發展階段,需要建設標簽體系?
不同規模、不同業務階段的企業,對數據體系的需求不一樣,并不是所有企業都有必要建設標簽體系。
業務在起步階段和初期增長階段,粗放式的投放也能帶來較好的增長和轉化,業務的訴求更傾向于有數可看。
在增長轉成熟階段,隨著流量紅利的消失,增長乏力的情況下,運營人員開始探索以精細化運營的方式來提高 ROI,考慮在合適的時間、給合適的人群、推薦合適的內容,從而提升用戶體驗并帶來轉化。數據建設不僅需要滿足自助取數分析,也逐漸需要建設一些用戶標簽表,滿足初期精細化運營的需要。
并且隨著各業務開始開展精細化運營,標簽體系的建設會逐步完善,數據團隊也會建設標簽平臺來提升標簽接入的效率和標簽質量。
那建設標簽過程中,會遇到什么問題?有何解決方案?
2、標簽建設過程中的問題及方案
在標簽體系建設的不同階段,會遇到一系列的問題:
起步階段:數據質量與數據應用矛盾
在標簽起步階段,數據開發同學主要精力在于快速支持運營的標簽需求,缺乏標簽數據建設規范、應用規范等設計。運營人員在標簽應用時,存在標簽含義和邏輯不清晰、標簽覆蓋率不高、部分算法標簽的準確率低等問題,導致運營人員不敢用,或是花較多時間去咨詢,費時費力。
增長階段:標簽權限管控與靈活便捷的矛盾
而隨著各業務線都在提標簽需求,標簽使用者越來越多,標簽的應用出口也隨之增多。對業務人員而言,標簽屬于業務資產,在運營過程中,需控制觸達用戶的頻次和方式,過多或是不當觸達本業務用戶會損害用戶體驗,給業務線帶來損失。例如58車的業務希望做流量增長,希望交叉招聘用戶做營銷活動,如圈選招聘7日活躍用戶,每天持續觸達車的落地頁;這樣勢必會引起招聘業務運營的反對,車業務每天觸達招聘的用戶,影響用戶體驗。
因而需要劃分不同業務標簽的歸屬,以及標簽權限審批。但增加權限審批又會帶來新的問題,增加了審批后,每次運營想要使用標簽,都得找業務負責人審批,有時還需拉群溝通來申請權限,標簽使用效率、便捷度大大降低。
成熟階段:標簽價值與成本的矛盾
數據平臺上的標簽越來越多,開發上線了幾千個標簽,占用了較多服務器存儲與計算資源,但平臺上真正在投入使用的標簽只有幾百個。如何合理的評估標簽的價值?如何提升高價值標簽的使用率,下線低價值標簽?
因而標簽建設需要構建結構化、場景化、系統化的解決方案。
3、標簽體系建設方案
58 大數據平臺支撐了租房、新房、招聘、新車、到家等十幾條業務線數據,數據覆蓋了 58 APP、安居客 APP、小程序等多個終端,業務線較多,對接流程較為復雜。因而 58 在建設標簽體系時,采用組織協同+平臺建設+運營的方法。
組織協同層,大數據團隊主要負責跟各業務線需求的對接、通用標簽開發、標簽平臺能力的建設等;業務數據團隊負責自助接入業務標簽;運營團隊負責提出需求以及標簽權限審批。
平臺建設層,主要建設標簽管理與分析平臺,包含 ID 建模、標簽建模、數倉規范、元數據管理、權限管理、標簽評估、標簽推薦等能力。
在運營層,目前是由大數據團隊統一梳理各業務線的標簽應用情況,形成精細化運營應用案例集,供各業務線參考學習。
這里需要注意的是,在不同階段,大數據建設標簽體系的側重點有所不同。
在起步階段和增長階段主要目標是提效,需要不斷提升標簽質量,保障標簽的可用性;建設合理的標簽權限管控、標簽推薦能力,提升標簽使用的易用性。
在成熟階段主要目標是保障標簽應用價值增長的同時,進行成本管控,做好標簽全生命周期管理,評估標簽價值,及時下線無用標簽,釋放服務器存儲與計算資源。
4、標簽建設架構
在數據采集層,接入埋點數據、業務系統的表數據、日志數據,以及第三方數據,如個推數據,跨越多個端、各個業務線,打破數據孤島。
在數據存儲與計算層,建設數倉建模、用戶/客戶/企業 ID 體系建模、標簽體系建模規范,并支持數據的離線和實時同步。
在標簽平臺層,建設標簽全生命周期管理,包含標簽的接入生產、標簽挖掘、元數據管理、標簽下線、權限審批;以及標簽評估分析能力,包含標簽評分、標簽推薦等能力。
這里需要注意的是:
- 盡可能全的采集數據,對用戶畫像的刻畫,十分依賴標簽數據的覆蓋率,若是都采不到數據,何談刻畫畫像?這也就比較依賴企業前期數倉的建設,需要規范 ods、dwd、dws、ads 層的建設,將各個業務線的數據歸攏至數據中臺,盡可能全的利用好企業內部的數據;若是企業內部的數據不足的情況下,可考慮購買第三方數據,進一步提升標簽覆蓋率。
- 采集數據會涉及多端,如 app、pc、小程序,以及涉及多業務,如房產、招聘等,要想盡可能的關聯多方數據,需進行ID體系的打通,包含userid(賬號)、telep(手機號)、imei(原生 Android 標識)、idfa(原生蘋果標識)、oaid(匿名設備標識)、openid(微信小程序標識)等
二、標簽體系
1、標簽建設痛點及方案
標簽數據越建越多,運營人員在使用時,會存在以下問題:
標簽分類不清晰,找不到對應標簽。例如房產、招聘等十幾個業務線的標簽混在一起,用戶、客戶企業的標簽也混在一起,難以查找。
標簽建設時憑感覺,較多標簽無實際使用場景,上線后無人用。例如建設“房產-瀏覽商圈個數”標簽,最開始產品側認為在做精細運營時,可以圈選瀏覽商圈較多的用戶群,對其做觸達轉化。但后續發現,在實際運營過程中,到不了這么細的場景,這類標簽從上線以來就無人使用。
58 的標簽體系建設,以結構化、場景化的方式建設,保障標簽建設的可拓展性、業務使用的易用性,以及應用價值。
2、標簽結構化
標簽結構化建設,按實體對象劃分,劃分為用戶、客戶、企業、帖子等實體對象。若是電商類業務,較常劃分的是買家、賣家、商品;外賣業務,常劃分為用戶、商戶、騎手等。
按業務劃分可劃分為1+N的模式,即1個通用中臺+N個業務的方式,例如劃分為通用、房產、招聘、車、本地服務等。將用戶的基礎信息類劃分在通用中,例如性別、年齡、預測傾向訪問業務等,打通各個業務的數據源,提升標簽的覆蓋率和準確率;將業務線特有的數據歸攏至各個業務,例如新房活躍用戶、招聘活躍用戶、二手車連接用戶等,方便業務運營人員使用,以及方便后續做權限管控。
按標簽類型,以用戶標簽為例,可劃分為基礎信息、行為偏好、個性化標簽大類。基礎信息標簽,用于描述用戶的基礎屬性,包含自然屬性、社會屬性、地理位置、設備信息等,例如常駐城市、設備型號、學歷。
行為偏好類標簽,主要通過洞察用戶最近一段時間內的各類行為,如訪問、收藏、電話、IM、付費等,進一步提煉出用戶的需求。包含活躍行為、連接偏好、付費交易、用戶分層等大類,例如用戶的訪問活躍度、買房意向用戶、價格偏好等。
行為類標簽在劃分時,常見的問題是業務側窮舉用戶行為路徑上的埋點行為數據,都將其做成標簽,例如瀏覽次數、瀏覽房源個數、收藏次數、IM次數、電話次數等,業務建設的出發點是好的,但業務運營實際使用時會遇到不知道怎么組合用、不知道用哪個標簽的問題。
因而,在搭建好標簽結構,保障標簽結構上的可拓展性、分類清晰后,在開發具體標簽時,需結合業務使用場景,以場景化的方式來建設。
3、標簽場景化
場景化標簽建設,主要是指從標簽的實際使用場景切入,拆分相關運營模型,從運營策略來倒推需要建設哪些標簽數據。
日常運營常用的業務分析模型有 OSM 模型、AARRR 模型、用戶行為路徑、用戶分層、RFM模型等。
OSM 模型:即目標、策略、度量,例如在促付費的目標下,運營人員通過制定給潛在用戶發送優惠券的方式,提升付費用戶數。
AARRR:即獲客、激活、留存、付費、推薦,不同的階段對應有不一樣的運營策略,對于成熟期的企業而言,各業務的運營重點更偏重于留存。
用戶行為路徑:是一種常用的用戶分析方法,數據產品在梳理埋點、指標體系的時候會經常用到,當然標簽體系的梳理也可采用該方法。不過注意點是統計用戶訪問APP、訪問詳情頁、點擊詳情頁、IM /電話點擊、購買操作行為數據時,需結合運營目標(O)及策略(S),將其開發為標簽(M)。
用戶分層:很大程度上是AARRR與用戶行為路徑的結合體,劃分為潛在用戶、活躍用戶、連接用戶、付費用戶。
RFM 模型:這是交易類業務下常用的客戶模型,以最近消費時間、消費頻次、消費金額3個指標,劃分重要價值客戶、一般價值客戶、重要發展客戶、一般發展客戶、重要保持客戶、一般保持客戶、重要挽留客戶、一般挽留客戶 8 類群體。此處不做展開,詳情可查看草帽小子之前寫的《標簽體系》。
在標簽體系構建過程中,OSM 模型是基礎,貫穿了構建標簽的各個階段,較為通用的 AARRR 模型、用戶行為路徑分析、用戶分層模型;特定業務模式下常用的是 RFM 模型。
具體這些業務模型如何應用?我們先來看看實例。
4、場景化標簽設計案例
業務背景:租房省心租是面向個人房東群體推出的VIP會員服務,租房運營人員希望促進個人房東購買省心租套餐,提升付費客戶數。
整體目標是提升付費客戶數,拆分至拉新、促轉、留存/復購的子目標。
在拉新階段需要擴曝光和提服務,運營策略,在租房首頁活動位/首頁加懸浮窗資源位,增加個性化租房首頁活動位,針對“有出租需求的個人房東”展示省心租活動、曝光更多房東;同時進行push/短信推送,面向“房源上架 1、3、7、14 天但未出租成功的的個人房東”,推送消息
產品服務策略,增加房東推薦租客頁面,提供“高意向租客、本房源瀏覽用戶特征的價格偏好、戶型偏好”等信息,并上線個人用戶畫像服務,包含個人意向價格、意向戶型、7 日活躍、連接次數、租房目的等數據,幫助房東全方位了解租客。
促轉化階段,梳理省心租頁面轉化路徑,包含曝光、服務瀏覽、提交訂單、購買等;
在留存階段,需促進客戶升級套餐,針對購買基礎版套餐用戶群,推送高級套餐介紹/優勢;促進客戶續費、復購,服務期內提感知,機制推推送“新增推薦的租客”,提升房東對省心租服務的感知度;服務即將到期客戶促續費;服務已到期客戶召回。
整體策略構建、標簽構建,以 OSM 模型為框架,劃分 AARRR 模型中的拉新、促轉、留存場景,結合用戶行為路徑分析方法,進一步得到所需構建的用戶、客戶、房源標簽。
結構化設計標簽,邏輯結構清晰,可拓展性強,但容易與業務脫節,不貼合業務實際使用場景;而場景化設計標簽,貼合業務使用場景,使用率高,但比較零散,容易亂,因而需要采用“結構化+場景化”的設計方法。
5、58標簽體系
58標簽體系,依照結構化和場景化的建設原則,面向房產、招聘、車等各個業務,構建用戶標簽、客戶標簽、企業標簽體系,建設了性別、職業、居住城市、瀏覽行為、價格偏好等上千個標簽。
從標簽結構上也可以看出,不同實體對象標簽數量不同,例如企業標簽應用場景較少,所需建設的數量也比較少,用戶標簽一般建設的比較多,其匹配的用戶運營團隊人員多、對應的運營活動也比較多。
梳理完用哪些標簽后,接下來的建設重點就是標簽開發。
6、標簽開發類型
標簽開發類型,一般是數據產品和開發人員關注的模塊。標簽按統計方式分,可分為事實標簽、規則標簽、算法標簽;按更新頻率來劃分,可分為離線標簽、實時標簽;按數據類型分類,可分為數值、字符串、字符串數組等;按維度分類,可分為單維標簽、多維標簽。
事實類標簽是用戶畫像最基礎、最常見的標簽,通常是基于原始數據清理后的歸類,用于描述客觀事實。例如,姓名、會員等級、終端類型、購買次數、購買金額等。
規則類標簽,顧名思義,是基于確定的規則而產生。與事實類標簽不同的是,規則類標簽擁有更多的業務屬性,其業務規則需與業務人員共同制定。例如,將“活躍用戶”標簽可定義為,“過去 30 天發生 a 行為 x 次”&“過去 30 天發生 b 行為 x 次”,進行綜合評定。
算法類標簽,基于現有事實及規則無法得出,導致標簽的覆蓋率低,業務使用價值就大大降低,這時需要運用決算法進行數據挖掘與訓練,得出標簽預測結果。
7、性別標簽
例如性別標簽,需要綜合使用 58 底層的多個數據源,優先取身份認證數據,其次取用戶填寫的一些數據。
以上強認證的數據均沒有的情況下,判斷有 APP 列表的用戶,基于相關特征,通過LR算法做分類預測。選取如用戶 5 年內最新安裝的 APP 列表、表現類二級偏好、手機型號、操作系統等特征,進行模型訓練。預測的準確率達 86.94%,性別標簽的覆蓋率從 20%,提升至 74%。
但隨著個保法的頒布,獲取 APP 列表的數據逐漸下降,為進一步提升標簽覆蓋率,針對無法獲取 APP 列表的用戶性別預測,根據用戶訪問行為,針對 90 天內看帖量>= 5的人群,采用 LR 算法進行預測,特征使用用戶看帖帖子內容,帖子標題,帖子一級表現類,帖子二級表現類。用帖子數據預測的準確率為 73.7%,標簽覆蓋率補充提升 5%。
三、標簽管理平臺
1、標簽建設痛點及方案
制定完標簽規范和標簽建設流程后,通過維護線上文檔的方式來指導建設,存在標簽質量無法校驗、標簽權限申請麻煩、標簽上下線管理混亂等問題。建設標簽管理與分析平臺,提升標簽的可用性、易用性和價值。
2、標簽生命周期管理
構建標簽全生命周期管理與分析,以及標簽權限管控能力。核心解決標簽數據質量、標簽應用質量、標簽安全問題。
做好標簽增、看、用、評、下,即標簽接入、標簽查看、標簽使用、標簽評估、標簽下線全生命周期管理。構建標簽生產、元數據管理、標簽市場、安全管理四類能力,進行標簽數據質量、標簽應用價值兩類評估。
3、標簽評估
標簽數據質量評估,包含標簽的準確性、標簽覆蓋數、元數據的完備度。應用價值評估,主要從標簽使用度、關注度、標簽應用效果三方面評估。
例如,標簽應用價值總評分=權重*標簽使用度評分 + 權重* 標簽關注度評分 + 權重 *標簽應用效果評分。
標簽使用度
標簽使用度,用于表示標簽在哪些地方使用,通常標簽應用的模塊,如人群圈選、人群分析、接口調用等。
標簽使用度評分=權重*標簽分析次數評分 +權重* 人群圈選次數評分+權重*接口調用次數評分
分析次數評分=標簽被分析使用的日平均次數/(all 標簽被分析的日 max 次數/ 100分)
標簽關注度
標簽關注度,用于表示使用者對標簽的關注類操作,如查看、收藏、申請權限等。
標簽關注度評分=權重*標簽查看次數評分 + 權重* 收藏次數評分 + 權重 *申請權限次數評分
標簽應用效果
標簽應用效果,用于表示標簽在實際場景應用時的效果,如CTR等,需回收例如push、資源位平臺的效果數據。
標簽應用效果評分=標簽 CTR/(all 標簽 max CTR / 100分)
在標簽使用時,對標簽展開評估相當重要,方便平臺方下線無用標簽,同時也方便做一些熱門標簽、優質標簽的推薦。
4、標簽平臺
構建數據源接入和標簽錄入能力,如規范標簽命名、標簽口徑、標簽分類結構、標簽更新頻率等;增加標簽接入審批能力,由平臺產品進行審批,把控標簽錄入質量;并配置標簽數據監控,標簽數據異常時,能及時通知到對應負責人。
從標簽使用者視角,解決使用者在海量標簽中,選取合適的標簽的問題。通過構建標簽地圖,支持快速檢索標簽;通過構建標簽評分,評估標簽的價值,從而進一步進行標簽推薦。
四、小結
標簽體系的建設,需以實際業務應用場景出發,滿足業務使用的同時,保障能力的可拓展性,使用的便捷性。以場景化、結構化、系統化的方式,解決標簽質量、數據權限、標簽下線的問題。