成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

畫像標簽體系構建與應用實踐

人工智能 算法
次分享題目為畫像標簽體系構建與應用實踐。用戶行為為用戶在 APP 上操作所產生的行為,業務日志則為用戶自己點擊、下單、搜索等行為在服務器端產生的數據。畫像標簽是通過規則統計和挖掘算法對用戶行為和業務數據進行計算后得出的用戶等維度的數據。

一、畫像標簽體系

去哪兒在每個業務發展過程中構建了獨立的畫像標簽體系。隨著公司的不斷壯大,需將各個業務的畫像標簽體系進行整合。從技術角度看,整合的過程相對簡單,但業務層面的整合則較為復雜。因為各個標簽在不同業務中的定義存在差異,這增加了整合的難度。為了確保整合后的標簽體系能夠更好地服務于公司的整體戰略,需要進行深入的關鍵詞提取和優化,確保各個標簽的邏輯性和一致性。

圖片

1. 什么是畫像標簽

用戶行為為用戶在 APP 上操作所產生的行為,業務日志則為用戶自己點擊、下單、搜索等行為在服務器端產生的數據。畫像標簽是通過規則統計和挖掘算法對用戶行為和業務數據進行計算后得出的用戶等維度的數據。

圖片

2. 畫像標簽的需求來源

每個業務部門在搭建自己的畫像標簽平臺時,由于目標不同,需求也有所差異,比如機票業務通常以營銷為目標,酒店業務通常以服務為目標。我們應從實際業務需求出發,與各個部門溝通,包括公司管理層、實習生等不同層級的人員,進行深入的需求調研,以確保整合后的標簽體系能夠更好地滿足業務需求。在整合過程中,用戶畫像標簽需求主要分為三類:營銷風控、內部業務分析應用和描述用戶。

  • 營銷風控:用戶營銷、個性化推薦、精準廣告投放、用戶風控。
  • 業務分析:業務優化分析、多維度業務指標監控、指導新業務產品設計。
  • 描述用戶:單一用戶的定義、平臺用戶的定位、行業報告。

圖片

3. 畫像標簽的分類

在畫像標簽構建的過程中分為業務分類和技術分類。

從需求中提煉出業務需要的用戶畫像分類,其中一級類目和二級類目偏以業務流程進行分類向的定義,并以此不斷擴充。

圖片

另外,根據不同的技術需求,我們需要選擇合適的技術棧來實現畫像標簽的生成、存儲和調用。

首先,需要明確畫像標簽的定義和目標,以便確定需要使用哪種技術。其次,需要考慮標簽的更新周期和訪問方式,這決定了是否需要在線或離線處理標簽,以及選擇哪種存儲資源。最后,根據這些因素,我們可以選擇合適的技術棧來實現畫像標簽體系,確保系統的性能和穩定性。通過這樣的技術分類,可以更好地管理和維護畫像標簽體系,提高其可擴展性和可用性

圖片

(1)構建方法

  • 統計類:依靠 SQL 即可完成。
  • 規則類:面向數據分析師、商業分析師以及產品運營等具有一定業務背景的人通過對業務的理解,去構建一些規則類的標簽,這類標簽會基于業務的理解變化產生變動。
  • 模型類:這類標簽需要算法團隊進行復雜的計算或需要樣本數據。與一些基礎標簽不同,模型類標簽在精度上可能存在挑戰,無法達到百分之百的準確。因為有時我們獲得的樣本數量非常有限,使得標簽的準確率難以維持在較高的水準。因此,對于模型類標簽,我們可能需要尋找其他的方法和技術來提高其精度和可用性。

(2)更新周期

除了已列出的按小時、周、月的更新周期外,我們目前還實現了實時的標簽更新,這更接近于流式更新。

(3)訪問方式

由于畫像標簽平臺需要處理大量數據和用戶請求,需要根據后臺技術棧來選擇合適的訪問方式,對于一些大型公司,用戶量和數據量都非常龐大,因此我們需要考慮如何有效地存儲和調用標簽。有些標簽可能只需要離線構建,而有些標簽則可能需要在線調用。對于離線標簽,我們可以選擇不占用高存儲成本的資源,例如將數據存儲在 Redis 或 HBase 中。而對于在線標簽,需要確保系統能夠快速響應用戶請求,并提供穩定的服務。因此,在選擇訪問方式時,我們需要根據實際情況進行權衡和選擇,以確保系統的性能和穩定性。

4. 畫像標簽體系構建過程

圖片

在畫像標簽體系的生產過程中,我們需要對各類數據源進行一系列的處理,最終生成標簽。其中,ID Mapping 是一個關鍵環節。ID Mapping 的目標是解決不同ID 指向同一人的問題,特別針對早期成立的公司,由于注冊方式多樣,可能會出現多個 ID 對應同一用戶的情況。例如,用戶通過郵箱注冊后可以綁定或更改手機號,或者曾經允許未登錄狀態下使用,這些情況都可能導致多個 ID 對應同一用戶。

為了解決這個問題,ID Mapping 承擔著實現多設備關聯的任務。另外,ID Mapping 對于風控來說也是至關重要的基礎步驟。通過 ID Mapping,可以更好地識別和關聯不同設備的使用者,從而更好地進行風險控制和安全管理。通過合理的 ID Mapping 設計和管理,我們可以更好地保護用戶隱私和數據安全,同時提高畫像標簽體系的準確性和可靠性。

二、畫像標簽平臺

畫像標簽平臺也稱之為 CDP 平臺,包含了畫像標簽的生產、數據分析、業務應用、效果分析等服務。下圖為去哪兒 CDP 平臺的功能架構。

圖片

在去哪兒網,疫情發生后加強了內部能力的建設,將畫像標簽與主流策略平臺進行了整合。目前該平臺涵蓋了畫像標簽的整個生命周期,可實現畫像構建、人群圈選以及最終的營銷動作等功能。通過這樣的整合,能夠更好地實現數據驅動的營銷策略,將用戶畫像與營銷活動無縫連接起來。這有助于提高營銷效果和用戶滿意度,同時也有利于企業內部的數據整合和協同工作。

圖片

三、常見算法類畫像標簽

1. 常見模型類標簽常用算法類型

在實踐過程中,基于樣本和技術棧,可以將模型類標簽常用算法分為如下幾大類:

圖片

(1)分類算法:在業務流程中利用預測類標簽來進行圈選和業務過濾,需要擁有足夠的樣本數據來進行訓練和優化模型,從而提高預測準確率。預測類標簽不僅僅局限于訂單支付預測,還可以包括搜索支付預測、搜索預測、詳情頁預測等。

(2)推薦算法:與排序和優先級相關,需要更廣泛的前沿知識和技術棧。推薦算法的目標是從召回集中為用戶推薦合適的酒店房型。例如,對于親子出游的場景,推薦算法可以為用戶推薦雙床房或套間等合適的酒店房型。

(3)知識圖譜:利用圖數據庫技術更好地揭示用戶及其周邊關系。風控場景中應用較多,例如識別異常用戶和判斷是否為惡意用戶。

(4)因果推斷:通過一個例子解釋了給用戶發短信和 push 消息對營銷效果的影響,并涉及到成本問題。

(5)圖形圖像:結合圖形圖像處理技術,對圖形圖像進行打標。涉及到對圖像的分割、識別等技術,但更多的是通過用戶標簽反向應用到圖像打標上。例如,對于發表不正當評論的用戶,將其標簽提取出來,并應用到圖形圖像打標算法中,以提高打標的效率和準確性。

(6)NLP 機器人

(7)lookalike 營銷算法:即通過種子用戶進行擴展營銷的算法。

圖片

基于需求的類型會有不同的分類方法:

  • 單一實體:通過關系網絡或知識圖譜來尋找其他相關實體。例如,利用知識圖譜可以發現實體之間的關系,從而擴展單一實體的關聯實體。
  • 業務實體集:與特定業務相關的標簽,由業務本身產生,而非人為控制。例如,酒店搜索用戶或機票搜索用戶,如果想要針對這些用戶進行營銷并擴展業務,就要通過對業務實體標簽的深入分析和挖掘,更好地理解用戶需求和行為,從而優化業務策略,提高轉化率和用戶體驗。業務實體集可以通過品牌模式、關聯規則、方案標簽平臺等方式進行擴充,以獲取更豐富的畫像標簽或畫像用戶。
  • 規則實體集:指基于特定規則或條件生成的標簽。這些標簽通常是由產品團隊根據對業務的理解,利用標簽工具圈選出符合特定規則的用戶群體。例如,在推薦行程或房型的過程中,有些用戶可能已經購買了北京的機票和酒店,那么我們可以將這些具有特定行為鏈條的用戶作為目標群體,進行營銷推廣。可以使用關系實體和聚類算法來處理。在進行聚類算法時,需要注意不能僅使用規則標簽進行聚類,而應該使用其他標簽。同時,需要避免將與規則標簽強相關的標簽與規則標簽混為一組。為了避免這種情況,方案標簽平臺會提供標簽與其他標簽的相關性分析,幫助用戶過濾掉相似的標簽。
  • 行為實體集:基于用戶行為生成的標簽。這些標簽通過分析用戶的行為特征和需求類型,來制定相應的營銷策略。例如,對于購買過北京機票和酒店的用戶,我們可以進一步分析他們的行為特征,如購買時間、頻次、偏好等,以制定更具針對性的營銷策略。

2. 基于知識圖譜和頻繁模式的 looklike 算法

僅依賴畫像標簽進行篩選可能產生大量不符合需求的目標用戶,如何對這些用戶進行排序成為了一個難題。傳統的方法如根據價值、活躍度等進行排序,很難確保選出的用戶與目標用戶群最為相似。而通過知識圖譜或頻繁模式,我們可以衡量用戶之間的相似度,并且這種相似度是可量化和擴展的。通過關系層面,該算法能夠更準確地找到與目標用戶相似的用戶群體。

圖片

3. 基于因果推斷的 lookalike 算法

與傳統的關聯規則和畫像標簽相比,因果推斷能夠解決更深層次的問題。關聯規則和畫像標簽主要解決的是相關性問題,例如“購買啤酒的用戶也可能會購買尿布”,但無法解釋為什么存在這種相關性。在不同的文化和市場中,這種相關性可能并不成立。因此通過歷史數據和模型進行因果推斷,可以找到影響用戶行為和轉化的關鍵因素。這些關鍵因素可以通過關系發現被找到,進而幫助我們更好地理解用戶行為和業務過程。

例如右上角紅色部分通過對業務的理解篩選出的更能體現業務的過程的部分,從而去擴充更多的用戶出來。

圖片

4. 物的畫像

圖片

在物的畫像構建過程中,我們主要關注的是物的屬性和特征,例如酒店畫像中的城市、商圈、航線、航班等。這些屬性有助于我們更準確地描述和了解物,并為其畫像提供豐富的內容。

圖片

與用戶畫像相比,物的畫像更強調物與物之間的相似性。在實踐中,我們通常利用物的相似性進行推薦和排序等操作。為了衡量物與物之間的相似性,可以采用多種方法,如屬性向量和 embedding。這些方法可以將物表示為向量,并利用這些向量進行相似性計算。需要注意的是,物的畫像構建過程與用戶畫像構建過程雖然相似,但在實際應用中,我們需要根據業務需求和場景進行適當的調整和優化。同時,還需要深入分析物與物之間的關系和層次結構,以確保物的畫像準確反映業務需求。

圖片

此外,在物的畫像構建過程中,我們還需要關注一些關鍵問題。

(1)相近并不意味著相似。例如,在使用 embedding 方法時,如果高價值的用戶群體搜索的都是五星級酒店,那么這些五星級酒店之間的相關性可能會很強。但在某些業務場景中,這種相關性可能并不適用。因此,我們需要根據具體業務場景仔細考慮物的相似性。

(2)冷啟動問題。例如在酒店畫像中,當一個新的酒店上線時,它可能缺乏用戶行為數據。為了解決這個問題,我們可以利用屬性距離抽取大維度的標簽屬性,構建一個偏用戶態的畫像標簽,并利用這個標簽進行相似度計算。

(3)可解釋性

圖片

四、畫像標簽應用場景

應用一:營銷人群精選與擴散

圖片

畫像標簽在營銷的精選和擴散過程中起到了至關重要的作用。通過合理運用畫像標簽,運營人員可以對已選定的用戶群體進行更細致的分析和篩選,當運營人員覺得初始精選的用戶群體過大或過小,或者營銷效果需要進一步擴大或優化時,可以通過畫像標簽進行擴散或重新精選以達到更好的營銷效果。

然而,在進行畫像標簽的精選和擴散時,最常見的是用戶轉化和運營干預的四象限問題。這四個象限分別代表不同的用戶轉化狀態和運營干預策略,需要針對不同情況進行不同的應對措施。例如,對于高轉化低干預的用戶,可以采取保持現狀的策略;對于低轉化低干預的用戶,可以采取促進轉化的策略等。

以下是畫像標簽在應用過程中營銷精選擴散的四個階段:

科學分析:深入挖掘用戶數據,精準定位目標群體,以提升轉化效果。

輔助圈選:利用標簽高效篩選目標用戶,提高營銷活動的針對性和效率。

智能擴量:基于算法和模型,對用戶群體進行智能分類和擴量,以擴大營銷覆蓋面。

模型落地:結合實際營銷活動,優化畫像標簽和策略,實現最佳的營銷效果。

圖片

應用二:業務指標歸因分析

圖片

通過畫像標簽體系來分析業務指標的好壞,并進一步優化策略。在業務迭代過程中,我們通常使用歸因分析算法和商業分析等方法來產生策略。然后進行實驗測量,如果實驗策略表現良好,就會全量上線。

圖片

圖片

然而,在這個過程中會遇到兩個問題:如何分析指標的好壞以及實驗結果的好壞。為了解決這些問題,我們需要進行業務指標的歸因分析。首先,通過報表、報警等途徑發現業務問題,找出問題的原因,明確具體的場景和實際的轉化關系。接著,定位問題的原因,并判斷這個原因是可控的還是不可控的。如果是不可控的,可能就是一個自然抖動,不需要過多關注;如果是可控的,就需要進一步探究是否存在未知的場景導致這個問題。

在定性分析模塊中,我們會明確可控因素和不可控因素,并挖掘一些未知的場景出現問題的原因。最后,給出建議,指導業務人員在什么場景下去做。這個場景其實就是某個業務的轉化率下降了,通過整個業務的分析過程,我們可以得出非市場因素和可控因素分別占比多少。如果市場因素占比較大,那我們就可以先滯后解決這個問題,不必立即動用大量人力物力。

應用三:AB 實驗效能分析

圖片

在負責去哪兒的 AB 實驗系統的過程中,我們經常面臨一些挑戰。當產品團隊投入大量時間和資源完成實驗后,如果實驗結果不顯著,很容易產生諸如“為什么實驗無效”和“下一步迭代的方向是什么”等疑問。

為了解決這些問題,我們進行了 AB 實驗效能分析,主要分為三個部分。首先,我們通過業務流程漏斗模型、核心用戶畫像標簽識別以及業務域誤導標簽識別,嘗試判斷實驗效果不佳是否因為量提升不夠。其次,運用決策樹等分析方法,探究質的提升是否存在問題,例如其他實驗的沖突或提升量未達到顯著性比例的情況。最后,量化動作效能,明確每個動作對目標的影響程度。

通過這些分析過程,我們可以為產品團隊提供具體的指導,幫助他們選擇效能更高的方向進行優化,從而實現質的提升。這些分析不僅有助于優化產品迭代方向,還能為公司節省資源和時間,提高整體業務效果。

五、問答環節

Q1:用戶行為跟業務日志有什么區別?

A1:用戶行為數據主要記錄了用戶在 APP 端的交互行為,如點擊等,這些數據主要反映用戶的交互過程。而業務數據則涉及后臺處理的各種信息,例如代理連接過程、物流信息等,這些數據雖然對用戶來說是不可見的,但對于理解整個業務流程和提升用戶體驗同樣至關重要。在實際操作中,我們需要將這些數據納入到我們的畫像標簽體系中,以便更好地分析和理解用戶行為和業務過程。例如對于電商平臺來說,有些數據可能對用戶無關緊要,但有些則涉及到用戶體驗和業務流程,因此需要進行適當的篩選和處理。

Q2:目前流式標簽是怎么做的?能支持比較復雜的標簽規則嘛?是數據開發出來還是可視化配置的?

A2:流式標簽可以通過流式計算來實現,如使用 Flink 等工具。用戶可以拖拽定義好的數據,通過流式計算進行標簽的計算。同時,也可以上傳 Python 代碼或 SQL 代碼進行自定義的計算。此外,還可以通過 Spark 等方式來支持。在流式標簽中,需要限制計算的量和時間窗口,以滿足不同需求。

流式標簽可以支持復雜的標簽規則。用戶可以通過上傳 Python 代碼或 SQL 代碼來實現更復雜的標簽計算。

流式標簽可以通過數據開發和可視化配置兩種方式來實現。在去哪旅行平臺上,用戶可以拖拽定義好的數據,通過流式計算進行標簽的計算,也可以上傳 Python 代碼或 SQL 代碼進行自定義的計算。

Q3:什么是實時標簽?

A3:實時標簽是指在用戶行為或業務事件發生時,實時計算并應用的標簽。例如,當用戶在前端界面提交投訴時,系統會實時地分析用戶的訴求和訂單問題,并為用戶打上相應的實時標簽。這種實時標簽能夠快速地反映用戶的需求和問題,以便及時地進行處理和優化。不同公司對實時標簽的定義有所不同,去哪兒 3 秒以內的算實時,而小時級都稱之為是非實時的一個場景。

Q4:ID Mapping 是將多個手機號/設備號識別成一個唯一的 ID?還是使每個用戶都有一個唯一的 ID?比如一個手機號在兩個設備登錄過,其中一個設備又登錄過另外一手機號,是唯一的一個還是三個?

A4:隨著移動互聯網的普及,越來越多的公司開始采用手機號作為用戶唯一的標識符。一鍵登錄已成為行業通用的做法,使得用戶能夠更加方便地登錄和使用應用。對于去哪兒這樣的平臺,我們也采用了手機號作為用戶唯一的 ID。在大多數情況下,我們會將手機號視為用戶的唯一標識符。但在某些特殊情況下,我們也會考慮用戶更換手機號的場景,并對其進行相應的處理。此外,為了更好地管理和識別用戶,當一個手機號在兩個設備上登錄時,我們會通過一系列的判斷來確定用戶對設備的持有狀態。如果用戶是臨時登錄設備,我們將其視為訪問人;如果用戶長期持有該設備,則將其視為持有人。

Q5:貨品標簽有哪些應用場景?

A5:其中最常見的是貨品定價。為了實現貨品定價的個性化,我們需要使用貨品標簽。這些標簽是基于內部因素和外部因素的具體數值計算得出的。如果內部因素沒有得到適當的梳理,外部因素的影響可能會被夸大可以理解為類似于暴力求解的方式,我們把每一個因素都放進去試,然后去看每個因素對它的影響是多少,并且在每個因素里判斷它是相關性還是因果性。

Q6:業務的實時標簽是不是要定制化開發?

A6:實時標簽在建成之后,我們已經通過開發層面去盡可能地窮舉了一些通過基礎的統計就能出來的一些實時標簽。至于說像規則類和模型類的實時標簽,肯定是要定制化開發的。

Q7:標簽的生命周期怎么管理?

A7:在建立之初會有一些一次性的標簽,用完就不使用了。

Q8:是否可以用一些統計方法來確定 AB 實驗的時候的最小樣本量?AB 實驗有標準的計算過程,這樣是不是可以知道大概需要多少樣本量可以達到統計顯著的一個效果了?

A8:更小的業務公司,可能流量先天性就不夠,你想要達到一個最小樣本量,操作層面也不太能實現,所以我們需要有一些在沒有達到最小樣本量的時候,能快速去大致地推斷這個實驗效果。

Q9:用戶口徑畫像的口徑類型是怎么存儲和展示的?用戶畫像的標簽除了單一的,還有多標簽,形成一個用戶偏好角度。這兩類標簽怎么存儲比較好?

A9:展示每一個公司都不一樣。從存儲角度來說去哪兒是有多個存儲方式的,我們可以容忍一部分數據的冗余存儲,主要還是為了以實時響應快為準,就是它在訪問化標簽的時候,我們盡可能地以一個低耗時去訪問它。

Q10:模型在方案標簽建設中有哪些應用?

A10:其實這個我現在通過去哪兒這邊的實踐來說,大模型在算法標簽應用是非常的廣的。首先最簡單的一個例子,我們在構建戶的畫像的時候,經常會遇到 POI 地標數據,地標的數據是從一些文檔里面抽取的,可能這個就大模型在用,這個地方的準確率說實話比我們以往自己構建的一些模型效果好很多。以及我們在構建知識圖譜的時候,會遇到一些實體消歧、實體合并等等。

Q11:涉及到排序推薦也需要畫像算法工程師實現嗎?

A11:其實不是的,這個推薦是推薦工程師,但是推薦算法要用到畫像工程師的結果,畫像工程師需要把畫像標簽的質量和這個應用的場景作出清晰的描述以便于推薦排序工程師能夠更好地使用。

責任編輯:姜華 來源: DataFunTalk
相關推薦

2021-03-09 10:06:34

大數據畫像數據采集

2017-02-09 11:34:57

大數據用戶畫像應用實踐

2023-10-30 07:30:08

VeCDP火山引擎

2023-09-27 07:32:30

標簽體系大數據

2022-09-02 12:09:06

高質量用戶畫像

2019-08-16 10:04:40

民生銀行數據中臺數據體系

2017-04-28 11:15:26

大數據用戶畫像技術

2023-06-05 07:24:46

SQL治理防御體系

2023-04-10 07:34:30

2024-02-06 08:18:30

用戶畫像標簽數字化異常值處理

2021-07-07 11:10:18

云原生多活容災體系

2022-07-29 08:12:38

業務線賬號體系身份標識

2022-12-15 08:35:01

用戶畫像平臺

2017-08-24 09:55:57

2021-07-29 11:37:32

SIKT模型數據

2023-03-15 07:22:56

畫像平臺數據中臺

2023-06-12 15:43:44

鴻蒙智能家居開發

2019-07-17 14:03:44

運維DevOps實踐

2024-01-02 18:41:23

2017-07-14 13:07:03

大數據用戶畫像
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 99福利在线观看 | 人人99 | 久久日韩粉嫩一区二区三区 | h视频免费在线观看 | 99re6热在线精品视频播放 | 精品免费| 婷婷成人在线 | 网站一区二区三区 | 亚州中文 | 伊人一二三 | 成人av色 | 免费看国产一级特黄aaaa大片 | 狠狠综合久久av一区二区小说 | 每日在线更新av | 国产欧美视频一区二区 | 91不卡在线 | 欧美一区| 日本大香伊一区二区三区 | 欧美日韩久久久 | 999免费网站 | 国产精品久久国产精品 | 精品欧美乱码久久久久久 | 日韩电影中文字幕 | 黄免费观看视频 | 国产福利资源 | 国产91在线 | 亚洲 | 久草网址 | 欧美日韩精品综合 | 日本a级大片 | 亚洲国产欧美国产综合一区 | 久久亚洲国产精品日日av夜夜 | 欧美精品一区二区三区在线四季 | 在线一区观看 | 免费看黄色国产 | 中文字幕在线看第二 | 欧美成人激情视频 | 国产欧美日韩 | 美国一级黄色片 | 国产精品久久久久久中文字 | 伊人在线 | 久久专区|