零售行業商品競爭力提升的數據探索
一、全鏈路商品競爭力提升的整體思路
1. 零售行業從消費者需求到商品開發經營的全鏈路強依賴數據
從整個零售的視角來看,一個商品從市場調研、消費者調研,到引入、迭代產品,再到商品計劃、供應鏈把控,以及后續的線上運營和財務考核,這一整個鏈路是非常長的。在傳統的零售企業中,由于數字化程度不足,整個鏈路流轉過程往往僅存在于經手人員的經驗之中。然而,由于盒馬的業務從創立之初就是一個完全數字化的業務,因此有機會打破這些瓶頸。
2. 提升商品競爭力的核心思路:全鏈路+全周期
在數據層面,主要聚焦于兩大方向:
- 從商品流轉的角度出發,致力于提升銷售毛利,同時降低商品成本;
- 在商品從引入到退換的整個生命周期中,力求提升運營效率。
商品作為零售業務的核心,涉及到銷售、采購以及兩者之間的流通環節。
3. 數據資產服務能力建設與商品全鏈路的應用場景互相促進
進一步細化到數據操作層面,我們發現品類規劃、商品引入、定價、退換等一系列過程基本上依賴于兩大要素:
- 數據資產和數據能力的豐富程度
- 業務鏈路中場景應用的廣度
這兩者相互促進,豐富的場景應用能夠促進數據資產的建設,而完善的數據資產又能提升場景應用的效果。
4. 支撐提升商品競爭力的數據能力體系
總結來說,盒馬的數據資產和數據服務的積累主要體現在三個方面:
- 首先是 1 個平臺,盒馬已建立起一個集商品數據管理與服務于一體的平臺,旨在統一全鏈路數據標簽和指標口徑,并提供統一的數據服務能力,以提升商品各個環節的數據使用效率。
- 其次是 2 幅畫像,即商品畫像和消費者畫像。
- 最后是 N 項能力,我們面臨包括批發市場數據、競爭的市場調研等在內的數據,需要擁有處理這些異構數據的能力,以確保我們能夠有效地整合和分析來自不同來源的數據。
二、商品數據資產服務建設與典型應用場景
1. 2 幅畫像
(1)商品標簽畫像
商品標簽包含六類,首先是基礎屬性,包括名稱、品種、口味、凈含量等;第二類是零售或電商場景下用戶對商品的觸達,包括瀏覽、點擊、下單等;其余四類分別為基于經營特征做的分層、商品標簽刻畫、受眾分析,以及品類這一層的屬性。
從深層視角來看,可以將標簽分為三個層次:
- 首先是基礎數據標簽,主要依賴于統計,如打點,這些構成了底層基礎標簽的統計。
- 其上是規則分層標簽,基于運營規則對商品進行分層,以確保數據符合業務預期。
- 最后是應用場景標簽,通過基于規則和數據的消費者洞察,旨在構建消費者心智。
(2)用戶標簽畫像
用戶標簽種類繁多,在此僅選取與商品運營密切相關的部分進行闡述,主要包括用戶的基礎屬性、行為統計和場景偏好。此外,僅僅擁有單個用戶的標簽屬性是不夠的。從商品創新或運營的角度來看,我們需要進一步關注用戶群體的表現特征,因為基于人群的運營才是業務操作中的關鍵抓手。
(3)用戶標簽與商品標簽深入參與到業務鏈路的各類消費場景
無論是用戶標簽還是商品標簽,其建設過程主要包括三個方面:
- 基于統計和大數據計算;
- 通過歸因規則平臺,基于原始數據,使業務能夠迅速構建相應規則;
- 利用挖掘和算法模型進行建模。
在阿里巴巴,我們使用阿里云上的平臺來實現整個建模過程,并將數據存儲在資產中心或其他管理平臺,如 CRM 相關工具上,以供下游分析場景、數據產品、算法以及直接對接的業務系統使用。
2. N 項能力
(1)面向多源信息的加工能力
關于之前提到的 N 項能力,主要包括以下幾個方面:
- 首先,基礎模型的使用,這涉及關鍵詞詞庫、圖像處理以及大模型(如通義千問等)。
- 其次,商品能力主要體現在三大塊:商品屬性挖掘、類目預測以及同品識別。
商品屬性數據挖掘主要關注商品的凈含量等關鍵信息。在數據多元化的背景下,這些信息往往呈現不規范的狀態。例如,在商品價格比較時,如山姆銷售 1000 克的產品,在盒馬僅銷售 200 克,如何歸一化比較這些不同規格的產品數據也是一個挑戰。
類目預測旨在將不同來源的數據置于同一類目維度下,進行刻畫和分析。
同品識別:對于標品來說,在行業內的統一編碼。但對于生鮮等非標品,由于缺乏統一的行業標準,如何識別同品類商品是一個重要問題。 - 數據能力包括數據產品建設,在后文中將會做詳細闡述。
(2)加工處理能力原子化
當前所面對的數據源不僅限于可控的數據源,還包括基地的 PR 市場、線上線下的市場調研數據等。為實現對多元數據的靈活處理,提出了兩個基本要求:
- 數據輸出標準化,確保無論數據來源如何,都有統一的輸入標準;
- 能力原子化,即,將各種能力進行模塊化處理,以便在不同場景下靈活編排和適配。
3. 場景應用
接下來,將簡要介紹幾個有趣的應用場景。
(1)稱損優化
對于零售企業而言,其采購的商品多為大包裝或批量采購,例如,從批發市場購進上海青時,可能一次性購入十噸或二十噸。這些原材料進入盒馬的加工中心后,根據商品的質量和克重進行分包處理,以滿足門店銷售的 200 克或 400 克等規格的包裝需求。
在加工過程中,稱損是一個不可忽視的環節。當原材料經過初次稱重并剔除次品后,進入包裝流程。再次稱重時往往會發現,即使是規范化的操作,也很難保證每個商品的實際重量與其標準規格完全一致。因此,稱重環節必然會產生損耗。
以有機娃娃菜為例,銷售給消費者的標準重量是 400 克。然而,在實際操作中,每個包裝完成后的商品重量并不相同,有的可能低于標準重量,有的則超過。對于低于標準重量的商品,盒馬會采取退差策略,通過退還差價的方式確保消費者權益不受損害。
但對于超過標準重量的商品,如 410 克,消費者雖然支付了 400 克的價格,卻獲得了更多的商品。這部分額外的成本,實際上是由盒馬承擔的,構成了真實的利潤損耗。據估計,盒馬每年在此類損耗上的支出近一個億。
為了優化這一流程,我們借助數據科學的方法對加工中心出產的商品進行了深入分析。我們發現,這些商品大致可以分為幾類:
- 單果類商品(如大白菜)通常一個或半個為單位;
- 少果類商品(如蘋果)則可能是兩個裝或四個裝;對于像上海青這樣的蔬菜,包裝中往往包含多個單位;
- 多果類,如車厘子,其果徑大小也會影響包裝數量。
基于這些分類,我們收集了過去三個月內每個加工中心出產的商品的實際重量數據,并進行了刻畫分析。根據分析結果,我們制定了三種優化策略:
- 調整產品規格,當大部分商品的實際規格超過其標準規格時(如超過 20 克),建議提高產品規格并相應調整價格;
- 設定合理的重量波動范圍,確保商品的實際重量在標準重量的一定范圍內波動,以滿足商業性限制;
- 對部分商品進行拆分處理,以更好地滿足市場需求和成本控制要求。
以 1.5kg 大白菜為例,該產品的實際重量分布存在兩個峰值。在這種情況下,根據模型建議,將此產品拆分為兩個不同規格進行銷售,分別為1.8kg 和 2.7kg,并設定不同的價格,從而實現了整體損耗的大幅下降。
(2)價格策略
近年來,低價一直是零售領域的核心競爭力之一。對于零售企業,特別是盒馬這樣的自營零售企業而言,確定價格并非僅基于單品成本,而是需要從品類和商品價格視角出發。
這涉及對品類結構的分析,如常規品類、結構品類、高潛品類以及優勢品類等,并考慮這些品類內的價格敏感度。基于這些分析,企業可以確定在哪些品類中強調價格競爭力,而在哪些品類中追求盈利。以醬油為例,傳統加工醬油是競爭力強的品類,但進口醬油的毛利潤就比較高,這個品類在市面零售企業里是比較少見的。
在確定了品類定位后,接下來是商品定位。對于高度競爭的品類,其中的商品價格策略需要仔細制定。有些商品可能作為引流品,以極低的價格指數吸引消費者;有些則可能保持行業平均價格水平;而另一些則可能定價較高,以實現盈利。
在分類完成后,企業需進行市場比價或競爭價格分析。
從基礎數據出發,圈選部分商品,利用規格標準化和屬性抽取等能力,實現盒馬商品與市場商品的可比性。隨后,進行價格歸一化處理,考慮商品規格差異、品質差異等因素,確保價格比較的準確性。
在整個過程中,還需根據應用場景和業務需求,制定不同的比價策略,并對價格調整后的效果進行追蹤和反饋。
以盒馬“省心價”為例,該標簽的生成目前已實現完全自動化。該過程包括商品獲取、匹配、規劃等步驟。
當商品價格指數低于預設閾值時,系統將其視為對消費者最具競爭力或最優的價格,并自動為商品打上“省心價”標簽。這些標簽隨后會同步至 APP 和線下門店,以便消費者了解。
(3)場景標簽
關于面向場景的商品標簽生成,我將以兩個具體案例為例進行說明,即商品的“輕食”標簽和“零添加”標簽。
選擇這兩個案例是因為當前社會對健康問題的關注度日益提高,特別是在飲料領域,無糖、低糖和零添加飲料的占比逐漸增加。盒馬也在此方面做了一些嘗試。盒馬的商品量龐大,故場景標簽生成無法依賴人工處理,其整個流程已實現自動化。
首先,我們獲取每個商品的背標圖,這些圖片包含了商品的原材料、配料表及營養成分等必要信息。
隨后,通過 OCR 處理技術,將這些圖片信息轉化為文本信息。
接著,對這些原始資料進行加工,包括規則化處理和模型加工,以生成相應的標簽,如“低卡”、“低脂”,此外也可以識別商品是否含有特定原材料,生成“有”、“無”的標簽。
商品標簽除了在 APP 上的展示外,這些標簽還具有另一個重要作用,即基于商品發現關注該商品的人群。例如,通過“輕食”標簽,我們可以區分出重視此屬性的消費者群體和非重視群體。進一步加工和分析這些人群數據后,可將其應用于搜索優化、推薦優化等業務場景中。
(4)品類創新
從品類創新的視角來看,品類創新實際上依賴于品類的高度分層和優化。在整個分層過程中,打標并非基于簡單的統計,具有一定的復雜性。具體而言,目前將標簽分為四類。
首先,事實類標簽,即直接反映商品屬性的標簽;
其次,基于管理規則的標簽,這些標簽體現了從管理思想或產銷管理角度出發對商品的管理訴求,例如,對戰略品,我們會特別關注其供應鏈保障和庫存優化。對于常規品類而言,其管理重點可能在于保證不缺貨。
進一步地,從規則計算的角度來看,針對消費品,我們采用了 SABC 等分類方法,并結合時令、本地特色、自由品牌等要素,以突出商品特色或競爭力,從而吸引消費者注意。
具體到某一類商品,如 S 品,我們可以理解為市場上的主要熱銷商品,其年銷售額可達數十億。
在業務表現分類上,從管理視角和用戶視角出發,對商品所打的標簽存在差異。例如,最近正當季的春菜、荔枝,從管理視角看,可能被視為戰略品,而在用戶視角下,它可能僅被視為時令商品。這體現了消費者對商品認知與企業管理策略之間的差異。
在商品創新方面,盒馬有小龍蝦月餅這種特色產品。
這些產品的研發過程首先涉及在特定類目下找到決策因子,這些因子通過模型挖掘得出,反映了不同消費者群體對商品屬性的偏好。例如,對于飲料而言,年輕人可能更關注口味,而中年人則更注重健康屬性。
基于這些不同的屬性,我們會進行排列組合,并在銷售端進行市場驗證。
這一過程中,盒馬利用其自有的加工中心和加工能力,實現從基礎屬性組合的商品探索到最終銷售驗證的快速流程。
(5)供應商協同
在討論商品的競爭力和質量時,不可忽視供應商的重要性。在現代零售環境中,供應商管理的轉變尤為顯著。
傳統企業往往通過博弈手段對供應商施加壓力,以獲取更高的收益。然而,盒馬更注重與供應商的協同合作。對于自營零售企業而言,商品建設是一個長期的過程,我們期望與供應商建立長期穩定的合作關系,而非僅僅追求短期利益。同時,由于零售市場的激烈競爭,零售商對供應商并沒有完全的控制權。
在供應商協同方面,盒馬通過銷量預測的方式,提前半個月到七天將預測結果同步給供應商,以促進其進行備貨操作。這一做法旨在確保商品齊全,避免送貨延誤或庫存缺失的情況。
同時,對供應商而言,這也為他們提供了規劃補貨鏈路的依據,以避免因零售商減產導致的庫存積壓。
此外,產地供應商還會將預期的產量同步給盒馬,以促進盒馬進行價格調整。例如,當榴蓮等高價商品的產地預計產量將下降時,盒馬可以根據這些信息提前進行價格調整或備貨,以應對市場變化。
4. 1 個平臺
我們已經討論了畫像標簽、相關能力以及場景應用。接下來,將簡要介紹開頭提及的“1 個平臺”的概念。
這個平臺,即盒馬的數據資產中心,主要有兩個核心職責:
第一,數據管理。在數據領域,數據治理一直是各行業面臨的重要挑戰。傳統企業通常會設立數據治理崗位,而在互聯網企業,這一職責通常由數據團隊承擔。數據管理涵蓋了表指標、標簽以及一些運維工作,同時也涉及數據開放后的權限控制。
第二,數據服務統一與可視化。在數據使用端,除了消費者外,業務方和外部合作伙伴在使用數據時,常遇到兩大問題:
- 不清楚數據所在位置或使用方法;
- 在數據使用過程中,由于途徑多樣,難以做出選擇。
關于數據服務提供,主要方向有兩個:在線接口和離線數據使用。
在線數據主要服務于業務報表搭建和業務系統直接使用,可通過數據資產中心直接生成相應接口。
經過長時間探索,在統一指標時,我們意識到離線數據是有必要的。因為離線數據倉庫中的數據通常直接開放給他人使用,為了更好地控制數據加工邏輯,我們要求使用數據的用戶通過資產中心自動生成離線視圖或表,從而與線上的數據加工邏輯相隔離。
在數據管理領域,我們將其劃分為三個主要部分:指標、維度以及指標實例的管理。
傳統方法中過于技術化的算子、原子指標和派生指標等概念,對于業務來說理解成本高,因此我們在實踐中進行了簡化。在底層管理和業務實現過程中屏蔽了算子、原子指標等,僅定義指標。
目前管理的指標總數達 8000 個,其中核心指標約 800 個。在數據使用方面,我們面對的是大量指標實例的篩選使用問題。盡管指標包含指標說明字段,但指標名稱存在相似性。為了提升效率,我們為業務部門提供了專門的空間,將 8000 個指標精簡至 1000 個或者幾百個,便于業務部門在小范圍內進行篩選。
對于維度管理,由于其技術性較強,我們將其完全劃歸技術團隊進行管理。當維度與指標交叉產生大量指標實例時,利用數據資產中心這一平臺來進行統一處理。
該平臺的主要職責是通過工具提升整體使用效率,包括開發效率、使用效率等。在當前數據資產治理流行的背景下,一些好的數據平臺用不起來,可能是沒有考慮到平臺使用也需要長期的數據積累與數據體系的建設。我們注重工具的上手效率,以確保產品的廣泛適用性。
數據資產中心的引入還帶來了工作流程的顯著變化。以報表為例,整個數據從需求對接到產出的流程涉及多個角色和環節,如業務方、業務 PD、數據 PD、開發等。在引入該平臺前,數據團隊的主要工作放在了中間層數據開發和報表搭建上。
在引入該平臺后,整個工作方式都發生了改變。無論是業務方、產品設計師(PD)還是資產負責人(即特定業務領域的 PD),其工作重心都轉移到了圍繞數據資產上,而非單純滿足業務需求。
如今,業務 PD 或業務成員可以通過該平臺搜索所需的數據資產,若存在則直接使用,若不存在則可提出需求。對于數據開發人員而言,他們的工作也發生了轉變,從過去每次為特定需求開發散點狀報表,變為開發、補充指標或指標實例,從而提高了工作的可量化性和效率。
此外,由于該工具支持無代碼的數據集和報表搭建,報表搭建的工作被更多地轉移給了業務層。出乎意料的是,業務團隊非常愿意參與這項工作,因為這些工具提高了他們的工作效率。
三、面向數據智能化大趨勢下的探索思考
1. 數據團隊從數據化走向智能化的趨勢是長期的、共識的
關于智能化方面的考慮,實際上早在 2021 年的云棲大會上,盒馬就分享了一個觀點,即業務的數字化、數據資產化、數據服務化以及最終智能化的發展過程,并非僅因大模型的出現而備受關注,而是業界長期以來的關注焦點。這一演進過程預示著數據未來的智能化方向。
2. 數據領域內部的智能化探索思路:人與 “智能體” 長期并存
在當前的探索階段,我們已進行了幾方面的初步嘗試。我們有一個大的前提假設,當前的智能化還達不到替換數據團隊的程度,就像電動車和燃油車之間還存在一個混動的中間過程,這一階段將長期存在。
首先,關于智能體的存在,我們將其視為與技術選項同等級別的角色,當前重點在于各類建模。其核心目標是提高技術人員的工作效率,并期待未來能形成統一的規范、標準和建模理論,以支持面向智能體的需求。
其次,高效交互方面,我們注意到大模型在 NLP 處理上的卓越表現,特別是在語音語義理解方面的高水平,這為數據獲取提供了新的可能性。
第三,在復雜數據分析和診斷方面,我們意識到傳統方法存在局限性,即依賴于預定義的規則關系,缺乏拓展性。因此,我們計劃結合資產管理的經驗和當下對語義理解的提升,探索新的分析方法。
最后,在數據治理方面,我們認識到解決業務問題的復雜性,特別是如何將非數字知識融入決策中,這對智能化提出了巨大挑戰。因此,我們考慮在數據治理領域內,先解決自身的一些棘手問題,如數據打點、數據成本等,這些問題的解決將有助于推動智能化的進一步發展。
3. 數據智能化需要長期探索,過程中的思考和建議
這里分享一些關于智能化的思考:
首先,在智能化的道路上要追求確定性。當前,市場上有許多宣稱能解決各類問題的產品,但仔細審視后,這些產品往往只是展示了一些成功的案例,距離實現真正的確定性目標還有很大的距離。當我們聲稱機器能解決某個問題時,必須明確認識到,這個問題與實際應用場景中的問題之間可能存在巨大的差異。
因此,在提及智能化或相關主題時,不應僅僅停留在表面,而應當深入探索其背后的技術和應用場景。當前的大模型,就像幾年前的深度學習技術,雖然在某些領域取得了顯著進展,但同樣需要時間來驗證其在實際應用中的效果。
對于數據領域的專家而言,更應該關注數據本身,思考如何利用這些技術來解決我們自身的問題。例如,考慮更新和優化數據建模方法,以適應新時代的需求。
最后,智能化的探索是一個長期且需要持續投入的過程。雖然這個過程可能充滿挑戰,但通過大家的共同努力,將會推動智能化的不斷進步。