為電商而生的知識圖譜,如何感應用戶需求?
1、背景
電商認知圖譜從17年6月啟動以來,通過不斷從實踐到體系化的摸索,逐漸形成了一套較為完善的電商數據認知體系。
在當前集團不斷拓展業務邊界的背景下,數據互聯的需求越來越強烈,因為這是跨領域的搜索發現、導購和交互的基礎,也是真正能讓用戶“逛起來”要具備的基礎條件。但在此之前,我們需要對當前的問題做一個分析。
1.1問題
更復雜的數據應用場景不僅是傳統的電商,現在我們面臨的是新零售、多語言、線上線下結合的復雜購物場景,所用到的數據也往往超出了以往的文本范圍,這些數據往往都具有一些特點:
非結構化互聯網的大量數據都是分散在各個來源而且基本是非結構化文本方式來表示,目前的類目體系從商品管理角度出發,做了長期而大量的工作,仍然只是覆蓋了大量數據的冰山一角,這對于認知真正的用戶需求當然是遠遠不夠的。
充滿噪聲:不同于傳統的文本分析,目前集團內的數據大部分是query、title、評論、攻略等,這些數據由于用戶習慣和商家訴求,會存在非常不同于普通文本的語法結構,也會由于利益原因存在大量噪聲和臟數據,這也為真正發現用戶需求并結構化帶來了極大的困難。
多模態、多源:隨著集團的業務擴展,目前的搜索推薦不僅容納了商品中的文本信息、大量視頻、圖片也作為內容被使用、如何融合各個來源的數據、如何在關聯多模態數據也是數據建設的一個難點。
數據分散,無法互聯:從目前的商品體系建設來說,各個部門由于業務快速發展,往往需要維護自己的一套cpv體系,這也是后期做商品管理和搜索的非常關鍵的一環,但是由于應用場景的行業屬性不一樣,比如閑魚的"包配飾"由于業務場景高頻會是一個需要再細分的類目,但在淘系由于交易搜索低頻,"鞋包配飾"僅僅是二手閑置下的一個小類目,這造成各個部門需要費力地維護在自己的cpv體系上的查詢和搜索,每次都要重建自己的類目體系,重新支持存儲查詢,重新關聯商品,重新做類目預測等。如何建設一個比較通用的面向應用的概念體系,支持根據業務需求提供查詢服務,已經迫在眉睫。
缺少數據的深度認知:數據的深度認知不是認知商品,而是認知用戶需求之間的關聯,如何能在用戶搜索"葉酸”的時候認知到她有備孕需求,如何能在用戶大量點擊燒烤調料和工具的時候認知到他需要進行野外燒烤,是目前全集團都缺少的。
1.2需求分析
通過如下的背景介紹,我們可以明確到,為了構建一個全局統一的知識表示和查詢框架,我們需要如下的關鍵工作。
復雜場景的數據結構化:在復雜的場景下,我們首先要做的是數據清洗,通過頻次過濾、規則和統計分析把臟數據去掉,然后通過短語挖掘,信息抽取等方法把高可用的數據抓取出來,進行數據的結構化和層次劃分。
分散數據的統一表示框架:對于管理分散數據,我們首先是需要定義一個全局的schema表示和存儲方法,然后基于schema進行概念數據的融合,屬性的挖掘和發現,在數據關聯上有可能要通過各種表示學習的方法來完成。
數據深度認知:深度認知包含兩個方面,一個是數據本身的認知,一個是數據關聯的認知,通過行為和商品本身的信息我們可以認知到用戶購買商品的意圖,通過外部數據的輸入和摘要我們會得到常識類和商品體系之外的用戶需求的關聯。
1.3電商認知圖譜
為了解決上面的問題,我們提出了電商認知圖譜(E-commerceConceptNet),目標是建立電商領域的知識體系,通過深度認知用戶需求,實現電商場景下關聯人-貨-場的聯動,賦能業務方和行業。
1.3.1模塊劃分
從整體劃分上來說,認知圖譜分為四塊比較重要的工作,通過將不同類型的concept(user,scene,virtualcategory和item)構建為一個異構圖,來實現用戶-場景-商品的關聯:
用戶圖譜構建用戶圖譜除了通用的用戶畫像信息(年齡、性別、購買力),也會有“老人”,“小孩”等人群數據,和用戶的品類屬性偏好數據。
1.3.2場景圖譜構建
場景可以看做是對用戶需求的概念化,從現有的query和title中識別出用戶需求,泛化為一個通用的場景(sceneconcept),并建立諸如"戶外燒烤","度假穿搭"之類的概念是場景圖譜的主要工作。通過不斷細化的場景需求,我們將跨類目和品類,代表了一類用戶需求的概念抽象為購物場景(sc)。
挖掘了概念相當于我們得到了圖上的節點,在概念挖掘之上,我們又著手建立概念與類目和品類,概念和概念之間的關系,相當于建立了圖上的有向邊,并計算邊的強度,具體流程如下:
截止目前,我們已經產出10w+概念和10倍的品類類目關聯。
1.3.3品類細化
品類細化的來源是由于目前的類目體系會過粗或者過細,從構建上包括兩個層面:
品類聚合:比如"連衣裙“從認知層面上來說都是一個品類,但是由于分行業管理的原因會同時存在"女裝”,"男裝"和"童裝"等不同類目中,這時候就會存在于兩個一級類目下,所以就需要有一個偏常識的體系來維護對真正"連衣裙"的認知。
品類拆分:品類細化是源于我們發現現有的類目體系不足以聚合一類用戶需求,比如有一個“西藏旅游”的場景,在“紗巾”類目下我們需要更多的細節,這時候就需要一個叫做“防風紗巾"的虛擬類目。這個過程同樣是存在entity/conceptextraction和relationclassification的,當前我們主要針對類目和品類品類上下位建立關系。
截止目前,我們已經有融合了cpv類目樹,品類類目關聯,和外網數據的pair對68.9w+對。
1.3.4商品圖譜構建
短語挖掘:商品圖譜端我們需要的是做更多的商品屬性認知,我們知道,完善的cpv體系的前提是phrase的認知,針對此我們建立了一個bootstrap框架下的cpv挖掘閉環,目標是能夠長期有效積累cpv數據,擴大query和商品的認知(這也是商品打標的數據來源之一)。
舉例來說:
截止至目前,我們已經完成了pvtop70的類目審核,增加了12W+的cpv對,term能夠全量被識別的query占比已經從30%提升到60%(由于目前采用中粒度分詞進行挖掘,前期分析70%已經是極限,后續會在增加phrasemining流程后持續擴大挖掘覆蓋),目前數據已經作為類目預測,智能交互的基礎數據每日產出。
商品打標:商品打標是我們得以將知識和商品建立關聯的關鍵技術,上述三點產生的數據***都會通過打標建立與item的聯系,在商品打標完成后我們就可以實現從query到商品的整個語義認知閉環。
預計到三月底我們可以實現***版的商品打標。
2、知識體系
在知識構建的過程中,我們漸漸發現需要一套全局統一的schema表示體系,于是我們調研了wordnet和conceptnet的體系構建歷程,逐漸形成了自己的一套概念表示體系,也就是現有的認知圖譜的核心(E-commerceConceptNet),它的目標是從語義層面去理解電商領域的用戶需求并將其概念化(conceptulization),映射到一個語義本體(ontology),通過詞匯層面的關系逐漸把本體之間的關系形式化(specific),通過本體之間的層級去表示概念之間的層級,通過概念之間的關系去抽象實體類別和關系。
從數據層面上來看,我們要描述一個事物(entity),首先需要把它定義為一種類別(instance-of-class)的實例,這種類別通常又可以通過一個概念(concept)來表示,不同的概念會有自己不同的屬性(proeprty),一類概念的具有的屬性集合可以稱為概念的schema,有同一類schema的概念一般會屬于不同的領域(domain),領域內有自己的語義本體(ontoloty),通過本體的層次(比如“英國"-is-part-of-”英國"),我們可以形式化概念的層級和表示。那么由細到粗的,我們定義了一套電商概念體系的表示方法,通過不斷細化ontology和concept,以及他們之間的關系,來關聯起用戶和商品,甚至外部的實體。
3、技術框架
3.1平臺模塊
總體來說,我們是以一個數據服務中臺支撐起上面的圖引擎,再通過阡陌數據管理平臺,和圖靈業務對接平臺來實現知識的生產和使用的。
3.2模塊細節
阡陌:數據標注和展示
阡陌作為電商知識圖譜的基本平臺,目前集成了所有知識標注和審核流程,并且提供了數據查詢和可視化,后期算法的概念挖掘服務和商品打標服務也會通過阡陌對外提供。
- 數據審核在不斷試錯過程中我們已經建立了一套比較完善的從初審到終審的流程,具體見阡陌審核工具。
- 可視化:除了審核平臺,阡陌還提供了更加具體的數據可視化形式,通過良好的交互方便查詢知識阡陌可視化
3.3圖靈:業務全選和投放
由于目前我們的知識大部分以卡片形式提供,圖靈提供了一整套經由云主題透出的業務服務工具:
概念選擇:
用戶可以通過全選自己的主題進行分渠道投放
3.4圖引擎:數據存儲和查詢
從存儲介質來說,我們使用mysql進行靈活標注,圖數據庫進行全量查詢,odps做持久化數據版本管理。
在數據錄入到igraph和biggraph之前會被拆分為點表和邊表導入,在線通過gremlin進行查詢。
在圖數據庫上層我們封裝了一個圖引擎模塊,提供不同trigger的場景和商品多路多跳召回功能。目前提供user,item_list和query召回,已經在喵小秘使用,并且和搜索發現進行聯調中,可以使用查詢接口進行查詢和測試。
3.5技術落地
云主題(認知圖譜)目前在云主題已經通過知識卡片的形式上線近1w個場景,比較首猜商品來說,點擊和發散性較商品均有大幅提升,現在正在做數據發散性的探索。
錦囊(全量)/底紋(bts)
搜索
穹頂
四、后期規劃
目前認知圖譜剛剛發展近一年,還有很多工作需要細化,后續的工作重點會放在:
關系挖掘和本體構建
通過文本增強圖譜和外部數據的關聯
常識類推理規則的挖掘
圖推理的符號邏輯表示
【本文為51CTO專欄作者“阿里巴巴官方技術”原創稿件,轉載請聯系原作者】