“有序漏斗”算法難題 有望在易觀A10峰會獲得新突破
伴隨新零售、新金融、新娛樂等新業務類型的崛起,大數據的巨大能量滲透到互聯網生活的方方面面,以大數據為基石的移動應用正在改變世界。如何在技術層面實現“漏斗”升級,并充分釋放大數據的豐沛能量,是當前數據應用領域的重要議題。
進入互聯網下半場,移動應用的主戰場從增量用戶搶奪轉向存量用戶運營。提高用戶留存率和活躍度成為產品運營的核心。用戶使用某一移動應用時,通過路徑去實現目的。如用戶網購行為,可視為“瀏覽商品→加入購物車→生成訂單→支付訂單→完成支付”路徑。路徑中每一個節點都存在不同程度的用戶流失,層層遞減后整體形成漏斗形的模型。目前公認的計算關鍵路徑方法有兩種:無序漏斗和有序漏斗。
在無序漏斗中,前后事件的發生可任意排序,比如用戶在頁面間隨意切換和返回主頁操作,不受步驟間的邏輯順序約束。而有序漏斗的每個步驟之間有嚴格的順序限制,第二步的事件必須發生在***步之后。如支付過程中,需要先選擇購買之物,才能進入相應的付款操作。有序漏斗廣泛存在于購物支付、信息注冊等邏輯層級要求嚴格的路徑行為中。相較用戶路徑重合率極低的無序漏斗,有序漏斗的數據研究更有價值。
“漏斗”模型的計算核心是分解和量化。面對海量龐雜的用戶數據, “有序漏斗”由于有邏輯上的約束條件,在計算過程中面臨的挑戰更為艱巨。批量處理海量數據的同時,難以保證實時處理復雜數據的效率。“漏斗”升級的技術難點落在計算速度上。
一些互聯網公司投身到大數據分析工具的研發當中,希望從技術層面實現“有序漏斗”計算效率的突破,然而鮮有關鍵性成果面世。究其原因,一是難以找到具有相當量級的數據作為測試對象,二是缺乏強有力的技術支撐。
針對“有序漏斗”計算效率的技術瓶頸,“2017易觀OLAP算法大賽”將對此進行聯合攻堅。作為已經擁有易觀萬像和易觀千帆等成熟數據產品的行業***,易觀此次對大眾公開需求,向數據高手廣發英雄帖,招募算法高手共同突破“有序漏斗”的技術難題。
從主辦方獲悉,本次易觀OLAP算法大賽的參賽規則為:參賽者根據主辦方提供的應用轉化和OLAP場景,先利用測試數據集在指定測試集群上運行給出測試結果,最終用實際測試數據在測試集群上跑整體數據并給出用時排名。
在技術層面,大賽選拔使用的OLAP漏斗場景,要求滿足海量數據實時多維度有序分析模型。在數據處理上,可以通過數據切片和預處理,列存儲、壓縮及字典以及索引等的綜合使用,在細節方面可以結合一些巧妙的推理,減少計算量及復雜度,實現針對特定維度數據的精準觀察。還可以通過下鉆等操作,提高數據粒度細化程度,得到層次更豐富的數據細節,讓數據分析做到有效率、有深度、有價值。
在數據層面,截止2017年第三季度,目前易觀每日處理數據261億條,累計覆蓋來自297個領域的21.9億個智能終端,監測超過251萬款移動應用,數據存儲容量達5.8PB。本次大賽依托于易觀億級海量數據庫,使比賽成果更具可信度和現實指導意義。
本次大賽云計算服務由UCloud提供,目前大賽已正式進入競賽環節,近40個團隊和個人將分別參加商業組和開源組的比賽。商業組吸引了包括咪咕音樂、北京樂見科技、南京帆軟軟件、杭州玳數科技、北京潤乾信息、Kyligence、AggreData、Gbase等企業的技術強隊。開源組有來自小米、美團、熱云數據、原速數據、LinkDoc、hulu、樂享天下、牛辦科技、上海睿民以及北京交通大學的數據高手參加。
10月27日,易觀A10大數據應用峰會將在北京盛大開幕,屆時,將決出本次OLAP算法大賽的優勝隊伍,大賽的優秀案例還將在峰會展示。***數據大咖指導,國內高手聯合攻堅,“有序漏斗”計算效率難題或將迎來重大突破。