Mob林榮波:再論數據工廠架構升級
原創【51CTO.com原創稿件】2018年5月18-19日,由51CTO主辦的全球軟件與運維技術峰會在北京召開。此次峰會圍繞人工智能、大數據、物聯網、區塊鏈等12大核心熱點,匯聚海內外60位一線專家,是一場高端的技術盛宴,也是頂級IT技術人才學習和人脈拓展不容錯過的平臺。
在“大數據處理技術”分會場,Mob開發者服務平臺技術副總監林榮波帶來了《數據工廠架構升級分享》的主題分享,會后,51CTO記者對林榮波進行了專訪,就數據工廠架構進行了深入探討。
林榮波,7年移動互聯網從業經驗,曾負責多家公司公共核心系統的架構設計與開發,擅長處理千萬級的并發、TB級的數據處理以及系統治理。現任Mob開發者服務平臺技術副總監,負責SDK業務整體架構設計實施以及人才管理及引進工作。
早在2012年,MobData前身掌淘科技就已經開始研發SDK產品。經歷6年的發展和積累,相繼推出的13款SDK產品,涵蓋了第三方登錄、分享、短信驗證、消息推送、手游錄像、用戶系統、數據API等全方面的SDK需求,幫助開發者降低開發成本,提升集成效率,打造完善的數據統計后臺,累計5年無重大事故。
有了品類豐富且多樣化的SDK產品,也造就了MobData國際領先的數據實力,現今數據源已覆蓋國內84億的移動設備,產品服務于26萬+的開發者,月活超過9.5億,SDK下載量突破330萬次。
Mob數據工廠架構
數據工廠包含數據采集、數據處理等功能,旨在對行業大數據進行一系列規范化處理,提供強大的數據管理、分析等能力。
Mob既是開發者服務平臺,也是第三方全景數據服務平臺。林榮波介紹說,Mob數據工廠的架構分為兩大部分:數據采集和數據分析挖掘。
Mob 當前技術架構2.0
數據采集的主要責任是通過不同的產品獲取數據。之后,數據通過Flume傳到HDFS。在數據分析挖掘部分,自下而上依次是存儲介質、計算框架、模型算法、應用層。
數據工廠架構三大難題
在數據采集、處理過程中,有三個比較大的難題:數據源、數據關系、商業化產品產出效能。
數據源包括地域和應用市場政策的問題,硬件和系統兼容的問題,SDK業務團隊與商業化團隊的碰撞問題。
數據關系的難題首先來自從數據源到成品的數據鏈雜亂,因為從數據的廣度和數量都很龐大。對于一些新來的員工,學習成本很高。如果員工對數據的關系不太清晰,就會導致重復的計算或者對數據的使用不當。這樣一來,數據關系越來越亂,維護成本也越來越高。
商業化產品產出效能的難點包括產品迭代快和新品產出效能低之間的矛盾、大數據開發和產品服務端耦合度高的矛盾、服務穩定性隔離性差。
三大解決之道
針對這三大難題,林榮波也給出了解決之道。
首先,在數據源問題上,Mob采用了公有云+私有云的方案,除了自建機房外,也對外采購了不少亞馬遜和阿里云的服務器,采用智能DNS+本地服務干預來把控整個服務流量的分發。在遇到DDOS攻擊的時候,基本上可以借助阿里云的平臺去實現迭代,保證自己數據的正常。針對數據項的政策問題,Mob增加了服務器開關,讓每一個服務、每一個數據項都有相應的開關。當流量大的時候,也可以通過服務的開關來控制流量。Mob還建立了一個通用組件團隊,專門處理通信標準化、AOP、源數據監控等問題。
在數據關系問題上,林榮波表示,對于大數據來說,數據就是血液。數據與數據之間有血緣關系的特征。Mob開發了“血緣管理系統”,其實就是標準化任務腳本和頭部定義。所有的任務需要按照規范定義這個任務本身的歸屬者是誰,提交給任務調撥系統的時候,系統本身就會檢測這個任務是否合規范。隨后,解析其頭部,把相關的數據關系提取出來,放到數據庫里,最終以圖的形式展示整個數據源的關系。
之后,Mob開發了QC系統(監控數據流健康狀態&容錯處理),QC主要做兩方面的工作,一是通用檢測,另外一個是自定義的檢測。自定義檢測是針對一些特殊的需求,需要開發人員自己去寫代碼和腳本,按照規范去提交。
在商業化產品產出效能問題的解決上, Mob做了中間件的產品。中間件可以稱為數據庫客戶端,包括三部分:商業系統、網關、過載保護。基于現有的框架,Mob從技術上也會更多地去考慮如何更高效地利用資源,提升數據處理效率。
數據量大、數據處理能力強,是Mob兩個最大的優勢,此外,Mob 7×24小時的服務也是一大亮點。談到未來的發展方向,林榮波表示,一是提升繼續Mob數據處理的能力,節省服務器資源。二是會考慮引進外部數據,充實自己的數據量。
以上內容是51CTO記者根據Mob林榮波在WOT2018全球軟件與運維技術峰會的采訪內容整理,更多關于WOT的內容請關注51cto.com。
【51CTO原創稿件,合作站點轉載請注明原文作者和出處為51CTO.com】