新浪微博廖博:WAIC實時流計算平臺的成長和繁衍
原創【51CTO.com原創稿件】七年一劍,華麗蛻變。自2012年起連續6年15場峰會,凝聚大量技術專家,博觀而約取,厚積而薄發。2018WOT全球軟件與運維技術峰會5月18日揚帆起航,圍繞12大核心熱點,匯聚海內外60位一線專家,打造高端技術盛宴!
在5月19日下午的C會場“高并發與實時處理”專場中,新浪微博實時流技術平臺負責人廖博將帶來精彩的分享。會前,51CTO記者有幸采訪到他,針對“WAIC實時流計算平臺的成長和繁衍”這一主題進行了深入的交流。
隨著新浪微博業務的不斷推進,對數據處理的實時性要求越來越高。例如,大家所熟悉的微博熱詞,需要在很短的時間內完成數據處理以供在線系統使用。WAIC實時流計算平臺為新浪微博提供可靠的毫秒級和秒級實時數據處理服務,通過提供統一的數據源和配置化接入方式,幫助提高新浪微博實時作業的開發效率,降低部門開發與運營的成本。
新浪微博實時流技術平臺負責人廖博
廖博介紹,目前WAIC實時流計算平臺經歷了三個發展階段:
- ***階段,是由各種需求驅動的自由發展時期,新浪微博技術團隊在這一階段進行實時計算技術的研究和業務應用;
- 第二階段,隨著行業的發展以及業務對實時數據處理需求的急速增加,迫切需要一個實時流計算平臺來支撐快速的業務發展需求,該階段完成了實時流計算平臺的初步建設;
- 第三階段,是繁榮生長的階段,包括統一監控平臺、實時數據對賬系統、實時數據源建設等基礎設施建設,以及樣本生成平臺、第三方特征接入平臺等各類子服務平臺。
WAIC實時流計算平臺用storm、kafka、scribe、flume、http、docker等較為成熟的技術進行平臺構建,以統一監控平臺、實時數據對賬系統、實時數據源為平臺基礎,利用新浪自主研發的weipig開發框架進行實時計算方法的沉淀和配置化開發工具。據介紹,WAIC平臺滿足了新浪微博實時打標簽,feed、Push等業務的實時特征生成,以及圖片、音視頻等多媒體文件分析的業務需求。
業內人士都知道,吞吐量和擴展性是考驗實時流技術的重要標準。目前,WAIC實時流計算平臺的吞吐量在40W/s左右。擴展性方面,WAIC平臺采用插拔式的接入方式,只需按照規范開發相應的weibox:首先將接入方式進行抽象,制定相應的規范,需要擴展的實時集群只要按規范接入即可。
***,廖博提到,WAIC實時流計算平臺仍有一些問題尚未解決,包括實時流計算任務的統一資源調度,case統一追蹤平臺,多媒體分析平臺,以及多機房多網絡容災。其中,前三項是新浪微博實時流技術平臺下一步建設的重點。
【51CTO原創稿件,合作站點轉載請注明原文作者和出處為51CTO.com】