大數據網管運營數據存儲模式研究
隨著近兩年通信流量業務開展得如火如荼,更多的用戶上網行為的數據分析需求猛增,而處理這類數據需要大量的寫入處理,而且字段不固定,傳統的關系型數據庫已無法滿足需求,急需多節點的分布式大數據集群來解決數據處理及存儲問題。
本研究構建了一套大數據采集、存儲體系,將系統分為采集層、ODS、DW、DM等四層,分別完成海量數據的采集、匯總、處理、生成價值數據過程中的不同環節。其中,采集層負責原始數據的采集,ODS層負責統一不同系統間的業務內容,對部分海量數據的非結構化數據進行轉換。DW層是以空間換時間的一層,要形成大量的基礎Cube,基礎常用業務粒度的數據。實現統一的KPI過程,是ODS層指標轉換的基礎。DM層主要是面向業務的組合,面向分析的Cube變換,面向挖掘的數據變換。
數據分類存儲
在數據存儲過程中,按照數據價值和生命周期管理原則(熱數據對存儲性能要求高,隨著數據生命周期的變化,數據價值降低,逐漸向一般性能存儲遷移,其中數據價值的參考項包括時效性、訪問頻率、價值密度、業務意義等),可以將不同數據分類存儲,制定不同的存儲方式及存儲周期。
對于采集層的原始數據,將采集層的數據加載到基礎數據緩存,為數據整合提供緩存,其中大數據1~3天,傳統數據7天。對于ODS層數據,通過內存庫關聯與整合,ETL為ODM提供完整、準確的數據。該層存儲周期:大數據3個月,傳統數據1年。對于DW層數據,通過基于數據模型的并行計算域數據庫計算,提供多用途的輕度匯總,該層數據類型主要為按維度、事實組織的數據,存儲周期為3年。
數據處理及存儲過程采用了分布式架構,其中有兩項關鍵技術—HDFS和MapReduce,應用這兩項技術能給系統帶來如下技術優勢。
Hadoop分布式文件系統適合運行在通用硬件(x86服務器)上的分布式文件系統,HDFS對外開放文件命名空間并允許用戶數據以文件形式存儲;MapReduce能自動將一個作業(Job)待處理的大數據劃分為很多個數據塊,每個數據塊對應于一個計算任務(Task),并自動調度計算節點來處理相應的數據塊。作業和任務調度功能主要負責分配和調度計算節點(Map節點或Reduce節點),同時負責監控這些節點的執行狀態,并負責Map節點執行的同步控制。
具體應用案例
通過該系統的推進落地,吉林省完成了省內大數據處理平臺—數據共享平臺的建設,該系統日均處理數據超過10T左右,并為吉林省內多個上層應用提供了數據支撐,比如互聯網端到端系統能以四大類關鍵業務(網頁瀏覽類、視頻類、即時通信類、應用下載類)進行端到端質量分析,通過五元五階分析定位方法,能夠定位質差業務SP、質差小區、質差核心網網元、質差終端等,并找出業務問題原因;CSFB業務質量分析系統能實現全流程質量概況分析、全流程質差網元問題定位分析;客戶滿意度畫像從覆蓋質量、網絡感知等網絡指標判斷用戶滿意度,做到在被投訴之前發現問題。
這些應用在吉林省內日常的網絡問題分析、優化,業務預測、發展支撐等方面發揮著有力的數據支撐作用。