漢柏從容面對大數據計算
無論是電信及金融行業,或是新興的物聯網、云計算,還是新應用層出不窮的互聯網,每一刻都生成大量半結構化、非結構的數據。諸如目前最熱門的微博應用,在非常顯著的促進了用戶交流和信息共享,但是由此也產生了大量信息,對于數據的定位和檢索非常不便。市場調研公司麥肯錫表示,全球數據正以每年40%的速度增加,到2020年全球電子設備存儲的數據將暴增30倍,達到35ZB(相當于10億塊1TB的硬盤的容量)。由此對各行各業電信運營商、電商、稅務、金融、公安、等各個行業都會面對大數據計算的挑戰。
大數據計算的挑戰
1、 數據格式的挑戰:數據的格式包括結構化數據、半結構化數據、非結構化數據、每種數據的處理方法和分析方法都有區別,分析和計算的難度大。
2、 數據分析方法的挑戰:大數據技術的數據挖掘分為,關聯分析、聚類分析、異常分析、特性群組分析、演變分析等,分析的數學模型需要很強的適應性。
3、 計算的時效性挑戰:數據挖掘的實時計算,需要毫秒級的用戶體驗,需要瞬間把握數據動向和趨勢。
4、 計算的成本的挑戰:數據的存儲和安全以及在未來訪問和使用這些數據的存儲成本、計算資源的成本必須改變過去大型機、小型機的計算模式,改為采用通用硬件的分布式計算的技術模式。
作為行業深度定制化智能網絡及云計算解決方案提供商,漢柏在電信、政府等行業在數據挖掘積累了豐富的經驗。漢柏大數據計算系統提供了高性能存儲和查詢檢索,并提供簡單可靠的存儲擴展,從而能夠提供便捷快速的數據搜索和檢索定位。該方案通過云的手段提供海量數據挖掘的方法,提高了挖掘的效率,增加了挖掘的精度,有效提升客戶業務效能。
漢柏數據挖掘模型
漢柏大數據計算模型
漢柏大數據計算的體系結構
某客戶應用案例
諸如,某省級電信運營商提供車載、手持和手機三個定位終端,上傳軌跡數據,服務器獲取數據后通過GIS(地理信息系統)在地圖上實時展示終端當前的地理位置。車載和手持定位終端最小每隔10秒上傳一次軌跡數據(包括終端ID、經緯度、方向、速度、里程、狀態信息等)。靜止狀態下,終端頁會每隔300秒上傳一次數據,一次上傳的數據大小為512字節,一個終端每天上傳的數據約為2000條左右,數據大小約為1M。目前,該運營商約有20萬個終端,每天的反饋數據量為4億條,一天上傳的數據容量為200GB。在采用了漢柏大數據計算系統后,不但良好支持了上億數量級終端即千億條記錄,更能夠橫向擴展,從而良好解決數據分析的時效性、經濟性,保證了數據的可靠性。
目前,漢柏大數據計算方案已經在廣電行業、銀行業以及某部委付諸實施,并與漢柏的多款定制化產品配合,取得了良好的應用效果。