李松林:大數據實時處理技術以及其應用
原創2013年4月26日-27日,由51CTO傳媒集團旗下WOT(World Of Tech)品牌主辦的2013大數據全球技術峰會在北京富力萬麗酒店召開。本次峰會將圍繞大數據基礎架構與上層應用的生態系統,解決大規模數據引發的問題,探索大數據基礎的解決方案,激發數據挖掘帶來的競爭力,讓數據發出聲音。51CTO作為本次峰會的主辦方,將全程視頻、圖文直播報道這場數據的盛宴,更多內容請點擊專題:2013大數據全球技術峰會。
李松林 京東商城商業智能和搜索部架構師
京東如今擁有整個電子商務完整的產業鏈,京東面臨的大數據問題是:
1. 數據的來源更加豐富;
2. 數據間的關聯性更加復雜;
3. 數據的價值——包括時效性和新商業模式。
Hadoop大數據的處理更加容易,這體現在ETL/企業數據倉庫;數據挖掘/建模;搜索和推薦;日志存儲等等。實際上,MapReduce批處理存在著缺陷,延遲較長,無法滿足用戶的實時需求,調度開銷較大。
大數據包括三部分:
大數據實時處理需要思考的問題是:模型——海量數據、多個數據源整合、預定義好的數據模型、數據任務依賴關系簡單、推和拉的問題;性能——高并發需求、大容量需求、高速度需求、批處理預算、硬件支持、容錯、水平擴展;服務——關聯獲取價值,緯度按需定制、互聯分析,報表等完成價值交付等。
大數據實時處理架構
大數據實時分析
大數據實時處理技術的優勢在于:服務和應用;價值展現——分析可視化,數據可視化,數據反哺,計算即服務;仔細思考其價值。
大數據應用的問題主要來自于對系統的壓力,如何解決呢?前端和后端的解耦、壓縮、排隊、后端更強勁這三方面重點。
結尾:以上是51CTO.com記者從一線為您帶來的精彩報道。后續我們還有更加精彩的獨家報道,敬請關注。