挨踢部落第一期:Spark離線分析維度
原創【51CTO.com原創稿件】活動說明:挨踢部落是為核心開發者提供深度技術交流,解決開發需求,資源共享的服務社群。基于此社群,我們邀請了業界技術大咖對開發需求進行一對一突破,解除開發過程中的絆腳石。以最專業、最高效的答復為開發者解決開發難題。
話題關鍵詞: 大數據 spark 數據分析 數據畫像
部落陣容:徐韜,龍珠直播大數據主管;王勁,數果科技 聯合創始人;
面向對象:初級開發工程師,數據分析師,運維工程師
參與方式:加入51CTO開發者QQ交流群 370892523 ,有任何技術問題,在群里提問,或發給群主小官。
活動詳情:
南京-史國俊-Java:有沒有Spark學習的相關資料?
徐韜:建議學習Spark官方文檔,其他的Spark書籍可能會跟不上Spark技術的更新。
北京-robingao –Java:用Spark做離線分析,Nginx 日志一般從那些維度怎么分析,具體都看什么維度?
徐韜:建議離線分析用Hive + map/reduce 比Spark 更穩定。Nginx日志一般用作流量監控,運維報警,有很強的時效性,可以使用Spark-Streaming。
北京-robingao –Java:有做客戶畫像方面的分享嗎?具體點的。
徐韜:用戶畫像就是給用戶“打標簽”。用戶畫像可以分為靜態標簽,動態標簽。靜態標簽是很少更新的指標或者是幾乎不變的指標,比如用戶的個人信息。動態標簽是用戶的行為標簽,比如直播站的喜好類目。通過用戶行為日志和交易流水數據打上的標簽 ,一些網站/APP 只有少量的用戶個人信息,但是通過打點可以獲得海量的用戶行為日志,我們可以通過聚類分析預測用戶的性別,年齡段,所在城市類型,工作類型等。直播站的一些比較有特點標簽有:喜愛主播,習慣上線時段,簽到型用戶等等。
南京-史國俊-Java:假如要同時向Spark集群提交多條SQL,能否不采用Spark-submit方式來實現?
徐韜:建議在Spark-SQL客戶端里提交。
重慶-小包-Android:流媒體方面的,想了解下Android方面有關于流媒體的案例,比如視頻語音流這類的?
徐韜:這個題目太大了,和直播相關的案例有直播回放,連麥,H5直播播放器。
廣州-趙輝-大數據:大數據的多源數據融合的價值?
王勁:如果大數據不做跨界多源融合,數據的價值很有限,也體現不出大數據的真正核心價值。其中在金融,電商,保險等行業會更能體現多源數據融合的價值。
珠海-小源-Java:51CTO有沒有做大數據相關的專題?
51CTO:有的,可以訂閱大數據期刊,訂閱的方法:在家園里面,個人主頁——我的訂閱這里。例如:
珠海-小源-Java:安全相關的專題有提供嗎?
51CTO:安全專題例如:HPE安全——“功夫熊貓”背后的數據保鏢;聚焦美網絡癱瘓事件,物聯網安全發人深省;2016國家網絡安全宣傳周專題報道;第十一屆(ISC)2亞太信息安全峰會專題報道;避免勒索軟件攻擊 仍需預防為上。
北京-楊凱-網絡工程師:想了解云計算方面的知識
51CTO:可以參考這篇來學習re:Invent 2016----AWS的五大云計算超能力。
南京-小胖- Android:云計算與大數據之間的關系
51CTO: 云計算的特點:通過對計算、網絡和存儲資源的動態調度及應用的快速部署,通過虛擬技術提高信息化設備的利用率,實現節約資源、提高效率、集中管理、信息共享和節約財政支出等目的。云計算平臺主要部署各類應用系統、存儲海量數據,為電子政務、社會管理、公眾服務等提供服務。
您對這些解答方案是否仍有疑問?歡迎加51CTO開發者QQ交流群 370892523 討論。
下期活動預告:12月26日
關鍵詞:移動 android 物聯網 前端
【51CTO原創稿件,合作站點轉載請注明原文作者和出處為51CTO.com】