成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

用戶畫像系統(tǒng)的技術(shù)架構(gòu)和整體實現(xiàn)

大數(shù)據(jù) 架構(gòu)
本文主要從數(shù)據(jù)整理、數(shù)據(jù)平臺、面向應(yīng)用三個方面,一一探討用戶畫像的技術(shù)架構(gòu)和整體實現(xiàn)。

作者簡介:楊思義,男,26歲,2015年6月畢業(yè)于山東大學(xué)齊魯軟件學(xué)院,工程碩士學(xué)位。

2014年6月至今工作于北京亞信智慧數(shù)據(jù)科技有限公司 BDX大數(shù)據(jù)事業(yè)部,從2014年9月開始從事項目spark相關(guān)應(yīng)用開發(fā)。

 

這里講解下用戶畫像的技術(shù)架構(gòu)和整體實現(xiàn),那么就從數(shù)據(jù)整理、數(shù)據(jù)平臺、面向應(yīng)用三個方面來討論一個架構(gòu)的實現(xiàn)(個人見解)。

數(shù)據(jù)整理:

1、數(shù)據(jù)指標(biāo)的的梳理來源于各個系統(tǒng)日常積累的日志記錄系統(tǒng),通過sqoop導(dǎo)入hdfs,也可以用代碼來實現(xiàn),比如spark的jdbc連接傳統(tǒng)數(shù)據(jù)庫進(jìn)行數(shù)據(jù)的cache。還有一種方式,可以通過將數(shù)據(jù)寫入本地文件,然后通過sparksql的load或者h(yuǎn)ive的export等方式導(dǎo)入 HDFS。

2、通過hive編寫UDF 或者h(yuǎn)iveql 根據(jù)業(yè)務(wù)邏輯拼接ETL,使用戶對應(yīng)上不同的用戶標(biāo)簽數(shù)據(jù)(這里的指標(biāo)可以理解為為每個用戶打上了相應(yīng)的標(biāo)簽),生成相應(yīng)的源表數(shù)據(jù),以便于后續(xù)用戶畫像系統(tǒng),通過不同的規(guī)則進(jìn)行標(biāo)簽寬表的生成。

數(shù)據(jù)平臺

1、數(shù)據(jù)平臺應(yīng)用的分布式文件系統(tǒng)為Hadoop的HDFS,因為Hadoop2.0以后,任何的大數(shù)據(jù)應(yīng)用都可以通過 ResoureManager申請資源,注冊服務(wù)。比如(sparksubmit、hive)等等。而基于內(nèi)存的計算框架的出現(xiàn),就并不選用hadoop 的MapReduce了。當(dāng)然很多離線處理的業(yè)務(wù),很多人還是傾向于使用Hadoop,但是hadoop的封裝的函數(shù)只有map和Reduce太過單一,而不像spark一類的計算框架有更多封裝的函數(shù)(可參考博客spark專欄)。可以大大提升開發(fā)效率。

2、計算的框架選用Spark以及RHadoop,這里Spark的主要用途有兩種,一種是對于數(shù)據(jù)處理與上層應(yīng)用所指定的規(guī)則的數(shù)據(jù)篩選過濾, (通過Scala編寫spark代碼提交至sparksubmit)。一種是服務(wù)于上層應(yīng)用的SparkSQL(通過啟動spark thriftserver與前臺應(yīng)用進(jìn)行連接)。 RHadoop的應(yīng)用主要在于對于標(biāo)簽數(shù)據(jù)的打分,比如利用協(xié)同過濾算法等各種推薦算法對數(shù)據(jù)進(jìn)行各方面評分。

3、MongoDB內(nèi)存數(shù)據(jù)的應(yīng)用主要在于對于單個用戶的實時的查詢,也是通過對spark數(shù)據(jù)梳理后的標(biāo)簽寬表進(jìn)行數(shù)據(jù)格式轉(zhuǎn)換(json格式)導(dǎo)入mongodb,前臺應(yīng)用可通過連接mongodb進(jìn)行數(shù)據(jù)轉(zhuǎn)換,從而進(jìn)行單個標(biāo)簽的展現(xiàn)。(當(dāng)然也可將數(shù)據(jù)轉(zhuǎn)換為Redis中的key value形式,導(dǎo)入Redis集群)

4、mysql的作用在于針對上層應(yīng)用標(biāo)簽規(guī)則的存儲,以及頁面信息的展現(xiàn)。后臺的數(shù)據(jù)寬表是與spark相關(guān)聯(lián),通過連接mysql隨后 cache元數(shù)據(jù)進(jìn)行filter,select,map,reduce等對元數(shù)據(jù)信息的整理,再與真實存在于Hdfs的數(shù)據(jù)進(jìn)行處理。

面向應(yīng)用

從剛才的數(shù)據(jù)整理、數(shù)據(jù)平臺的計算,都已經(jīng)將服務(wù)于上層應(yīng)用的標(biāo)簽大寬表生成。(用戶所對應(yīng)的各類標(biāo)簽信息)。那么前臺根據(jù)業(yè)務(wù)邏輯,勾選不同的標(biāo)簽進(jìn)行求和、剔除等操作,比如本月流量大于200M用戶(標(biāo)簽)+本月消費超過100元用戶(標(biāo)簽)進(jìn)行和的操作,通過前臺代碼實現(xiàn)sql的拼接,進(jìn)行客戶數(shù)目的探索。這里就是通過jdbc的方式連接spark的thriftserver,通過集群進(jìn)行HDFS上的大寬表的運算求count。(這里要注意一點,很多sql聚合函數(shù)以及多表關(guān)聯(lián)join 相當(dāng)于hadoop的mapreduce的shuffle,很容易造成內(nèi)存溢出,相關(guān)參數(shù)調(diào)整可參考本博客spark欄目中的配置信息) 這樣便可以定位相應(yīng)的客戶數(shù)量,從而進(jìn)行客戶群、標(biāo)簽的分析,產(chǎn)品的策略匹配從而精準(zhǔn)營銷。

責(zé)任編輯:Ophira 來源: 數(shù)盟
相關(guān)推薦

2016-04-08 11:39:49

用戶畫像個性化推薦標(biāo)簽

2017-04-14 15:42:14

2022-10-20 14:35:48

用戶畫像離線

2017-11-21 13:46:30

大數(shù)據(jù)用戶畫像數(shù)據(jù)管理

2021-03-09 10:06:34

大數(shù)據(jù)畫像數(shù)據(jù)采集

2016-10-09 14:48:14

Linux整體架構(gòu)跳板機(jī)

2017-04-28 11:15:26

大數(shù)據(jù)用戶畫像技術(shù)

2022-10-31 11:35:48

用戶畫像底層模型

2023-03-15 07:22:56

畫像平臺數(shù)據(jù)中臺

2018-06-06 14:17:44

聚類分析算法大數(shù)據(jù)

2016-04-18 12:01:16

2017-02-27 17:34:12

大數(shù)據(jù)

2024-02-27 13:07:49

用戶畫像數(shù)據(jù)分析HR

2022-12-15 08:35:01

用戶畫像平臺

2016-03-16 10:22:28

Spark用戶畫像數(shù)據(jù)科學(xué)

2022-05-17 19:54:45

用戶畫像流程標(biāo)簽

2024-03-29 11:39:57

用戶畫像用戶分群用戶分層

2018-05-16 08:58:04

用戶畫像存儲

2024-04-11 08:02:11

算法用戶畫像深度學(xué)習(xí)

2017-02-13 20:36:14

群體畫像用戶數(shù)據(jù)
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 欧美日韩国产在线观看 | 日韩av在线免费 | 久久久久www | 99re热精品视频 | 国产视频精品视频 | 国产精品毛片一区二区在线看 | 亚洲精品乱码久久久久久蜜桃 | av永久免费 | 欧美一区二区三区在线视频 | 91一区二区在线观看 | 可以免费观看的av片 | 国产一区二区三区四区 | 性xxxxx | 在线国产视频观看 | 国产精品99久久久久久www | 国产精品免费看 | 亚洲区一区二 | 日韩免费av一区二区 | 一区视频 | 一级黄色毛片a | 亚洲国产成人精品女人久久久 | 2020亚洲天堂 | 亚洲国产精品一区二区三区 | 国产亚洲精品美女久久久久久久久久 | 成人毛片视频免费 | 天堂一区二区三区 | 国产精品久久国产精品 | 看真人视频一级毛片 | 免费观看黄色一级片 | 亚欧精品一区 | 视频一区二区在线观看 | 一区二区在线免费观看 | 久久成人精品视频 | 911网站大全在线观看 | 精品麻豆剧传媒av国产九九九 | 成人亚洲视频 | 风间由美一区二区三区在线观看 | 亚洲一区二区中文字幕在线观看 | 久久久久资源 | 日韩一二区| 国产欧美日韩一区二区三区在线观看 |