成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

「全民k歌」有什么秘密?網站數據分析之數據獲取

大數據 數據分析
最近看到身邊好幾個朋友都在用“全民K歌”這款軟件在手機上K歌,使用頻率還是很高,于是就想來看看全民K歌平臺的用戶究竟是一群什么樣的用戶?他們有什么樣的特征。然后進行數據分析,強化自己的分析思維與實戰能力。這一個過程我將會分為四個部分來寫:數據獲取,數據清洗,數據的呈現,分析報告的撰寫。本文是第一部分。

最近看到身邊好幾個朋友都在用“全民K歌”這款軟件在手機上K歌,使用頻率還是很高,于是就想來看看全民K歌平臺的用戶究竟是一群什么樣的用戶?他們有什么樣的特征。然后進行數據分析,強化自己的分析思維與實戰能力。這一個過程我將會分為四個部分來寫:數據獲取,數據清洗,數據的呈現,分析報告的撰寫。本文是第一部分。

「全民k歌」有什么秘密?網站數據分析之數據的獲取

python爬蟲獲取用戶數據

進入用戶的個人中心,下面的圖中畫方框的地方就是我們需要獲取的數據:

「全民k歌」有什么秘密?網站數據分析之數據的獲取

接下來我們看一下這些數據的存儲方式,打開nt之后我們可以看見這些數據都存儲在網頁中,這樣就非常容易獲取了,這里需要注意的有兩點:一個是年齡和地址,這兩者需要在獲取之后分開進行存儲,便于后面分析(粉絲數,關注數也是同理);另外一點就是性別問題,在網頁中我們沒有發現直接指示性別的關鍵詞,其實這里的性別是存放在畫紅色圈中的class的名字里面的“icon icon_boy”如果是女孩則是“icon icon_girl”,這里獲取之后我們用split去掉無關字符,只取boy和girl關鍵詞。

「全民k歌」有什么秘密?網站數據分析之數據的獲取

我們直接用BeautifulSoup來獲取這些數據:

「全民k歌」有什么秘密?網站數據分析之數據的獲取

這些數據也就是我們最終需要的數據,我們將他們存放在Mongodb數據庫中,以便于后面的分析與導出:

「全民k歌」有什么秘密?網站數據分析之數據的獲取

「全民k歌」有什么秘密?網站數據分析之數據的獲取

通過分析我們發現每一個用戶的個人主頁鏈接都僅僅只是ID不同,我們將這些ID也存放起來,方便后面獲取這些用戶所唱的歌曲,這個后面獲取到id之后直接傳回來就可以獲得這個用戶的個人信息了。

獲取多個用戶的數據

為了獲得更多用戶的數據,我們需要從用戶A進入它的粉絲頁面,獲取粉絲的ID,然后再進入粉絲B的個人主頁獲取用戶的信息,再從這些粉絲的主頁獲取他們的粉絲。類似一個遞歸的形式,思路是這樣,但在后面實際運行的時候,python老師出錯,個人感覺應該是堆棧溢出了,目前還是沒有搞定,但是可以獲取粉絲的二級列表,對于目前的分析來說,已經足夠了。

「全民k歌」有什么秘密?網站數據分析之數據的獲取

在用戶的粉絲頁面我們看到用戶的粉絲列表是逐步加載的,也就是異步加載的形式,我們就只能來抓包了。

「全民k歌」有什么秘密?網站數據分析之數據的獲取

我們可以看見用戶的粉絲數據是用json形式存儲的,在每一次加載,一共加載20名粉絲的信息,這里我們只獲取uid標簽的值。接下來問題來了,我們獲取的只是用戶的前20名粉絲,如何獲取其他的粉絲呢?方法肯定就是替換鏈接了,經過反復的查找,發現在已有的鏈接中每次加載變化的起作用的字段就是這個紅色圈內的字段:

「全民k歌」有什么秘密?網站數據分析之數據的獲取

但是這樣的一個數據是從哪里來的呢?如果是隨機生成的就沒有辦法了獲取下一級列表了。經過查找,我們發現這個last_tm的值在上一級的數據中存放著。這一下就好辦了,只需要在第一次獲取用戶id的同時,將last_tm的值也同時獲取下來,下一次加載時,直接掉用即可。

「全民k歌」有什么秘密?網站數據分析之數據的獲取

我們知道了如何分頁,如何獲取存儲的數據,那么到底該循環多少次才能把所有的用戶都獲取下來呢?在最開始,我們已經知道了用戶粉絲有多少,那么分多少也不就簡單了。用粉絲數除以每頁粉絲數20然后取整就是我們的循環次數了。

下面是獲取用戶粉絲的代碼:

「全民k歌」有什么秘密?網站數據分析之數據的獲取
粉絲列表分頁獲取

「全民k歌」有什么秘密?網站數據分析之數據的獲取
獲取每一個粉絲的id

「全民k歌」有什么秘密?網站數據分析之數據的獲取
進入粉絲二級列表

最后一共只爬取了8671條用戶數據,數據量還是比較少,但做分析之用,基本夠了。

「全民k歌」有什么秘密?網站數據分析之數據的獲取
存儲的數據

python爬蟲獲取歌曲數據

在上面我們已經獲得了8千多位用戶,那么這些用戶平時都喜歡唱什么歌,他們的活躍頻率如何,這些都可以從用戶發布的歌曲中獲得一些信息。

「全民k歌」有什么秘密?網站數據分析之數據的獲取

這里是歌曲頁的數據獲取情況,其中最為重要的就是畫紅色圈的部分了,因為這一部分數據顯示了用戶的活躍時間,已經所使用的手機型號,這個手機型號在一定程度上就代表了這個用戶的特征,所以這個數據是極為重要的。

「全民k歌」有什么秘密?網站數據分析之數據的獲取

 

同樣的,這些歌曲的列表是用異步加載的形式顯示的,我們直接來 抓包:跟上面一樣是用json來存儲信息的,我們直接解析獲取,對于手機型號這一部分沒有的,待會兒單獨獲取。

 

「全民k歌」有什么秘密?網站數據分析之數據的獲取

「全民k歌」有什么秘密?網站數據分析之數據的獲取

下面就是翻頁的問題了,我們打開heahers查看鏈接比較之后發現每翻一頁,連接中start便加1,而每一頁有8條數據,這樣一來每一個用戶的作品我們需要翻的頁數就是作品數除以8取整即可。

「全民k歌」有什么秘密?網站數據分析之數據的獲取

最后我們單獨用一個函數來獲取時間信息:

「全民k歌」有什么秘密?網站數據分析之數據的獲取

最后將所獲得的數據存放起來即可。

這里再次注明一點,這里用的用戶都是之前已經獲取的用戶他們所唱的歌曲,我將他們從CSV文件中讀取了用戶的id和作品數,傳給這個程序使用。

「全民k歌」有什么秘密?網站數據分析之數據的獲取

最后獲取到了84萬條數據,數據的樣式如下:

「全民k歌」有什么秘密?網站數據分析之數據的獲取

總結

這次數據的抓取遇到最大的一個坎就是在做用戶的粉絲翻頁的時候,一直沒有找到last_tm這個 數據,導致翻頁做不成,搞了好長時間。當時都已經放棄了,隔了一天之后再去看,突然在前一頁中發現了第二頁的last_tm,那一刻真的是挺開心的。

另外在數據的抓取過程中,最好的就是在最初數據存儲的時候就經歷將數據清洗好,比如那些不該有的字段都提前去掉在存儲,多個數據在一起的也盡量拆開再存儲,以便于后面的數據分析。

責任編輯:未麗燕 來源: 36大數據
相關推薦

2020-05-15 15:51:04

SAS數據分析

2021-01-26 11:57:46

數據挖掘數據分析大數據

2024-03-10 21:00:33

2023-04-06 11:54:55

2017-04-11 09:08:02

數據分析Python

2019-04-15 15:32:12

大數據開發數據分析數據科學

2022-03-29 14:49:14

大數據數據分析

2012-06-14 09:46:55

數據分析

2017-01-23 13:34:44

2021-06-29 07:04:39

SQL數據視圖

2017-12-13 10:04:05

2021-09-05 18:28:10

數據分析模型

2024-01-10 08:22:38

物聯網數據分析建模人工智能

2015-08-19 13:50:19

數據分析

2019-06-06 14:08:37

數據倉庫數據分析數據報表

2018-06-25 11:35:01

2021-01-27 09:18:50

大數據數據收集大數據分析

2015-08-25 10:32:07

健康大數據

2019-08-05 15:07:04

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 一级全黄少妇性色生活免费看 | 欧美国产一区二区 | 丁香久久| 中文字幕视频在线观看 | 色视频在线播放 | 日韩精品一区二区三区四区视频 | 久久久精彩视频 | 国产亚洲精品久久久优势 | 久久精品久久久久久 | 久久另类 | 精品国产视频 | 久久精品一区 | h片在线看 | 欧美福利视频 | 欧美一区二区三区的 | 国产人成精品一区二区三 | 高清欧美性猛交xxxx黑人猛交 | 免费国产一区 | 亚洲一区二区中文字幕在线观看 | 在线成人www免费观看视频 | 狠狠骚| 国产精品欧美一区二区三区不卡 | 亚洲精品av在线 | 国产在线资源 | 国产高清免费 | 日韩电影一区 | 一区二区三区在线观看免费视频 | 精品无码久久久久久国产 | 免费看爱爱视频 | 午夜网站视频 | 精品1区| 国产精品成人一区二区 | 欧美乱大交xxxxx另类电影 | 久久国内 | 午夜精品久久久久久久久久久久 | 99reav| 亚洲夜射| 国产精品久久久久999 | 欧美黄页 | 日韩欧美在线免费观看视频 | 久久久久亚洲精品 |