成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Python分布式抓取和分析京東商城評價

大數據 數據分析 分布式
互聯網購物現在已經是非常普遍的購物方式,在互聯網上購買商品并且使用之后,很多人都會回過頭來對自己購買的商品進行一些評價,以此來表達自己對于該商品使用后的看法。商品評價的好壞對于一個商品的重要性顯而易見,大部分消費者都以此作為快速評判該商品質量優劣的方式。所以,與此同時,有些商家為了獲得好評,還會做一些 “好評優惠” 或者 “返點” 活動來刺激消費者評價商品。

Python分布式抓取和分析京東商城評價

互聯網購物現在已經是非常普遍的購物方式,在互聯網上購買商品并且使用之后,很多人都會回過頭來對自己購買的商品進行一些評價,以此來表達自己對于該商品使用后的看法。商品評價的好壞對于一個商品的重要性顯而易見,大部分消費者都以此作為快速評判該商品質量優劣的方式。所以,與此同時,有些商家為了獲得好評,還會做一些 “好評優惠” 或者 “返點” 活動來刺激消費者評價商品。

既然商品評價對于消費者選購商品而言至關重要,那么我想試試可以從這些評價信息中獲取到怎樣的價值,來幫助消費者快速獲取到關于該商品的一些重要信息,給他們的購物帶來更加可靠地保證?

所以,我認為,一種快速、全面、高提煉度和高對比度的信息獲取和展示方式將會非常必要。 于是,我采用分布式快速抓取京東的評價信息,然后使用 pandas 對抓取到的數據進行分析。

話不多說先附上使用地址

體驗地址:http://awolfly9.com/jd/

想要分析京東商城的商品評價信息,那么需要做些什么呢

  • 采用分布式抓取,盡量在短時間內抓取需要分析的商品足夠多的評價信息
  • 將抓取到的評價信息都存儲到數據庫
  • 從數據庫中取出所有數據進行數據分析
    • 生成好評的詞云,并且獲取關鍵字
    • 生成中評的詞云,并且獲取關鍵字
    • 生成差評的詞云,并且獲取關鍵字
    • 分析購買該商品不同顏色的比例,生成柱狀圖
    • 分析購買該商品不同配置的比例,生成柱狀圖
    • 分析該商品的銷售數量和評論數量和時間的關系,生成時間則線圖
    • 分析該商品不同省份購買的的比例,生成柱狀圖
    • 分析該商品不同渠道的銷售比例,生成柱狀圖
  • 利用 Django 搭建后臺,將數據抓取和數據分析連起來
  • 前端顯示數據抓取和分析結果

分布式抓取京東商城的評價信息

采用分布式抓取的目的是快速的在短時間內盡量抓取足夠多的商品評價,使分析結果更精確

  1. 找出評價請求 URL 規律,獲取到如下 URL 組合鏈接
  2. 利用 Chrome 插件 Postman 測試鏈接是否可用,發現京東獲取評價信息并沒有驗證 Cookie 之類的反爬措施
  3. 開始編碼利用 scrapy 抓取京東商城的商品評價信息并存入數據庫以備使用

數據分析

  1. 從數據庫中取出相應數據,開始分析
  2. 使用 python 的擴展庫 wordcloud 分別提取好評、中評、差評的關鍵字,并且生成相應的詞云圖片
  3. 分析該商品不同顏色的銷量占比,并且生成柱狀圖,例如 iphone7 的不同顏色金色、玫瑰金色、銀色、黑色、亮黑色、還有***出的紅色的占比
  4. 分析該商品不同配置的銷量占比,并且生成柱狀圖,例如 iphone7 32G 、 64G、128G 存儲
  5. 分析該商品銷售和評論時間并且生成折線圖,分析出商品在什么時間最暢銷
  6. 分析用戶購買該商品的渠道,例如用戶通過京東 Android 客戶端、微信京東購物、京東 iPhone 客戶端購物的比例,并且生成柱狀圖
  7. 分析購買該商品的用戶的地域省份。例如北京、上海、廣州那個城市在京東上購買 iPhone7 的人更多
  8. 將以上分析結果都存儲保留

Django 后臺 WEB

使用 Django 搭建一個簡易的后臺 jd_analysis,將分布式抓取數據和數據分析連起來,并且將分析結果返回前端顯示。

  1. jd_analysis 提供一個接口接受用戶請求分析的京東商城商品的 URL 鏈接
  2. jd_analysis 接受到商品鏈接后開啟爬蟲進程開始抓取需要分析的商品的名稱和評價數量
  3. 組合出完整的評價鏈接插入到 redis 中,實現分布式爬蟲抓取,盡可能在短時間內抓取足夠多的該商品評價信息(我現在是 30s 時間大概可以抓取 3000 條評價信息)
  4. 主服務器等待一定的抓取時間,例如主服務器等待 30s,30s 后一定要給前端返回分析結果,所以等 30s 后清空 redis 中該商品的鏈接,從服務器沒有讀取不到需要抓取的鏈接也就自動關閉
  5. 開啟分析進程,開始分析抓取到的所有數據,并且生成圖標等信息

前端展示

在客戶端***次請求時,生成一個 GUID,并且存儲在 cookie 中。然后開啟一個定時器,帶上 GUID 不斷的向 jd_analysis 后臺請求結果。jd_analysis 后臺利用請求的 GUID 從 redis 中獲取抓取信息和分析結果的所有內容,返回給前端。前端顯示請求到的結果。

***附上兩張效果圖

購買和評論時間折線圖

 

購買渠道柱狀圖

 

大功告成

以上就是完整的抓取京東商品的評價信息并且使用 pandas 分析評價然后利用 Django 搭建后臺前端顯示抓取和分析結果的所有步驟。 

責任編輯:龐桂玉 來源: 36大數據
相關推薦

2017-01-10 16:18:26

分布式存儲建設

2018-01-09 14:43:37

Python機器學習數據抓取

2017-01-16 14:51:26

京東分布式服務CallGraph

2019-05-13 09:20:02

京東云RedisMongoDB

2019-10-10 09:16:34

Zookeeper架構分布式

2017-09-01 05:35:58

分布式計算存儲

2019-06-19 15:40:06

分布式鎖RedisJava

2023-05-29 14:07:00

Zuul網關系統

2017-09-11 15:17:01

分布式集群負載均衡

2015-09-23 14:32:30

NFV分布式數據環境

2021-07-16 07:57:34

ZooKeeperCurator源碼

2017-10-27 08:40:44

分布式存儲剪枝系統

2023-10-26 18:10:43

分布式并行技術系統

2013-10-16 11:36:08

分布式大數據

2022-12-28 09:48:09

分布式系統關鍵路徑

2024-03-18 00:00:01

分布式搜索引擎

2023-07-05 00:09:13

分布式存儲架構

2023-05-05 08:16:56

SeaweedFS分布式文件

2024-03-05 09:52:57

2018-07-17 08:14:22

分布式分布式鎖方位
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美日韩免费视频 | 国产免费又黄又爽又刺激蜜月al | a爱视频| 久热精品在线 | 中文字幕在线第一页 | 亚洲一区二区在线播放 | 九九在线视频 | 精品久久久久久一区二区 | 久久精品亚洲国产 | 一区二区av| 欧美日本在线 | 99国产精品99久久久久久粉嫩 | 亚洲在线久久 | 国产伦精品一区二区三区精品视频 | 亚洲精品久久区二区三区蜜桃臀 | 精品欧美色视频网站在线观看 | 亚洲精品1区2区3区 91免费看片 | 国内久久| 日韩福利一区 | aaa天堂 | 久久久精彩视频 | 欧美综合一区 | 在线观看av不卡 | 91久久精品一区二区三区 | 国产一级片网站 | 一区二区三区国产视频 | 欧美日韩精品在线一区 | 91精品国产色综合久久 | av性色全交蜜桃成熟时 | 欧美在线视频一区二区 | 亚洲第一区国产精品 | 日本三级线观看 视频 | 黄网站涩免费蜜桃网站 | 日韩一区二区三区在线 | 亚洲毛片在线 | 久久性色 | 欧美综合一区二区三区 | 欧美精品一区二区三区四区 在线 | 国产乱码精品一区二区三区中文 | 日韩欧美中文在线 | 日韩欧美一区二区三区四区 |