用Python分析了1741家大褲衩數據進行分析，終于找到可以買入那一條

作者：志斌 2021-05-11 07:49:31

最近的幾天真的是太熱了，志斌翻了翻自己的衣柜，發現去年的大褲衩已經不在適合自己現在肥胖的體型，所以志斌打開淘寶，搜索了1741條大褲衩的數據，然后進行了可視化分析，最終找到一條可以入手的大褲衩。

本文轉載自微信公眾號「志斌的python筆記」，作者志斌。轉載本文請聯系志斌的python筆記公眾號。

大家好，我是志斌~

在后臺回復[大褲衩]即可獲得數據集。

01數據采集

淘寶網站是一個動態加載的網站，我們之前可以采用解析接口或者用selenium自動化測試工具來爬取數據，但是現在淘寶對接口進行了加密，使我們很難分析出來其中的規律，同時淘寶也對selenium進行了反爬限制，所以我們要換種思路來進行數據獲取。

因為篇幅問題，數據采集的方式在這里就不在過多的講解，有興趣的小伙伴可以看看這篇文章，它詳細的介紹了淘寶商品數據的獲取方式，我們這里只展示核心代碼。

response = requests.get('https://s.taobao.com/search', headers=headers, params=params) 
shangpinming = re.findall('"raw_title":"(.*?)"', response.text) 
 
jiage = re.findall('"view_price":"(.*?)"', response.text) 
 
fahuodi = re.findall('"item_loc":"(.*?)"', response.text) 
 
fukuanrenshu = re.findall('"view_sales":"(.*?)人付款"', response.text) 
 
dianpumingcheng = re.findall('"nick":"(.*?)"', response.text) 
 
for i in range(44): 
   try: 
       if (fukuanrenshu[i] == '1.5萬+'): 
           f = 15000 
       elif (fukuanrenshu[i] == '1.0萬+'): 
           f = 10000 
       elif ('+' in fukuanrenshu[i]): 
           f = re.findall('\d+', fukuanrenshu[i]) 
       else: 
           f = fukuanrenshu[i] 
       if float(jiage[i]) > 10: 
           sheet.append([dianpumingcheng[i], shangpinming[i], float(jiage[i]), f

02數據清洗

01導入商品數據

用pandas讀取爬取后的商品數據并預覽。

df = pd.read_excel('褲衩男.xlsx',names=['店鋪名稱','商品名','價格','產地','付款人數']) 
print(df.head())

02刪除重復數據

df.drop_duplicates()

03查看數據類型

查看字段類型和缺失值情況，符合分析需要，無需另做處理。

df.info()

03數據可視化

我們來對這1741條大褲衩的數據進行可視化分析。

01在售的大褲衩的特點。

通過對大褲衩的商品名稱進行詞云圖繪制，志斌發現，大褲衩的主要特點是寬松，其次是休閑和運動。仔細想來，夏天的時候大家的穿著確實是比較寬松和休閑的。

02各省市產量分布圖

通過對各商品的產地數據進行統計并繪制了全國地圖，我們發現福建和浙江這兩個地方盛產大褲衩。

我們對這兩個省份的數據進行更一步的分析發現：福建省的大褲衩主產地在泉州，占據全省產量的70.4%

浙江省的大褲衩主產地在杭州，占據全省產量的87.4%。

03各價位商品數量圖

通過對商品價格進行分段可視化，我們可以看出100元以下的大褲衩占據全部市場的77.4%，可見大家對大褲衩的心理價位選擇普遍較低。

04大褲衩月銷量top20商家

通過對各商品月銷售量進行可視化分析，我們發現，巴布衫旗艦店的月銷量最多是10000。語克旗艦店的商品在月銷量top20中占據6個，top5中占據了3個，看來這個旗艦店的商品受大眾喜歡的類型更多。同時我們還能看出，用戶們更喜歡去旗艦店和專賣店進行購物。

05選擇合適的大褲衩并入手

經過以上的分析和對寶貝的評價、好評率等數據進行綜合考慮之后，志斌最終選擇購買這條大褲衩來入手。

05小結

1. 本文僅供學習研究使用，提供的評論僅供參考。如有不妥之處請及時告知作者。

2. 如需代碼，請聯系作者進行獲取。

責任編輯：武曉燕來源：志斌的python筆記

Python 數據分析

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

用Python分析了1741家大褲衩數據進行分析，終于找到可以買入那一條

01數據采集

02數據清洗

03數據可視化

05小結