成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

利用Python進行商品的親和性分析

開發 后端
就目前而言,大數據已經越來越流行了,我們不管在什么領域上都能接觸到數據的,并且現在很多企業已經累計了大量的數據。很多人開始朝向大數據開發以及大數據分析這兩個方向發展了。

[[396687]]

本文轉載自微信公眾號「菜J學Python」,作者J哥、小屁孩i 。轉載本文請聯系菜J學Python公眾號。 

大家好,我是J哥。

如今這個社會是一個數字社會,在各大領域里面最為顯著的應該是數據吧。就目前而言,大數據已經越來越流行了,我們不管在什么領域上都能接觸到數據的,并且現在很多企業已經累計了大量的數據。很多人開始朝向大數據開發以及大數據分析這兩個方向發展了。

那么也許你會問,哪這兩個方向更加值得轉行呢?很多人也在這兩個方向糾結,在這里我想告訴你們的是,沒有什么是最優選擇,你感興趣的才是最好的選擇。這邊,我選擇的是大數據分析!現在讓我們進入數據分析的一個環節——數據挖掘。

01數據挖掘簡介

數據挖掘旨在讓計算機根據已有數據做出決策。決策可以是預測明年的銷量,人口的數目,攔截垃圾郵件,檢測網站的語言。到目前為止,數據挖掘已經有很多的應用,即使這樣很多新的應用領域也在不斷出現。

數據挖掘涉及到算法,最優策略,統計學,工程學和計算機科學相關領域的知識。除此之外我們還會用到語言學,神經科學,城市規劃等其他領域的概念或知識。想要充分發揮數據挖掘的威力,算法肯定是必備的。(在這里推薦讀者去刷一刷LeetCode)

一般來說數據挖掘有這三個基本步驟:1、創建數據集。數據集能直接反應一些真實事件;2、選擇算法。選擇一個合適的算法才能更好的對數據進行處理;3、優化算法。每種數據挖掘算法都有參數,它們或是算法自身包含的,或是使用者添加的,這些參數會影響算法的具體決策。

02親和性分析案例

現在讓我們用一個例子說明。不知道你逛超市的時候,是否發現超市里面基本上都是按照商品的種類來分區域的,然而有些東西是存在例外的,一件商品的旁邊擺放著不一樣種類的商品。不知道你是否有發現這個現象,有沒有對此感到不解。這邊我想跟你說的是,這種擺放也是有道理的,這個道理是商品之間的親和性!

前置知識:

  1. (1)defaultdict(int):初始化為 0     
  2. (2)defaultdict(float):初始化為 0.0    
  3. (3)defaultdict(str):初始化為 '' 

這里的defaultdict(function_factory)構建的是一個類似dictionary的對象其中keys的值,自行確定賦值,但是values的類型,是function_factory的類實例而且具有默認值。比如default(int)則創建一個類似dictionary對象里面任何的values都是int的實例,而且就算是一個不存在的key, d[key] 也有一個默認值,這個默認值是int()的默認值0。

03代碼實現

現在進行代碼部分:

  1. import  numpy as np 
  2. from collections import defaultdict 
  3. dataset_filename = "affinity_dataset.txt" 
  4. features = ["bread","milk","cheese","apple","banana"]  #猜一下這個是干嘛用的 
  5. X = np.loadtxt(dataset_filename) 
  6. print(X[:5])   #打印前五行的購物信息 

統計一下購買蘋果和香蕉的人數:

  1. num_apple_purchases = 0 # 初始化一個購買蘋果人數的變量 
  2. for sample in X: 
  3.     if sample[3] == 1: 
  4.         num_apple_purchases+=1 
  5. print("{0} people bought Apples ".format(num_apple_purchases)) 
  6. num_banana_purchases = 0 
  7. for sample in X: 
  8.     if sample[4] == 1: 
  9.         num_banana_purchases += 1 
  10. print("{0} people bought banana".format(num_banana_purchases)) 

現在為了計算規則的置信度還有支持度,我們可以用字典的形式來存放計算結果:

  1. valid_rules = defaultdict(int
  2. invalid_rules = defaultdict(int
  3. num_occurances = defaultdict(int
  4. for sample in X: 
  5.     for premise in range(4): 
  6.         if sample[premise] ==0 : 
  7.             continue 
  8.         num_occurances[premise] +=1  #當顧客有購買物品時key對應的時value變為1 
  9.         for conclusion in range(4): 
  10.             if premise == conclusion:  #訪問同一個key 的時候是沒有意義的直接跳過 
  11.                 continue 
  12.             if sample[conclusion] == 1: 
  13.                 valid_rules[(premise,conclusion)] +=1 
  14.             else
  15.                 invalid_rules[(premise,conclusion)] +=1 

得到所有必要的統計量后,我們再來計算每條規則的支持度和置信度。如前所述,支持度就是規則應驗的次數:

  1. support = valid_rules 
  2. #置信度的計算方法類似,遍歷每條規則進行計算 
  3. confidence = defaultdict(float
  4. for premise,conclusion in valid_rules.keys(): 
  5.     rule = (premise,conclusion) 
  6.     confidence[rule] = valid_rules[rule]/num_occurances[premise] 

聲明一個函數,接收的參數有:分別作為前提條件和結論的特征索引值、支持度字典、置信度字典以及特征列表。

  1. def print_rule(premise, conclusion,support , confidence,features): 
  2.     premise_name = features[premise] 
  3.     conclusion_name = features[conclusion] 
  4.     print("Rule:if a person buys {0} they will also buy {1} ".format(premise_name,conclusion_name)) 
  5.     print(" - Support : {0}".format(support[(premise,conclusion)])) 
  6.     print(" - Confidence : {0:.3f}".format(confidence[(premise,conclusion)])) 
  7. premise = 1 
  8. conclusion = 3 
  9. features = ["bread","milk","cheese","apple","banana"
  10. print_rule(premise,conclusion,support,confidence,features) 
  11.  
  12. from  operator import itemgetter 
  13. sorted_support = sorted(support.items(),key=itemgetter(1),reverse=True

排序完成后,就可以輸出支持度最高的前5條規則:

  1. for index in range(5): 
  2.     print("Rule #{0}".format(index+1)) 
  3.     premise,conclusion = sorted_support[index][0] 
  4.     print_rule(premise,conclusion,support,confidence,features) 

以上就是我們這次所學的數據挖掘之商品親和性分析了。

 

責任編輯:武曉燕 來源: 菜J學Python
相關推薦

2009-03-04 09:11:20

類型親和性類型約束SQLite

2013-01-28 15:17:51

Windows Ser虛擬機

2024-03-05 10:34:33

KubernetesPod云原生

2009-10-26 10:00:08

2023-09-27 22:33:40

KubernetesK8S

2023-09-24 22:47:42

Kubernetes親和性

2020-06-05 14:29:07

PythonPandas數據分析

2021-06-15 08:02:55

Linux 進程管理

2020-12-25 15:24:24

人工智能

2022-09-27 14:46:03

網絡安全計算機惡意軟件

2009-02-04 10:30:47

2020-07-08 15:10:11

Python數據分析代碼

2012-11-02 16:19:10

2023-09-18 15:54:56

Python機器學習

2009-07-04 21:19:04

2021-01-20 08:30:00

數據分析機器學習IT

2020-02-20 10:45:51

Python數據疾病

2014-03-31 10:51:40

pythonasyncio

2020-12-17 09:45:54

數據分析互聯網大數據

2024-06-24 21:18:48

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: www.一区二区三区 | 一级做a毛片 | 久久久久久久久99 | av网站免费看 | 欧美一级网站 | 久久黄网 | 九九久久国产精品 | 国产欧美精品一区二区三区 | jdav视频在线观看免费 | 超碰欧美 | 四虎永久| www.色午夜.com | 黄色大片免费观看 | 亚洲精品乱码久久久久久黑人 | 嫩草影院网址 | 国产高清一区二区三区 | 国产精品久久久乱弄 | 精品在线一区 | 黑人粗黑大躁护士 | 国内自拍第一页 | 丝袜一区二区三区 | 午夜大片 | av片网站 | 精品国产一级 | 亚洲精品一 | 亚洲精品视频一区 | 亚洲天天干 | 国产福利精品一区 | 一区二区精品 | 天天亚洲 | 国产精品久久久久久久久久久久久 | 婷婷91| 国产伦精品一区二区三区视频金莲 | 天天操网 | 看片一区| 资源首页二三区 | 福利视频网站 | 亚洲午夜三级 | 国产视频久久 | 不卡一区 | 中文字幕高清 |