成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

使用Python從頭開始構(gòu)建決策樹算法

開發(fā) 前端
決策樹(Decision Tree)是一種常見的機器學(xué)習(xí)算法,被廣泛應(yīng)用于分類和回歸任務(wù)中。并且再其之上的隨機森林和提升樹等算法一直是表格領(lǐng)域的最佳模型,所以本文將介紹理解其數(shù)學(xué)概念,并在Python中動手實現(xiàn),這可以作為了解這類算法的基礎(chǔ)知識。

決策樹(Decision Tree)是一種常見的機器學(xué)習(xí)算法,被廣泛應(yīng)用于分類和回歸任務(wù)中。并且再其之上的隨機森林和提升樹等算法一直是表格領(lǐng)域的最佳模型,所以本文將介紹理解其數(shù)學(xué)概念,并在Python中動手實現(xiàn),這可以作為了解這類算法的基礎(chǔ)知識。

在深入研究代碼之前,我們先要了解支撐決策樹的數(shù)學(xué)概念:熵和信息增益

熵:雜質(zhì)的量度

熵作為度量來量化數(shù)據(jù)集中的雜質(zhì)或無序。特別是對于決策樹,熵有助于衡量與一組標簽相關(guān)的不確定性。數(shù)學(xué)上,數(shù)據(jù)集S的熵用以下公式計算:

Entropy(S) = -p_pos * log2(p_pos) - p_neg * log2(p_neg)

P_pos表示數(shù)據(jù)集中正標簽的比例,P_neg表示數(shù)據(jù)集中負標簽的比例。

更高的熵意味著更大的不確定性或雜質(zhì),而更低的熵意味著更均勻的數(shù)據(jù)集。

信息增益:通過拆分提升知識

信息增益是評估通過基于特定屬性劃分數(shù)據(jù)集所獲得的熵的減少。也就是說它衡量的是執(zhí)行分割后標簽確定性的增加。

數(shù)學(xué)上,對數(shù)據(jù)集S中屬性a進行分割的信息增益計算如下:

Information Gain(S, A) = Entropy(S) - ∑ (|S_v| / |S|) * Entropy(S_v)

S 表示原始數(shù)據(jù)集,A表示要拆分的屬性。S_v表示屬性A保存值v的S的子集。

目標是通過選擇使信息增益最大化的屬性,在決策樹中創(chuàng)建信息量最大的分割。

在Python中實現(xiàn)決策樹算法

有了以上的基礎(chǔ),就可以使用Python從頭開始編寫Decision Tree算法。

首先導(dǎo)入基本的numpy庫,它將有助于我們的算法實現(xiàn)。

import numpy as np

創(chuàng)建DecisionTree類

class DecisionTree:
    def __init__(self, max_depth=None):
        self.max_depth = max_depth

定義了DecisionTree類來封裝決策樹。max_depth參數(shù)是樹的最大深度,以防止過擬合。

def fit(self, X, y, depth=0):
        n_samples, n_features = X.shape
        unique_classes = np.unique(y)
         
        # Base cases
        if (self.max_depth is not None and depth >= self.max_depth) or len(unique_classes) == 1:
            self.label = unique_classes[np.argmax(np.bincount(y))]
            return

擬合方法是決策樹算法的核心。它需要訓(xùn)練數(shù)據(jù)X和相應(yīng)的標簽,以及一個可選的深度參數(shù)來跟蹤樹的深度。我們以最簡單的方式處理樹的生長:達到最大深度或者遇到純類。

確定最佳分割屬性,循環(huán)遍歷所有屬性以找到信息增益最大化的屬性。_information_gain方法(稍后解釋)幫助計算每個屬性的信息增益。

best_attribute = None
 best_info_gain = -1
 for feature in range(n_features):
            info_gain = self._information_gain(X, y, feature)
            if info_gain > best_info_gain:
                best_info_gain = info_gain
                best_attribute = feature

處理不分割屬性,如果沒有屬性產(chǎn)生正的信息增益,則將類標簽分配為節(jié)點的標簽。

if best_attribute is None:
            self.label = unique_classes[np.argmax(np.bincount(y))]
            return

分割和遞歸調(diào)用,下面代碼確定了分割的最佳屬性,并創(chuàng)建兩個子節(jié)點。根據(jù)屬性的閾值將數(shù)據(jù)集劃分為左右兩個子集。

self.attribute = best_attribute
 self.threshold = np.median(X[:, best_attribute])
 
 left_indices = X[:, best_attribute] <= self.threshold
    right_indices = ~left_indices
 
    self.left = DecisionTree(max_depth=self.max_depth)
    self.right = DecisionTree(max_depth=self.max_depth)
 
    self.left.fit(X[left_indices], y[left_indices], depth + 1)
    self.right.fit(X[right_indices], y[right_indices], depth + 1)

并且通過遞歸調(diào)用左子集和右子集的fit方法來構(gòu)建子樹。

預(yù)測方法使用訓(xùn)練好的決策樹進行預(yù)測。如果到達一個葉節(jié)點(帶有標簽的節(jié)點),它將葉節(jié)點的標簽分配給X中的所有數(shù)據(jù)點。

def predict(self, X):
        if hasattr(self, 'label'):
            return np.array([self.label] * X.shape[0])

當遇到非葉節(jié)點時,predict方法根據(jù)屬性閾值遞歸遍歷樹的左子樹和右子樹。來自雙方的預(yù)測被連接起來形成最終的預(yù)測數(shù)組。

is_left = X[:, self.attribute] <= self.threshold
        left_predictions = self.left.predict(X[is_left])
        right_predictions = self.right.predict(X[~is_left])
         
        return np.concatenate((left_predictions, right_predictions))

下面兩個方法是決策樹的核心代碼,并且可以使用不同的算法來進行計算,比如ID3 算法使用信息增益作為特征選擇的標準,該標準度量了將某特征用于劃分數(shù)據(jù)后,對分類結(jié)果的不確定性減少的程度。算法通過遞歸地選擇信息增益最大的特征來構(gòu)建決策樹,也就是我們現(xiàn)在要演示的算法。

_information_gain方法計算給定屬性的信息增益。它計算分裂后子熵的加權(quán)平均值,并從父熵中減去它。

def _information_gain(self, X, y, feature):
        parent_entropy = self._entropy(y)
         
        unique_values = np.unique(X[:, feature])
        weighted_child_entropy = 0
         
        for value in unique_values:
            is_value = X[:, feature] == value
            child_entropy = self._entropy(y[is_value])
            weighted_child_entropy += (np.sum(is_value) / len(y)) * child_entropy
         
        return parent_entropy - weighted_child_entropy

熵的計算

def _entropy(self, y):
        _, counts = np.unique(y, return_counts=True)
        probabilities = counts / len(y)
        return -np.sum(probabilities * np.log2(probabilities))

_entropy方法計算數(shù)據(jù)集y的熵,它計算每個類的概率,然后使用前面提到的公式計算熵。

常見的算法還有:

C4.5 是 ID3 的改進版本,C4.5 算法在特征選擇時使用信息增益比,這是對信息增益的一種歸一化,用于解決信息增益在選擇特征時偏向于取值較多的特征的問題。

CART 與 ID3 和 C4.5 算法不同,CART(Classification And Regression Tree)又被稱為分類回歸樹,算法采用基尼不純度(Gini impurity)來度量節(jié)點的不確定性,該不純度度量了從節(jié)點中隨機選取兩個樣本,它們屬于不同類別的概率。

ID3、C4.5 和 CART 算法都是基于決策樹的經(jīng)典算法,像Xgboost就是使用的CART 作為基礎(chǔ)模型。

總結(jié)

以上就是使用Python中構(gòu)造了一個完整的決策樹算法的全部。決策樹的核心思想是根據(jù)數(shù)據(jù)的特征逐步進行劃分,使得每個子集內(nèi)的數(shù)據(jù)盡量屬于同一類別或具有相似的數(shù)值。在構(gòu)建決策樹時,通常會使用一些算法來選擇最佳的特征和分割點,以達到更好的分類或預(yù)測效果。

責任編輯:華軒 來源: DeepHub IMBA
相關(guān)推薦

2017-02-23 08:45:36

Python決策樹數(shù)據(jù)集

2022-06-01 23:21:34

Python回歸樹數(shù)據(jù)

2022-11-11 08:00:00

決策樹機器學(xué)習(xí)監(jiān)督學(xué)習(xí)

2013-01-08 11:02:26

IBMdW

2020-06-11 08:32:50

Python遺傳算法代碼

2024-09-26 16:51:23

2017-12-12 12:24:39

Python決策樹

2013-05-23 10:10:53

PHP5.5PHP編譯php

2020-11-02 13:54:41

Python可視化決策樹

2021-06-04 22:43:32

Python本地搜索

2022-11-14 10:49:33

Linux發(fā)行版

2022-07-22 07:18:53

代碼DeepMind

2009-05-08 09:40:07

網(wǎng)易魔獸暴雪

2023-03-06 16:07:19

梯度提升算法機器學(xué)習(xí)

2024-03-01 13:49:00

數(shù)據(jù)訓(xùn)練

2024-06-24 07:50:00

代碼機器學(xué)習(xí)

2020-10-18 07:15:53

Python異常檢測算法開發(fā)

2017-07-18 16:25:31

機器學(xué)習(xí)算法決策樹

2017-05-10 15:41:29

機器學(xué)習(xí)算法數(shù)據(jù)

2020-11-17 08:09:01

webpack配置項腳手架
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 亚洲九九色 | 久久久青草婷婷精品综合日韩 | 国产精品伦理一区二区三区 | 中文字幕一区二区在线观看 | 蜜桃臀av一区二区三区 | 日本大片在线播放 | 欧美在线免费 | 午夜丁香视频在线观看 | 国产精品欧美一区二区三区不卡 | 欧美日韩在线一区二区 | 日韩视频一区二区三区 | av入口 | 四虎影院久久 | av看片网站 | 精品三区 | 国产高清性xxxxxxxx | 亚洲高清在线 | 国产美女精品视频免费观看 | 国产精品一区二区日韩 | 欧美精品一区二区在线观看 | 国产精品久久久久久久久久久久冷 | 国产精品不卡一区二区三区 | 欧美性tv | 国产精品大片 | 国产精品久久欧美久久一区 | 日韩中文字幕 | 激情一区二区三区 | 国精久久 | 久久不卡日韩美女 | 国产精品久久久久久久久久久新郎 | 欧美极品在线观看 | 久久久蜜桃一区二区人 | 9色视频在线 | 一级毛片免费看 | 中文字幕在线一区 | 一区二区三区视频播放 | 久久久国产一区二区三区 | 中文在线www| 亚洲小视频 | 欧美一级久久 | 91精品国产综合久久久久久蜜臀 |