成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

使用Python從頭開始構(gòu)建決策樹算法

作者：Matteo Possamai 2023-08-11 17:30:54

開發(fā) 前端

決策樹（Decision Tree）是一種常見的機器學(xué)習(xí)算法，被廣泛應(yīng)用于分類和回歸任務(wù)中。并且再其之上的隨機森林和提升樹等算法一直是表格領(lǐng)域的最佳模型，所以本文將介紹理解其數(shù)學(xué)概念，并在Python中動手實現(xiàn)，這可以作為了解這類算法的基礎(chǔ)知識。

決策樹(Decision Tree)是一種常見的機器學(xué)習(xí)算法，被廣泛應(yīng)用于分類和回歸任務(wù)中。并且再其之上的隨機森林和提升樹等算法一直是表格領(lǐng)域的最佳模型，所以本文將介紹理解其數(shù)學(xué)概念，并在Python中動手實現(xiàn)，這可以作為了解這類算法的基礎(chǔ)知識。

在深入研究代碼之前，我們先要了解支撐決策樹的數(shù)學(xué)概念:熵和信息增益

熵：雜質(zhì)的量度

熵作為度量來量化數(shù)據(jù)集中的雜質(zhì)或無序。特別是對于決策樹，熵有助于衡量與一組標簽相關(guān)的不確定性。數(shù)學(xué)上，數(shù)據(jù)集S的熵用以下公式計算:

Entropy(S) = -p_pos * log2(p_pos) - p_neg * log2(p_neg)

P_pos表示數(shù)據(jù)集中正標簽的比例，P_neg表示數(shù)據(jù)集中負標簽的比例。

更高的熵意味著更大的不確定性或雜質(zhì)，而更低的熵意味著更均勻的數(shù)據(jù)集。

信息增益：通過拆分提升知識

信息增益是評估通過基于特定屬性劃分數(shù)據(jù)集所獲得的熵的減少。也就是說它衡量的是執(zhí)行分割后標簽確定性的增加。

數(shù)學(xué)上，對數(shù)據(jù)集S中屬性a進行分割的信息增益計算如下:

Information Gain(S, A) = Entropy(S) - ∑ (|S_v| / |S|) * Entropy(S_v)

S 表示原始數(shù)據(jù)集，A表示要拆分的屬性。S_v表示屬性A保存值v的S的子集。

目標是通過選擇使信息增益最大化的屬性，在決策樹中創(chuàng)建信息量最大的分割。

在Python中實現(xiàn)決策樹算法

有了以上的基礎(chǔ)，就可以使用Python從頭開始編寫Decision Tree算法。

首先導(dǎo)入基本的numpy庫，它將有助于我們的算法實現(xiàn)。

import numpy as np

創(chuàng)建DecisionTree類

class DecisionTree:
    def __init__(self, max_depth=None):
        self.max_depth = max_depth

定義了DecisionTree類來封裝決策樹。max_depth參數(shù)是樹的最大深度，以防止過擬合。

def fit(self, X, y, depth=0):
        n_samples, n_features = X.shape
        unique_classes = np.unique(y)
         
        # Base cases
        if (self.max_depth is not None and depth >= self.max_depth) or len(unique_classes) == 1:
            self.label = unique_classes[np.argmax(np.bincount(y))]
            return

擬合方法是決策樹算法的核心。它需要訓(xùn)練數(shù)據(jù)X和相應(yīng)的標簽，以及一個可選的深度參數(shù)來跟蹤樹的深度。我們以最簡單的方式處理樹的生長：達到最大深度或者遇到純類。

確定最佳分割屬性，循環(huán)遍歷所有屬性以找到信息增益最大化的屬性。_information_gain方法(稍后解釋)幫助計算每個屬性的信息增益。

best_attribute = None
 best_info_gain = -1
 for feature in range(n_features):
            info_gain = self._information_gain(X, y, feature)
            if info_gain > best_info_gain:
                best_info_gain = info_gain
                best_attribute = feature

處理不分割屬性，如果沒有屬性產(chǎn)生正的信息增益，則將類標簽分配為節(jié)點的標簽。

if best_attribute is None:
            self.label = unique_classes[np.argmax(np.bincount(y))]
            return

分割和遞歸調(diào)用，下面代碼確定了分割的最佳屬性，并創(chuàng)建兩個子節(jié)點。根據(jù)屬性的閾值將數(shù)據(jù)集劃分為左右兩個子集。

self.attribute = best_attribute
 self.threshold = np.median(X[:, best_attribute])
 
 left_indices = X[:, best_attribute] <= self.threshold
    right_indices = ~left_indices
 
    self.left = DecisionTree(max_depth=self.max_depth)
    self.right = DecisionTree(max_depth=self.max_depth)
 
    self.left.fit(X[left_indices], y[left_indices], depth + 1)
    self.right.fit(X[right_indices], y[right_indices], depth + 1)

并且通過遞歸調(diào)用左子集和右子集的fit方法來構(gòu)建子樹。

預(yù)測方法使用訓(xùn)練好的決策樹進行預(yù)測。如果到達一個葉節(jié)點(帶有標簽的節(jié)點)，它將葉節(jié)點的標簽分配給X中的所有數(shù)據(jù)點。

def predict(self, X):
        if hasattr(self, 'label'):
            return np.array([self.label] * X.shape[0])

當遇到非葉節(jié)點時，predict方法根據(jù)屬性閾值遞歸遍歷樹的左子樹和右子樹。來自雙方的預(yù)測被連接起來形成最終的預(yù)測數(shù)組。

is_left = X[:, self.attribute] <= self.threshold
        left_predictions = self.left.predict(X[is_left])
        right_predictions = self.right.predict(X[~is_left])
         
        return np.concatenate((left_predictions, right_predictions))

下面兩個方法是決策樹的核心代碼，并且可以使用不同的算法來進行計算，比如ID3 算法使用信息增益作為特征選擇的標準，該標準度量了將某特征用于劃分數(shù)據(jù)后，對分類結(jié)果的不確定性減少的程度。算法通過遞歸地選擇信息增益最大的特征來構(gòu)建決策樹，也就是我們現(xiàn)在要演示的算法。

_information_gain方法計算給定屬性的信息增益。它計算分裂后子熵的加權(quán)平均值，并從父熵中減去它。

def _information_gain(self, X, y, feature):
        parent_entropy = self._entropy(y)
         
        unique_values = np.unique(X[:, feature])
        weighted_child_entropy = 0
         
        for value in unique_values:
            is_value = X[:, feature] == value
            child_entropy = self._entropy(y[is_value])
            weighted_child_entropy += (np.sum(is_value) / len(y)) * child_entropy
         
        return parent_entropy - weighted_child_entropy

熵的計算

def _entropy(self, y):
        _, counts = np.unique(y, return_counts=True)
        probabilities = counts / len(y)
        return -np.sum(probabilities * np.log2(probabilities))

_entropy方法計算數(shù)據(jù)集y的熵，它計算每個類的概率，然后使用前面提到的公式計算熵。

常見的算法還有：

C4.5 是 ID3 的改進版本，C4.5 算法在特征選擇時使用信息增益比，這是對信息增益的一種歸一化，用于解決信息增益在選擇特征時偏向于取值較多的特征的問題。

CART 與 ID3 和 C4.5 算法不同，CART(Classification And Regression Tree)又被稱為分類回歸樹，算法采用基尼不純度(Gini impurity)來度量節(jié)點的不確定性，該不純度度量了從節(jié)點中隨機選取兩個樣本，它們屬于不同類別的概率。

ID3、C4.5 和 CART 算法都是基于決策樹的經(jīng)典算法，像Xgboost就是使用的CART 作為基礎(chǔ)模型。

總結(jié)

以上就是使用Python中構(gòu)造了一個完整的決策樹算法的全部。決策樹的核心思想是根據(jù)數(shù)據(jù)的特征逐步進行劃分，使得每個子集內(nèi)的數(shù)據(jù)盡量屬于同一類別或具有相似的數(shù)值。在構(gòu)建決策樹時，通常會使用一些算法來選擇最佳的特征和分割點，以達到更好的分類或預(yù)測效果。

責任編輯：華軒來源： DeepHub IMBA

決策樹機器學(xué)習(xí)算法

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

主站蜘蛛池模板：亚洲九九色 | 久久久青草婷婷精品综合日韩 | 国产精品伦理一区二区三区 | 中文字幕一区二区在线观看 | 蜜桃臀av一区二区三区 | 日本大片在线播放 | 欧美在线免费 | 午夜丁香视频在线观看 | 国产精品欧美一区二区三区不卡 | 欧美日韩在线一区二区 | 日韩视频一区二区三区 | av入口 | 四虎影院久久 | av看片网站 | 精品三区 | 国产高清性xxxxxxxx | 亚洲高清在线 | 国产美女精品视频免费观看 | 国产精品一区二区日韩 | 欧美精品一区二区在线观看 | 国产精品久久久久久久久久久久冷 | 国产精品不卡一区二区三区 | 欧美性tv | 国产精品大片 | 国产精品久久欧美久久一区 | 日韩中文字幕 | 激情一区二区三区 | 国精久久 | 久久不卡日韩美女 | 国产精品久久久久久久久久久新郎 | 欧美极品在线观看 | 久久久蜜桃一区二区人 | 9色视频在线 | 一级毛片免费看 | 中文字幕在线一区 | 一区二区三区视频播放 | 久久久国产一区二区三区 | 中文在线www| 亚洲小视频 | 欧美一级久久 | 91精品国产综合久久久久久蜜臀 |