成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

機器學習:使用 Python 進行分類

人工智能 機器學習 后端
機器學習(ML)就是,分析一組數據以預測結果。Python 被認為是 ML 的最佳編程語言選擇之一。在本文中,我們將討論使用 Python 進行分類的機器學習。

假設你想教孩子區分蘋果和橙子。有多種方法可以做到這一點。你可以讓孩子觸摸這兩種水果,讓他們熟悉形狀和柔軟度。你還可以向她展示蘋果和橙子的多個例子,以便他們可以直觀地發現差異。這個過程的技術等價物被稱為機器學習。

機器學習教計算機解決特定問題,并通過經驗變得更好。這里討論的示例是一個分類問題,其中機器被賦予各種標記示例,并期望使用它從標記樣本中獲得的知識來對未標記樣本進行標記。機器學習問題也可以采用回歸的形式,其中期望根據已知樣本及其解決方案來預測給定問題的實值real-valued解決方案。分類Classification和回歸Regression被廣泛稱為監督學習supervised learning。機器學習也可以是無監督unsupervised的,機器識別未標記數據中的模式,并形成具有相似模式的樣本集群。機器學習的另一種形式是強化學習reinforcement learning,機器通過犯錯從環境中學習。

分類

分類是根據從已知點獲得的信息來預測一組給定點的標簽的過程。與一個數據集相關的類別或標簽可以是二元的,也可以是多元的。舉例來說,如果我們必須給與一個句子相關的情緒打上標簽,我們可以把它標記為正面、負面或中性。另一方面,我們必須預測一個水果是蘋果還是橘子的問題將有二元標簽。表
1 給出了一個分類問題的樣本數據集。

在該表中,最后一列的值,即貸款批準,預計將基于其他變量進行預測。在接下來的部分中,我們將學習如何使用 Python 訓練和評估分類器。

年齡

信用等級

工作

擁有房產

貸款批準

35

32

22

一般

42

表 1

訓練和評估分類器

為了訓練分類器classifier,我們需要一個包含標記示例的數據集。盡管本節不涉及清理數據的過程,但建議你在將數據集輸入分類器之前閱讀各種數據預處理和清理技術。為了在 Python 中處理數據集,我們將導入 ??pandas?? 包和數據幀DataFrame結構。然后,你可以從多種分類算法中進行選擇,例如決策樹decision tree、支持向量分類器support vector classifier、隨機森林random forest、XG boost、ADA boost 等。我們將看看隨機森林分類器,它是使用多個決策樹形成的集成分類器。

    from sklearn.ensemble import RandomForestClassifier
from sklearn import metrics

classifier = RandomForestClassifier()

#creating a train-test split with a proportion of 70:30
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33)

classifier.fit(X_train, y_train) # 在訓練集上訓練分類器

y_pred = classifier.predict(X_test) # 用未知數據評估分類器

print("Accuracy: ", metrics.accuracy_score(y_test, y_pred)) # 用測試計劃中的實際值比較準確率

雖然這個程序使用準確性作為性能指標,但應該使用多種指標的組合,因為當測試集不平衡時,準確性往往會產生非代表性的結果。例如,如果模型對每條記錄都給出了相同的預測,而用于測試模型的數據集是不平衡的,即數據集中的大多數記錄與模型預測的類別相同,我們就會得到很高的準確率。

調整分類器

調優是指修改模型的超參數hyperparameter值以提高其性能的過程。超參數是可以改變其值以改進算法的學習過程的參數。

以下代碼描述了隨機搜索超參數調整。在此,我們定義了一個搜索空間,算法將從該搜索空間中選擇不同的值,并選擇產生最佳結果的那個:

    from sklearn.model_selection import RandomizedSearchCV
#define the search space
min_samples_split = [2, 5, 10]
min_samples_leaf = [1, 2, 4]
grid = {‘min_samples_split’ : min_samples_split, ‘min_samples_leaf’ : min_samples_leaf}
classifier = RandomizedSearchCV(classifier, grid, n_iter = 100)
# n_iter 代表從搜索空間提取的樣本數
# result.best_score 和 result.best_params_ 可以用來獲得模型的最佳性能,以及參數的最佳值
classifier.fit(X_train, y_train)

投票分類器

你也可以使用多個分類器和它們的預測來創建一個模型,根據各個預測給出一個預測。這個過程(只考慮為每個預測投票的分類器的數量)被稱為硬投票。軟投票是一個過程,其中每個分類器產生一個給定記錄屬于特定類別的概率,而投票分類器產生的預測是獲得最大概率的類別。

下面給出了一個創建軟投票分類器的代碼片段:

    soft_voting_clf = VotingClassifier(
estimators=[(‘rf’, rf_clf), (‘ada’, ada_clf), (‘xgb’, xgb_clf), (‘et’, et_clf), (‘gb’, gb_clf)],
voting=’soft’)
soft_voting_clf.fit(X_train, y_train)

這篇文章總結了分類器的使用,調整分類器和結合多個分類器的結果的過程。請將此作為一個參考點,詳細探討每個領域。

責任編輯:龐桂玉 來源: Linux中國
相關推薦

2022-08-15 15:16:20

機器學習圖片深度學習

2022-06-09 09:14:31

機器學習PythonJava

2020-02-03 08:00:00

機器學習人工智能AI

2019-09-30 10:12:21

機器學習數據映射

2018-06-14 14:05:48

機器學習大數據卡通上色

2022-10-30 15:00:40

小樣本學習數據集機器學習

2023-02-06 18:28:09

機器學習模型

2024-10-30 16:59:57

Python機器學習

2018-01-04 13:07:43

Python機器學習情感分析

2022-02-13 00:27:34

機器學習數字隱私技術

2017-06-22 09:53:01

機器學習Python樸素貝葉斯

2021-03-10 14:21:33

人工智能機器學習算法

2019-01-23 11:45:47

機器學習人工智能機器人

2017-09-17 23:14:41

機器學習人工智能設計

2020-12-24 06:54:45

Python機器學習多類分類邏輯回歸

2016-01-11 10:44:38

惡意軟件惡意軟件分析

2020-12-25 15:24:24

人工智能

2021-06-17 10:27:03

人工智能AI機器學習

2024-04-17 08:00:00

2022-09-20 23:42:15

機器學習Python數據集
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 奇米久久| 亚洲色图第一页 | 亚洲精品久久久久中文字幕二区 | 久久精品视频在线免费观看 | 欧美日韩综合视频 | 国产乱码精品一品二品 | 亚洲国产一区二区三区在线观看 | 成年无码av片在线 | 成人av一区二区在线观看 | av一级久久 | 国内自拍第一页 | 一区二区在线 | 亚洲国产精品久久久久婷婷老年 | 午夜三区 | 国产精品久久久久av | av综合站 | 国产精品久久久久久久久久久免费看 | 久久精品中文字幕 | 91精品一区二区三区久久久久久 | 国产激情91久久精品导航 | 国产片一区二区三区 | 日韩欧美在线视频 | 欧美二区乱c黑人 | 精品国产一区二区三区性色av | 中文字幕一区二区三区不卡 | 精品成人免费视频 | 羞羞视频网站在线观看 | 日本在线看 | 国产精品久久久久久久久久久久午夜片 | 一区二区三区四区在线 | 久久99深爱久久99精品 | 中文字幕综合在线 | 免费在线一区二区三区 | 国产xxxx岁13xxxxhd | 精品电影| 免费毛片网 | 超碰97av| 国产一级在线 | 国产精品亚洲视频 | 99亚洲综合 | 91麻豆精品国产91久久久资源速度 |