成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

機器學習中必知必會的 8 種降維技術,最后一款超硬核!

人工智能 機器學習
探索性數據分析是數據科學模型開發管道的重要組成部分。數據科學家將大部分時間花在數據清洗、特征工程和執行其他數據整理技術上。降維是數據科學家在執行特征工程時使用的技術之一。

 降維是將高維數據集轉換為可比較的低維空間的過程,真實的數據集通常有很多冗余特征,降維技術可用于去除這些冗余特征或將n維數據集轉換為2維或3維進行可視化。

在本文中,我們將討論8種降維技術,它們可以用于各種用例來降低數據集的維度。

1. 缺失值

真實的數據集通常包含大量缺失記錄,這可能是由于記錄數據時數據損壞或保存失敗造成的。我們可以嘗試各種數據插補技術來填補缺失的記錄,但這僅在特征缺失數量有限時有效。

如果缺失特征值的數量大于指定的閾值,則最好從訓練數據中刪除該特征。我們可以刪除所有缺失特征記錄大于閾值(比如50%)的特征,從而降低數據的維度。

 

 


缺失值的可視化:白線表示存在缺失值

 

 

上述缺失值解釋圖像是使用themissingno包為titanic數據生成的。特征“Age”和“Cabin”有大量缺失記錄,最終,它們可以從訓練樣本中去除。

2.相關性濾波器

一個或多個特征的相關性較高說明其具有相似的變化趨勢且可能包含相似的信息,它會破壞自變量的統計顯著性,我們可以刪除與其他獨立特征相關的特征,還可以刪除與目標類標簽不相關的特征。

有多種技術可以計算獨立特征之間的相關性,包括 Pearson、Spearman、Kendall、卡方檢驗等。

 

 


相關矩陣的熱圖

 

 

上述相關矩陣熱圖(針對titanic數據集)是使用df.corr()函數計算的。

3.方差濾波器

只有一個特征類別的分類特征或方差很小的數值特征變量,這些特征不會對我們的模型有一定的提升,可以從訓練樣本中刪除。

函數DataFrame.var()可以計算 Pandas 數據幀的所有特征的方差。DataFrame.value_counts()函數可以計算每個特征的分布。

4.前向/后向特征選擇

前向特征選擇技術是一種選擇最佳特征集的包裝技術。這是一個循序漸進的過程,特征是根據上一步的推斷來選擇的。前向特征選擇技術的步驟是:

1.使用每個特征分別訓練機器學習模型,并測量每個模型的性能。

2.獲取性能最佳的特征并使用其余特征重新訓練單個模型。

3.重復這個過程并一次添加一個特征,產生性能最佳的特征被保留。

4.重復步驟 2 和 3,直到模型的性能沒有明顯的改善。

 

 


前向特征選擇

 

 

后向特征選擇技術類似于前向特征選擇,但工作方式正好相反,最初選擇所有特征,并在每一步中刪除最冗余的特征。

5.主成分分析

主成分分析 (PCA) 是一種非常古老的降維技術。PCA 通過保留特征的方差將特征向量投影到低維空間,它找到最大方差的方向以獲得最佳特征列表。PCA 可用于將非常高維的數據投影到所需的維度。PCA算法的步驟是:

  • 標準化數據集
  • 計算標準化數據集的協方差矩陣
  • 計算協方差矩陣的特征值和特征向量
  • 取特征向量與具有高特征值的特征向量的點積。

6.t-SNE

t-SNE(t-分布式隨機鄰域嵌入)是一種降維技術,主要用于數據可視化。t-SNE將高維的數據集轉換為可以進一步可視化的二維或三維向量。

t-SNE 的性能優于 PCA,因為它保留了數據的局部結構,并通過保留鄰域局部結構將每個數據點從較高維度嵌入到較低維度空間。

更多內容可以查看:https://distill.pub/2016/misread-tsne/

7.UMAP

 

UMAP(Uniform Manifold Approximation)是一種新的降維技術,它是一種非常有效的可視化和可伸縮降維算法,其工作方式與 t-SNE 類似,但是它保留了更多全局結構、具有優越的運行性能、更好的可擴展性。

更多詳情:https://umap-learn.readthedocs.io/en/latest/basic_usage.html

8.自動編碼器(Auto Encoder )

自動編碼器(Auto Encoder )是一種基于單層感知器的降維方法。它有兩個組成部分:壓縮(編碼器)和擴展(解碼器)。輸入層和輸出層的節點數量相同,而中間層的神經元數量少于輸入層和輸出層。

 

數據集被傳遞到自動編碼器神經網絡模型,并被編碼到較低維度的隱藏層。然后它嘗試從簡化的編碼中生成盡可能接近其原始輸入的表示。中間層是減少到可比較的較低維度的向量。

總結

在本文中,我們討論了基于特征選擇的降維方法、基于組件的降維技術、基于投影的方法,最后是基于神經網絡的自動編碼器。ISOMAP 是另一種基于投影的降維方法,其工作方式類似于 UMAP 和 t-SNE。SVD 和 ISO 是其他一些基于組件的降維技術。

責任編輯:華軒 來源: 機器學習社區
相關推薦

2021-01-20 15:43:01

機器學習深度學習科學

2021-04-18 22:06:29

機器學習算法數據

2022-08-26 14:46:31

機器學習算法線性回歸

2024-02-19 15:28:33

機器學習線性降維

2024-02-19 14:37:14

機器學習非線性降維

2017-07-12 15:32:12

大數據大數據技術Python

2023-12-26 12:10:13

2020-08-23 18:18:27

Python列表數據結構

2018-05-04 08:20:39

機器學習深度學習人工智能

2023-10-13 00:00:00

設計模式GO語言

2020-07-10 07:58:14

Linux

2024-11-15 11:11:48

2020-04-21 10:11:12

運維體系趨勢

2024-01-03 07:56:50

2021-05-24 08:00:00

機器學習數據云計算

2022-05-18 09:01:19

JSONJavaScript

2022-07-27 11:10:27

Kubectl命令運維

2018-03-28 14:33:33

數據分析師工具Spark

2018-12-28 09:11:28

運維監控開源

2018-10-26 14:10:21

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 九九九久久国产免费 | 亚洲一区二区在线 | 成人免费视频久久 | 欧美一级做a爰片免费视频 国产美女特级嫩嫩嫩bbb片 | 九九亚洲 | 在线免费观看黄a | 97av| 成人特区| 国产伦精品一区二区三区照片91 | 亚洲欧洲成人av每日更新 | 亚洲精品第一 | 综合精品久久久 | 午夜精品久久久久久久 | 欧美aaaaaaaaaa| 亚洲一区二区视频 | 久久精品欧美视频 | 国产第一页在线观看 | 成人在线视频一区 | 国产小视频在线看 | 免费看av大片 | 久久久婷 | 粉嫩av在线 | 二区国产| 亚洲区一区二区 | 欧美日一区二区 | 韩国精品在线观看 | 国产最新视频在线 | 中文字幕在线观看第一页 | 在线看中文字幕 | 欧美日韩一区二区三区不卡视频 | 殴美黄色录像 | 成人黄色av | 成人激情免费视频 | 在线视频国产一区 | 综合久久99 | 手机三级电影 | 国产午夜精品一区二区三区嫩草 | 99久久久无码国产精品 | 成人欧美一区二区三区白人 | 欧美一区二区黄 | 国产精品久久久久久久久久免费 |