成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

數據科學家必備:從回歸到CNN,簡明概述常見機器學習模型

人工智能
線性回歸旨在通過尋找一條“最佳擬合直線”,來建立自變量與因變量之間的關系。它使用最小二乘法(least square method),使所有數據點到直線的距離之和最小化。最小二乘法通過最小化殘差平方和(SSR,Sum of Squared Residuals),來確定最終的線性方程。

機器學習是現代人工智能的核心,支撐著從推薦系統到自動駕駛汽車等各類應用。但每一個智能應用背后,都離不開那些奠定基礎的模型。本文將為你簡明而全面地梳理關鍵的機器學習模型,幫助你系統掌握核心概念與應用。

線性回歸(Linear Regression)

線性回歸旨在通過尋找一條“最佳擬合直線”,來建立自變量與因變量之間的關系。它使用最小二乘法(least square method),使所有數據點到直線的距離之和最小化。最小二乘法通過最小化殘差平方和(SSR,Sum of Squared Residuals),來確定最終的線性方程。

例如,下圖中的綠色直線相比藍色直線擬合得更好,因為它與所有數據點的距離更小。

圖片圖片

Lasso 回歸(L1 正則化)

Lasso 回歸是一種正則化技術,通過在模型中引入一定的偏差來減少過擬合。它的做法是在最小化殘差平方差的基礎上,增加一個懲罰項,這個懲罰項等于 λ(lambda)乘以斜率的絕對值。這里的 λ 表示懲罰的強度,是一個可以調整的超參數,用來控制過擬合并獲得更好的擬合效果。

Lasso 回歸的代價函數Lasso 回歸的代價函數

當特征數量較多時,L1 正則化通常是更優的選擇,因為它可以忽略掉那些斜率值非常小的變量,從而實現特征選擇。

展示正則化對過擬合回歸線影響的圖表展示正則化對過擬合回歸線影響的圖表

Ridge 回歸(L2 正則化)

Ridge 回歸與 Lasso 回歸非常相似,唯一的區別在于懲罰項的計算方式。它在損失函數中增加了一個懲罰項,這個懲罰項等于各系數幅值的平方乘以 λ(lambda)。

Ridge 回歸的代價函數Ridge 回歸的代價函數

當數據中存在多重共線性(即自變量之間高度相關)時,L2 正則化是更好的選擇,因為它可以將所有系數收縮(Shrinkage)向零,從而緩解共線性問題。

Elastic Net 回歸

Elastic Net 回歸結合了 Lasso 回歸和 Ridge 回歸的懲罰項,從而得到一個更加正則化的模型。它可以在兩種懲罰之間取得平衡,通常比單獨使用 L1 或 L2 正則化獲得更優的模型性能。

圖片圖片

多項式回歸(Polynomial Regression)

多項式回歸將因變量與自變量之間的關系建模為一個 n 次多項式。多項式是由形如 k·x? 的各項之和組成的,其中 n 是非負整數,k 是常數,x 是自變量。多項式回歸主要用于處理非線性數據。

在非線性數據上擬合簡單線性回歸線與多項式回歸線的對比在非線性數據上擬合簡單線性回歸線與多項式回歸線的對比

邏輯回歸(Logistic Regression)

邏輯回歸是一種分類技術,旨在為數據找到最佳擬合曲線。它使用Sigmoid 函數將輸出值壓縮到 0 到 1 的范圍內。不同于線性回歸通過最小二乘法尋找最佳擬合直線,邏輯回歸采用最大似然估計(MLE)來確定最佳擬合曲線。

線性回歸與邏輯回歸在二分類輸出上的對比線性回歸與邏輯回歸在二分類輸出上的對比

K 近鄰算法(K-Nearest Neighbours,KNN)

KNN 是一種分類算法,它根據新數據點與已分類數據點之間的距離進行分類。它假設彼此接近的數據點具有高度相似性。

由于 KNN 在訓練階段僅存儲數據而不進行實際分類,直到遇到新的數據點進行預測,因此被稱為懶惰學習算法(lazy learner)

默認情況下,KNN 使用歐幾里得距離來尋找新數據點最近的已分類數據點,并通過最近鄰居中出現次數最多的類別(眾數)來確定新數據點的預測類別。

如果 k 值設置得過小,新數據點可能被誤判為異常值;如果 k 值設置得過大,則可能忽略樣本數量較少的類別。

應用 KNN 前后的數據分布變化應用 KNN 前后的數據分布變化

樸素貝葉斯(Naive Bayes)

樸素貝葉斯是一種基于貝葉斯定理的分類技術,主要用于文本分類。

貝葉斯定理描述了在已知與事件相關的條件的先驗知識基礎上,計算事件發生的概率。它的公式如下所示:

貝葉斯定理公式貝葉斯定理公式

樸素貝葉斯被稱為“樸素”的原因是,它假設某一特征的出現與其他特征的出現是相互獨立的。

支持向量機(Support Vector Machines,SVM)

支持向量機的目標是找到一個超平面,在 n 維空間(即特征的數量為 n)中將數據點分割成不同的類別。這個超平面是通過最大化類之間的邊距(即距離)來確定的。

支持向量是離超平面最近的數據點,它們能夠影響超平面的定位和方向,幫助最大化類之間的邊距。超平面的維度取決于輸入特征的數量。

支持向量機在線性可分數據上的應用支持向量機在線性可分數據上的應用

決策樹(Decision Tree)

決策樹是一種基于樹形結構的分類器,包含一系列條件語句,這些條件語句決定了樣本沿著哪條路徑走,直到到達樹的底部。

決策樹示例決策樹示例

決策樹的內部節點表示特征,分支表示決策規則,葉節點表示結果。樹的決策節點類似于 if-else 條件,葉節點包含決策節點的輸出。

決策樹的構建從選擇一個特征作為根節點開始,使用特征選擇度量(如 ID3 或 CART),然后遞歸地將剩余的特征與父節點進行比較,創建子節點,直到樹達到其葉節點。

隨機森林(Random Forest)

隨機森林是一種集成技術,由多個決策樹組成。在構建每個獨立的決策樹時,隨機森林使用了自助法(bagging)和特征隨機化,目的是創建一個無關的決策樹森林。

隨機森林中的每棵樹都是在數據的不同子集上訓練的,用于預測結果,然后選擇大多數樹投票的結果作為最終的預測值。

包含 4 個估計器的隨機森林分類器包含 4 個估計器的隨機森林分類器

例如,如果我們只創建了一棵決策樹,第二棵樹的預測結果為類 0,但依賴于四棵樹的眾數后,我們的預測結果變成了類 1,這就是隨機森林的強大之處。

極限隨機樹(Extra Trees)

極限隨機樹與隨機森林分類器非常相似,唯一的區別在于它們選擇根節點的方式。在隨機森林中,使用最優特征進行分割,而在極限隨機樹分類器中,隨機選擇特征進行分割。極限隨機樹提供了更多的隨機性,并且特征之間的相關性非常小。

另外,兩者的另一個區別是,隨機森林使用自助法(bootstrap replicas)生成大小為 N 的子集來訓練集成成員(決策樹),而極限隨機樹則使用整個原始樣本。

由于極限隨機樹在訓練到預測的整個過程中,每棵決策樹的操作都是相同的,并且隨機選擇分割點,因此它的計算速度比隨機森林快得多。

隨機森林與極限隨機樹的比較隨機森林與極限隨機樹的比較

ADA Boost

ADA Boost 是一種提升算法,它與隨機森林相似,但也有一些顯著的區別:

  • 與構建決策樹森林不同,ADA Boost 構建的是決策樹樁的森林。(決策樹樁是只有一個節點和兩個葉子的決策樹)
  • 每個決策樹樁在最終決策中被賦予不同的權重。
  • 它會對被錯誤分類的數據點賦予更高的權重,以便在構建下一個模型時,這些數據點能得到更多的關注。
  • 它有助于將多個“弱分類器”組合成一個強分類器。

提升集成學習算法的一般過程提升集成學習算法的一般過程

梯度提升(Gradient Boosting)

梯度提升通過構建多個決策樹,其中每棵樹都從前一棵樹的錯誤中學習。它使用殘差誤差來提高預測性能。梯度提升的整個目標是盡可能減少殘差誤差。

梯度提升與 ADA Boost 相似,兩者的區別在于,ADA Boost 構建決策樹樁,而梯度提升則構建具有多個葉子的決策樹。

梯度提升的過程從構建一棵基本的決策樹開始,并做出初步預測,通常使用平均值作為初始預測。然后,通過使用初始特征和殘差誤差作為自變量,創建新的一棵決策樹。對于新決策樹的預測,是通過將模型的初始預測加上樣本的殘差誤差乘以學習率得到的,整個過程會不斷重復,直到我們達到最小誤差為止。

K-Means 聚類

KMeans 聚類是一種無監督的機器學習算法,它將沒有標簽的數據分成 K 個不同的簇,其中 K 是用戶定義的整數。

它是一個迭代算法,通過使用簇的質心(centroid)將沒有標簽的數據劃分為 K 個簇,使得具有相似屬性的數據點屬于同一簇。

  1. 定義 K 并創建 K 個簇
  2. 計算每個數據點與 K 個質心的歐幾里得距離
  3. 將最近的數據點分配給質心,并創建一個簇
  4. 通過計算均值重新計算質心

使用不同 K 值的 K-Means 聚類對無標簽數據進行聚類使用不同 K 值的 K-Means 聚類對無標簽數據進行聚類

層次聚類(Hierarchical Clustering)

層次聚類是另一種基于聚類的算法,它以樹狀結構的形式創建簇的層次,以劃分數據。它自動發現數據之間的關系,并將它們劃分為 n 個不同的簇,其中 n 是數據的大小。

層次聚類有兩種主要方法:凝聚式(Agglomerative)和分裂式(Divisive)。

凝聚式和分裂式層次聚類在簇創建過程中的比較凝聚式和分裂式層次聚類在簇創建過程中的比較


在凝聚式聚類中,我們將每個數據點視為一個單獨的簇,然后將這些簇合并,直到只剩下一個簇(即完整的數據集)。而分裂式層次聚類則從整個數據集(視為一個單獨的簇)開始,然后將其劃分為不太相似的簇,直到每個數據點成為一個獨立的簇。

DBSCAN 聚類

DBSCAN(基于密度的空間聚類算法,帶噪聲)假設,如果一個數據點離一個簇的許多數據點比較近,而不是離某個單獨的點很近,那么該數據點屬于該簇。

圖片圖片

(圖:來自 Wikipedia 的 DBSCAN 聚類示例,minPts = 4。點 A 和其他紅點是核心點,因為這些點周圍的 ε 半徑內包含至少 4 個點(包括點 A 本身)。由于它們之間都可以相互到達,因此形成一個簇。點 B 和點 C 不是核心點,但可以通過其他核心點從 A 到達,因此它們也屬于這個簇。點 N 是噪聲點,既不是核心點,也不能直接從其他點到達。)

epsilon 和 min_points 是兩個重要的參數,用于將數據劃分為小簇。epsilon 指定了一個點需要與另一個點多近才能認為它是簇的一部分,而 min_points 則決定了形成一個簇所需的最小數據點數。

Apriori 算法

Apriori 算法是一種關聯規則挖掘算法,它通過分析數據項之間的依賴關系,將相關的數據項關聯在一起。

使用 Apriori 算法創建關聯規則的關鍵步驟包括:

  1. 確定每個大小為 1 的項集的支持度,其中支持度是數據集中項出現的頻率。
  2. 剪枝所有低于最小支持度閾值的項(由用戶決定)。
  3. 創建大小為 n+1 的項集(n 是前一個項集的大小),并重復步驟 1 和 2,直到所有項集的支持度都超過閾值。
  4. 使用置信度生成規則(即在已知 x 出現的情況下,x 和 y 一起出現的頻率)。

分層 K 折交叉驗證 (Stratified K-fold Cross-Validation)

分層 K 折交叉驗證是 K 折交叉驗證的一個變體,它使用分層抽樣(而非隨機抽樣)來創建數據的子集。在分層抽樣中,數據被劃分為 K 個不重疊的組,每個組的分布與整個數據集的分布相似。每個子集都會包含每個類標簽的相同數量的樣本,如下圖所示。

圖示:5 折分層交叉驗證圖示:5 折分層交叉驗證

分層抽樣的優點在于確保每一折的數據中都能代表各類標簽的分布,避免了類別不平衡問題,尤其是在處理類別不均衡的數據集時。通過這種方式,模型的訓練和驗證可以更好地反映數據的整體分布,從而提升模型的穩定性和性能。

主成分分析 (PCA)

主成分分析(PCA)是一種線性降維技術,它將一組相關的特征轉換為較少的(k<p)不相關的特征,這些不相關的特征被稱為主成分。通過應用PCA,我們會丟失一定量的信息,但它提供了許多好處,比如提高模型性能、減少硬件需求,并為數據可視化提供更好的理解機會。

PCA 降維的可視化示例PCA 降維的可視化示例

PCA 的核心思想是通過將數據投影到新的坐標系中,選擇數據方差最大的方向作為主成分,從而在減少維度的同時保留盡可能多的數據信息。可視化時,PCA 可以幫助我們將高維數據映射到二維或三維空間,從而更容易理解和分析。

人工神經網絡(ANN)

人工神經網絡(ANN)靈感來源于人類大腦的結構,由多層互聯的神經元組成。它們由輸入層、隱藏層和輸出層構成,每個神經元對傳入的數據應用權重和激活函數。由于能夠從數據中學習復雜的模式,人工神經網絡廣泛應用于圖像識別、自然語言處理和預測分析等任務。

多層人工神經網絡的示例多層人工神經網絡的示例

卷積神經網絡(CNN)

卷積神經網絡(CNN)是一種專門為圖像和視頻處理設計的神經網絡類型。與傳統的神經網絡不同,后者將每個像素作為獨立輸入,CNN使用卷積層掃描圖像,檢測邊緣、紋理和形狀等模式。這使得CNN在識別圖像中的物體時非常有效,即使物體在不同位置出現。CNN通過自動學習在視覺數據中識別模式,推動了面部識別、自動駕駛汽車和醫學圖像分析等技術的發展。

典型的CNN模型架構典型的CNN模型架構

Q學習(Q-Learning)

Q學習是一種強化學習算法,通過試驗和錯誤的方式幫助機器學習。它通常用于游戲AI、機器人技術和自學習交易機器人。其原理很簡單:“代理”(如機器人或游戲角色)與環境互動,嘗試不同的動作,并根據其選擇獲得獎勵或懲罰。隨著時間的推移,代理通過將所學的內容存儲在一個稱為Q表的表格中,學習在不同情況下采取最佳行動。這種技術廣泛應用于需要自主做出決策的AI系統,例如自動駕駛汽車在交通中導航,或者AI驅動的游戲角色學習如何下棋。

Q學習算法示例Q學習算法示例

詞頻-逆文檔頻率 (TF-IDF)

TF-IDF 是一種文本分析算法,旨在幫助識別文檔中的重要詞匯。它通過計算一個詞出現的頻率(詞頻,TF)以及該詞在所有文檔中出現的稀有程度(逆文檔頻率,IDF)來工作。這樣可以避免像“the”和“is”這樣的常見詞被賦予過高的權重,同時突顯出更有意義的詞匯。TF-IDF 廣泛應用于搜索引擎(如 Google、Bing)、關鍵詞提取和文檔排名,幫助系統理解哪些詞匯與特定主題最相關。

LDA(Latent Dirichlet Allocation)

LDA(Latent Dirichlet Allocation)是一種主題建模算法,用于在大量文本集合中發現隱藏的主題。它假設每篇文檔由不同的主題組成,而每個主題由一些經常一起出現的單詞構成。LDA 特別適用于新聞分類、學術論文分類和客戶評論分析,因為它有助于揭示大量非結構化文本中的潛在主題。如果你曾在研究工具中看到過自動主題建議功能,那么很可能它正在使用 LDA 來將相似的文本分組在一起。

圖片圖片

Word2Vec

Word2Vec 是一種自然語言處理(NLP)算法,通過將詞語轉換為數值向量,幫助計算機理解詞語的含義。與像 TF-IDF 這樣的舊方法只關注詞頻不同,Word2Vec 捕捉了詞語之間的語義關系。例如,它可以學會“king”和“queen”之間的關系,或者“Paris”與“France”之間的關系就像“Berlin”與“Germany”之間的關系一樣。這使得它在聊天機器人、情感分析和推薦系統中非常有用,因為理解詞語的含義和上下文至關重要。許多現代語言模型,包括用于 Google 翻譯和語音助手的模型,都依賴 Word2Vec 作為更深層次語言理解的基礎。

圖片圖片

以上是常用的簡明而全面地梳理關鍵的機器學習模型,幫助你系統掌握核心概念與應用。

責任編輯:武曉燕 來源: 新語數據故事會
相關推薦

2018-03-27 11:02:55

2016-08-02 17:00:12

Hadoop大數據系統

2017-08-04 15:53:10

大數據真偽數據科學家

2019-11-29 18:03:27

數學R語言算法

2018-10-18 09:00:00

機器學習機器學習算法數據科學家

2020-03-20 14:40:48

數據科學Python學習

2019-09-11 14:34:13

排序算法數據科學

2012-12-06 15:36:55

CIO

2018-12-24 08:37:44

數據科學家數據模型

2012-12-26 10:51:20

數據科學家

2019-03-25 21:18:41

數據科學家大數據技能

2020-07-19 15:17:41

機器學習技術工程師

2020-03-13 14:13:48

機器學習數據科學編程

2012-06-12 09:33:59

2018-10-16 14:37:34

數據科學家數據分析數據科學

2018-02-28 15:03:03

數據科學家數據分析職業

2019-01-03 14:10:12

數據科學家語言機器學習

2018-01-25 14:19:32

深度學習數據科學遷移學習

2024-04-25 16:01:17

機器學習人工智能

2020-12-18 07:42:30

機器學習數據科學
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: avhd101在线成人播放 | 手机在线不卡av | 亚洲国产精品久久 | 欧美在线视频一区 | a视频在线观看 | 欧美精品成人一区二区三区四区 | 日韩一区二区三区视频在线观看 | 国产日韩中文字幕 | 91资源在线 | 丁香五月缴情综合网 | 伊人一区 | 成人午夜免费福利视频 | 婷婷综合在线 | 久久久久久国产精品 | 国产在线观看 | 美女视频三区 | 成人自拍视频网站 | 国产日韩电影 | 91久久国产综合久久 | 久久com| 亚洲国产一区视频 | 一级女毛片| 精品国产乱码久久久久久丨区2区 | 美女操网站 | 天天干天天爱天天 | 成人h视频在线观看 | 久久999| 欧美日韩视频 | 国产91黄色 | xxx视频| 亚洲欧美一区二区三区视频 | 夜夜骑天天干 | 日韩精品一区在线观看 | 久久大陆 | 成人国产一区二区三区精品麻豆 | 久久狠狠 | 久久日韩精品一区二区三区 | 日韩欧美综合 | 亚洲字幕在线观看 | 国产精品久久精品 | 精品在线一区二区三区 |