輕松選擇合適的機器學習算法

譯文

作者：布加迪 2022-03-17 17:08:05

人工智能機器學習

機器學習方面沒有免費的午餐。因此，確定使用哪種算法取決于許多因素：從手頭的問題類型，到預期的輸出類型。本文介紹了您在為數據集探究合適的機器學習方法時，須關注的幾個考量因素。

作者丨Yogita Kinha

編譯丨布加迪

策劃丨孫淑娟

如何選擇合適的機器學習算法?

這個問題沒有直接而明確的答案。答案取決于許多因素，比如問題陳述和您想要的輸出類型、數據的類型和大小、可用的計算時間、特征數量以及數據中的觀測等。

以下是選擇算法時要考慮的幾個重要因素。

1.訓練數據的大小

通常建議收集大量數據以獲得可靠的預測。然而，數據的可用性往往是制約因素。因此，如果訓練數據較小，或者數據集的觀測數量較少，特征數量較多(比如遺傳或文本數據)，應選擇高偏差 / 低方差的算法，比如線性回歸、樸素貝葉斯或線性 SVM。

如果訓練數據足夠大，觀測數量與特征數量相比較多，可以選擇低偏差 / 高方差算法，比如 KNN、決策樹或內核 SVM。

2.輸出的準確性及 / 或可解釋性

模型的準確性意味著函數預測給定觀測的響應值，這個響應值接近該觀測的實際響應值。高度可解釋的算法(線性回歸等限制性模型)意味著，人們可以輕松理解任何單個預測變量如何與響應相關聯，而靈活的模型提供了更高的準確性，但是以低可解釋性為代價。

圖 1. 使用不同的統計學習方法，表示了準確性和可解釋性之間的取舍

一些算法稱為限制性算法，因為它們生成映射函數的一小批形狀。比如說，線性回歸是一種限制性方法，因為它只能生成直線等線性函數。

一些算法稱為靈活性算法，因為它們生成映射函數的一大批形狀。比如說，k=1 的 KNN 非常靈活，因為它會考慮每個輸入數據點以生成映射輸出函數。下圖顯示了靈活性算法和限制性算法之間的取舍。

圖 2. 使用不同的統計學習方法，表示了靈活性和可解釋性之間的取舍

現在，使用哪種算法取決于業務問題的目標。如果目標是推理，限制性模型更好，因為它們極易于解釋。如果目標是更高的準確性，靈活性模型更好。隨著某種方法的靈活性提高，其可解釋性一般會降低。

3.速度或訓練時間

更高的準確性通常意味著更長的訓練時間。此外，算法需要更多時間來訓練龐大的訓練數據。在實際應用中，算法的選擇主要取決于這兩個因素。

樸素貝葉斯、線性和邏輯回歸等算法易于實現，且運行迅速。像需要調整參數的 SVM、高收斂時間的神經網絡和隨機森林等算法需要大量的時間來訓練數據。

4.線性

許多算法的運作基于這個假設：類可以被一條直線(或更高維度的模擬)來分隔。示例包括邏輯回歸和支持向量機。線性回歸算法假設數據趨勢遵循一條直線。如果數據是線性的，這些算法的性能就相當不錯。

然而，數據并不總是線性的，因此我們需要可以處理高維和復雜數據結構的其他算法。例子包括內核 SVM、隨機森林和神經網絡。

找出線性的最佳方法是擬合線性線，或者運行邏輯回歸或 SVM，以檢查剩余錯誤。較多的錯誤意味著數據不是線性的，需要復雜的算法來擬合。

5.特征數量

數據集可能有大量特征，這些特征可能并非全部相關、重要。針對某種類型的數據，比如遺傳數據或文本數據，與數據點的數量相比，特征的數量可能非常大。

大量特征會阻礙一些學習算法，從而使訓練時間過長。SVM 更適合具有大片特征空間和較少觀測的數據。應該使用 PCA 和特征選擇技術，以降低維度，并選擇重要的特征。

這是一份方便的速查表，詳細表明了可用于不同類型的機器學習問題的算法。

機器學習算法可以分為監督學習、無監督學習和強化學習，我在之前的博客中討論過(https://www.edvancer.in/understanding-artificial-intelligence-machine-learning-and-data-science/)。這篇文章逐步介紹了如何使用速查表的過程速查表主要分為兩種學習類型：

在訓練數據具有對應于輸入變量的輸出變量這種情況下，采用監督學習算法。該算法分析輸入數據，并學習函數，以映射輸入變量和輸出變量之間的關系。

監督學習可以進一步分為回歸、分類、預測和異常檢測。

當訓練數據沒有響應變量時，使用無監督學習算法。這類算法試圖找到數據中的內在模式和隱藏結構。聚類算法和降維算法是兩類典型的無監督學習算法。

下面的信息圖簡單地解釋了回歸、分類、異常檢測和聚類以及可以運用這每一種算法的示例。

嘗試解決新問題時須考慮的要點如下：

定義問題。問題的目標是什么?
探索數據，并熟悉數據。
從基本模型開始，構建基準模型，然后嘗試較復雜的方法。

話雖如此，始終記得“更好的數據常常勝過更好的算法”。設計好的特征同等重要。嘗試一堆算法，并比較各自的性能，為您的具體任務選擇最佳算法。此外，嘗試集成學習(ensemble)方法，因為這種方法提供的準確性通常好得多。

責任編輯：武曉燕來源： AI深一度

機器學習算法類型

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看