機器學習入門算法：從線性模型到神經網絡

作者：機器之心 2017-03-10 12:16:46

近段時間以來，我們頻頻聽到「機器學習（machine learning）」這個詞（通常在預測分析（predictive analysis）和人工智能（artificial intelligence）的上下文中）。幾十年來，機器學習實際上已經變成了一門獨立的領域。由于現代計算能力的進步，我們最近才能夠真正大規模地利用機器學習。

機器學習是人工智能（artificial intelligence）的一種，其本質上講，就是計算機可以在無需編程的情況下自己學習概念（concept）。這些計算機程序一旦接觸新的數據，就將會改變它們的「思考」（或者輸出）。為了實現機器學習，算法是必需的。算法被寫入計算機并在其剖析數據時給與其需要遵循的規則。

機器學習算法經常被用于預測分析。在商業中，預測分析可以用于告訴企業未來最有可能發生什么。例如，使用預測分析算法，在線 T 恤零售商可以使用當前的數據來預測下個月他們將會售出多少 T 恤。

回歸或分類

雖然機器學習也可以用于其它的用途，但是我們將在本指南中著重于預測。預測是一種基于輸入變量來估計輸出變量的過程。比如，如果我們輸入特定房子的特征，則可以預測售價。

預測問題分為兩大類：

回歸問題（Regression Problems）：我們想要預測的變量是數字（例如，房子的價格）
分類問題（Classification Problems）：我們想要預測的變量是「是/否」的答案（例如，某一設備是否會經歷設備故障）

現在我們已經介紹了機器學習在預測方面的應用，我們可以討論機器學習算法，其分為 3 個組別：線性模型（linear models）、樹型模型（tree-based models）、和神經網絡（neural networks）。

什么是線性模型算法

image (1).png

線性模型使用簡單的公式通過一組數據點來查找「***擬合」線。通過你已知的變量方程（比如，原料），你可以求出你想要預測的變量（例如，烘烤蛋糕需要多長時間）。為了求出預測量，我們輸入已知的變量得到答案。換句話說，為了求出烘烤蛋糕需要多長時間，我們只需要輸入原料。

例如，要烘烤蛋糕，分析過后我們得到這個方程：t = 0.5x + 0.25y，其中 t 烤蛋糕的時間，x 為蛋糕糊的重量，y = 1 表示為巧克力蛋糕而 0 表示為非巧克力蛋糕。所以讓我們假設，我們有 1kg 的蛋糕糊并且我們想要一個巧克力蛋糕，我們輸入我們的數字來建立這個方程：t = 0.5(1) + (0.25)(1) = 0.75，即 45 分鐘。

有不同形式的線性模型算法，我們將要討論線性回歸（linear regression）和邏輯回歸（logistic regression）。

線性回歸

線性回歸，也稱為「最小二乘回歸（least squares regression）」，是線性模型的最標準的形式。對于回歸問題（我們設法預測的變量是數字），線性回歸是最簡單的線性模型。

邏輯回歸

邏輯回歸是為分類問題進行簡單調整過的線性回歸（我們設法預測的變量是「是/否」的答案）。由于其構造，邏輯回歸非常適合于分類問題

線性回歸和邏輯回歸的缺點

線性回歸和邏輯回歸都有著相同的缺點。兩者都具有「過擬合（overfit）」的趨勢，這意味著模型太適應于數據而犧牲了推廣到先前未知的數據的能力。因此，這兩個模型經常需要進行規范，這意味著它們有一定的懲罰（penalty）以防止過擬合。另一個線性模型的缺點是，因為它們太簡單了，所以往往不能預測更復雜的行為。

什么是樹型模型

image (2).png

樹型模型有助于探索數據集，并可視化預測的決策規則。當你聽到關于樹型模型的東西時，你可以將其想成是決策樹或分支操作序列。樹型模型高度精確、穩定且更易于解釋。與線性模型相反，它們可以映射非線性關系以求解問題。

決策樹（decision tree）

決策樹是一種使用分支方法（branching method）來顯示決策的每個可能結果的圖。例如，如果你想要訂購萵苣、澆頭和沙拉醬，決策樹可以繪制出所有可能的結果（或者你可能最終得到的沙拉的品種）。

為了創建或者訓練決策樹，我們采用我們過去訓練模型的數據，并找出哪些屬性可以***分割目標訓練集。

例如，我們在信用卡欺詐中使用決策樹。我們可以發現***的欺詐風險預測的屬性是消費明細（例如，有信用卡用戶有非常大的消費）。這可能是***次分割（或分支）——那些有著異常高消費的卡和沒有的卡。然后我們使用第二個***屬性（例如，經常使用的信用卡）來創建下一次分割。然后我們可以繼續直到我們有足夠的屬性來滿足我們的需要。

隨機森林（random forest）

隨機森林是許多決策樹的平均，每個決策樹都用數據的隨機樣本訓練。森林中的每個獨立的樹都比一個完整的決策樹弱，但是通過將它們結合，我們可以通過多樣性獲得更高的整體表現。

隨機森林是當今機器學習中非常流行的算法。它非常容易訓練（或構建），且它往往表現良好。它的缺點是，相比于其他算法，其輸出預測可能較慢。所以當你需要快如閃電般地預測，你也許不會使用它。

梯度提升（gradient boosting）

梯度提升和隨機森林類似，都是由「弱」決策樹構成的。***的區別是，在梯度提升中樹是被一個接一個相繼訓練的。每個隨后的樹主要用被先前樹錯誤識別的數據進行訓練。這使得梯度提升更少地集中在容易預測的情況并更多地集中在困難的情況。

梯度提升訓練速度也很快且表現非常好。然而，訓練數據的小變化可以在模型中產生徹底的改變，因此它可能不會產生最可解釋的結果。

什么是神經網絡

image (3).png

生物學中的神經網絡是互相交換信息的相互連接的神經元。這個想法現在已經適用于機器學習的世界，并被稱為人工神經網絡（ANN）。深度學習（deep learning）是一個經常出現的詞，是指幾層連續放置的人工神經網絡。

人工神經網絡（ANN）包含了許多可以學習類似人腦的認知能力的模型。其它算法不能處理的極其復雜的任務（如圖像識別），神經網絡就可以辦到。然而，就像人類的大腦，它需要很長時間來訓練模型，且需要很多的能量（想一想我們為了保持大腦的工作，我們吃了多少東西）。

責任編輯：張燕妮來源：機器之心

機器學習

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

機器學習入門算法：從線性模型到神經網絡