7大分類,40多個關鍵概念,入門機器學習要掌握的概念都在這里了
不知道大家有沒有這樣的感覺:在我們學習的時候,經常學了就忘,忘了再學,彷佛進入了死循環。明明都學了,結果就是記不住。有時候都想往自己的腦袋里植入一個儲存器,想學什么就往腦子里復制,這樣多好。
機器學習就是這樣一個例子。很多時候,我們在學習過程中迷失了方向,從而失去了繼續學習的動力。許多概念需要系統化。但是今天,我想為大家介紹機器學習的所有概念,這些概念將有助于你更快地了解這個領域。這篇文章將適合那些剛剛入門并且已經在實踐中開始使用機器學習的人。
概述:
- 動機
- 分類
- 問題類型
- 類
- 性能分析
- 算法
- 調試
廢話不多說,讓我們直接開始吧!
機器學習概念
這些概念中的每一個都會引出其他更小的衍生概念。在這里,我會為每一個術語給出最短和最簡單的定義:
1、動機
動機對于機器學習來說很重要,因為它形成了模型與數據進行比較的過程。機器學習的動機有兩種方法:
- 預測。非線性模型認為,海帶的預測變量可以作為判別結果的輸入,但不是每種方式的輸入都會影響預測。例如,以預測為導向的觀點最適合回答這樣一個問題:我的車是被高估還是低估了?如果對此應用推論,模型的可解釋性將大大降低。
- 推斷。線性模型來區分影響預測的每個輸入的方式。例如,它會給你一個精確的答案:如果我的車能在沒有車頂的情況下行駛,它會花多少錢?通過比較模型的預測結果,推斷比非線性預測更容易理解。
2、分類
與其他方法一樣,訓練機器學習算法的方法也各不相同,而且各有優缺點:
- 監督學習。任務驅動型方法,在這個過程中,計算機由“老師”提供示例輸入及其期望的輸出,目標是學習將輸入映射到輸出的一般規則。
- 無監督學習。數據驅動型方法,目標是通過對數據中的底層結構或分布進行建模來了解更多有關數據的信息。它可以是兩種類型:發現數據中隱藏的模式,也可以是達到目的的方法(特征學習)。
- 強化學習。此類別基于從錯誤中學習,該錯誤使用獎勵和懲罰系統訓練算法。
3、問題類型
如果要深入研究機器學習類別,還有五種其他類型的問題:
- 回歸。我們需要預測連續響應值的監督問題?;貧w擬合數據并給出映射的所有特征點的答案,如果預測值趨向于一個連續的值,那么它就會下降。例如:給出區域名稱、土地面積等作為特征,并預測土地的預期成本。
- 分類。監督問題,其主要目的是分離數據。如果預測值趨向于是/否、正/負等類別,那么它就屬于機器學習中的分類問題。例如,給定一個句子來預測它是否定的還是正面的。
- 集群。無監督問題,我們將相似的事物組合到一個給定數量的簇中。對于這些分數,我們不會給出答案。示例:給定3、4、8、9,并且簇的數目為2,那么機器學習系統可以將給定的集合分成簇1–3,4和簇2–8,9。
- 密度估計。它是在觀測數據的基礎上,對一個不可觀測的潛在概率密度函數的估計。查找輸入在某個空間中的分布。
- 降維。通過將輸入映射到低維空間來簡化輸入。
4、類
機器學習算法可分為參數或非參數:
- 參數化-有固定數量的參數,分兩步完成:
第一步:假設我們的函數(f)的函數形式或形狀,即:f是線性的,因此我們將選擇一個線性模型。
第二步:選擇一個程序來適應或訓練我們的模型。這意味著估計線性函數中的β參數。一種常見的方法是(普通)最小二乘法。
- 非參數化-使用靈活數量的參數,參數的數量通常隨著它從更多數據中學習而增長。由于這些方法并不能將f的估計問題簡化為少量的參數,因此需要大量的觀測數據來獲得f的精確估計。例如薄板樣條模型。
5、性能分析
算法的性能分析是計算該算法所需的空間和時間的過程。算法的性能分析采用以下措施:
- 混淆矩陣-通常用于描述分類模型(或“分類器”)在已知真實值的一組測試數據上的性能的表。
- 準確度。正確預測的一部分,當數據集不平衡時(即不同類別中的樣本數量變化很大)不可靠
- f1分數-測試準確性的另一個衡量標準,其計算依據是:1)精度-在分類器標記為陽性的所有示例中,哪個分數是正確的?2) 回憶一下。在所有的正面例子中,分類器提取了什么分數?
- ROC曲線-接收器工作特性。真陽性率(回憶/敏感性)vs假陽性率(1-特異性)
- 偏差-方差權衡-一組預測模型的特性,其中參數估計偏差較低的模型在樣本間的參數估計方差較高,反之亦然。
- 均方誤差(MSE)-測量誤差或偏差平方的平均值-即估計值與估計值之間的差值。
- 錯誤率。在分類環境下,應用估計模型的錯誤率函數是訓練觀測值的函數。
6、算法
機器學習真正有趣的部分來了!以下內容能夠幫助你如何將機器學習付諸實踐:
- 決策樹學習-通過一種算法方法來構建,該方法根據不同的條件識別數據集的分割方法。
- 關聯規則學習-一種基于規則的機器學習和數據挖掘技術,可以發現數據集中變量或特征之間的重要關系。
- 人工神經網絡-一種信息處理模型,其靈感來源于生物神經系統,如大腦,處理信息的方式。
- 深度學習-網絡能夠在無監督的情況下從非結構化或未標記的數據中學習。它教計算機通過層過濾輸入,學習如何預測和分類信息。
- 歸納邏輯編程-使用邏輯編程作為統一的表示,例如,背景知識和假設。
- 支持向量機-分析用于分類和回歸分析的數據。
- 聚類-將一組對象分組的任務,使同一組(稱為群集)中的對象彼此之間(在某種意義上)比其他組(簇)中的對象更相似(在某種意義上)。
- 貝葉斯網絡-通過有向無環圖表示一組變量及其條件依賴關系的概率圖形模型。
- 強化學習-通過與環境互動來學習。
- 特征學習-允許從原始數據中發現特征檢測或分類所需的表示。
- 相似性和度量學習-學習度量兩個對象的相似性函數。
- 稀疏字典學習-旨在尋找輸入數據的稀疏表示形式的基本元素的線性組合。
- 遺傳算法-一個受自然選擇過程啟發的元啟發式算法。
- 基于規則的機器學習-一種數據驅動的方法,使用標記的文本語料庫和他們的情感來預測。
- 學習分類器系統-結合發現組件和學習組件。
7、調試
調試是為學習算法選擇一組最佳超參數的問題。這是它的組成部分:
交叉驗證—一種用于評估統計分析結果如何概括為獨立數據集的技術。一輪交叉驗證涉及將數據樣本劃分為互補的子集,對一個子集(稱為訓練集)執行分析,并對另一個子集(稱為驗證集或測試集)進行分析驗證。
方法:Leave-p-out交叉驗證,Leave-one-out交叉驗證,k倍交叉驗證,Holdout方法和重復隨機采樣驗證。
超參數-一個參數,其值用于控制學習過程。相反,其他參數的值(通常是節點權重)是通過訓練得出的??梢允褂靡韵路椒▽ζ溥M行優化:
1)網格搜索。傳統方式只是簡單地窮舉搜索學習算法的超參數空間的手動指定子集。
2)隨機搜索。它只是簡單地對參數設置進行采樣,發現在高維空間中,進行固定次數要比窮舉搜索更為有效。
3)基于梯度的優化。對于特定的學習算法,可以計算相對于超參數的梯度,然后使用梯度下降優化超參數。
正則化(提前停止)-提前停止規則可指導學習者開始過度擬合之前可以運行多少次迭代,然后停止算法。
過度擬合。當模型學習訓練數據中的細節和噪聲時,會在一定程度上影響新數據上模型的性能,因此會發生這種情況。
欠擬合(Underfitting)。模型從訓練數據中“學習不足”的情況下,導致泛化率低和預測不可靠。
引導。它是使用替換隨機抽樣并屬于更廣泛的重采樣方法的任何測試或度量。自舉法將準確性的度量(偏差,方差,置信區間,預測誤差等)分配給樣本估計。
套袋(bagging)。它是一種集成的機器學習算法,結合了許多決策樹的預測。
總結
以上內容基本上包含了機器學習的全部知識點,溫故而知新,學過的東西如果不回過來看一下,說不定哪天就徹底忘記了。希望以上內容能給大家提供幫助~