成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

啟動機器學習/深度學習項目的八種方法

譯文
人工智能 機器學習
從探索性的數據分析到自動機器學習(AutoML),組織需要使用這些技術來推動其數據科學項目發展,并建立更好的模型。

[[392342]]

【51CTO.com快譯】從探索性的數據分析到自動機器學習(AutoML),組織需要使用這些技術來推動其數據科學項目發展,并建立更好的模型。

你需要對數據進行分類還是預測結果?你的機器學習項目啟動有困難嗎?有許多技術可以幫助你解決問題。

在以下討論的八種方法中,一些方法將會顯著加快機器學習過程,而另外一些方法不僅可以加快過程,而且還可以幫助你構建更好的模型。并非所有這些方法都適用于給定的項目,但一定不能忽略探索性數據分析。

以下是啟動機器學習或深度學習項目的8種方法:

1.從探索性數據分析開始

在沒有深入檢查數據的情況下直接進入機器學習訓練,就像沒有在體育比賽時熱身一樣,而在這一過程中需要完成很多工作。

探索性數據分析結合了圖形和統計方法。一些更常見的技術包括單個變量的直方圖和盒須圖、變量對的散點圖以及描述性統計圖,例如,變量之間的相關性作為成對相關性的熱圖。

探索性數據分析還可以包括降維技術,例如主成分分析(PCA)和非線性降維(NLDR)。對于基于時間的數據,還需要基于時間繪制原始變量和統計數據的折線圖,其中除了其他事項外,還可以突出季節和周期的變化以及風暴和流行病等外部因素引起的異常跳躍。

探索性數據分析不僅僅是統計圖形。這是一種數據分析的哲學方法,旨在幫助你保持開放的態度,而不是試圖將數據強加到模型中。如今,探索性數據分析的許多思想已被納入到數據挖掘中。

2.構建無監督集群

聚類分析是一個無監督的學習問題,它要求模型查找相似數據點的集群。當前使用幾種聚類算法往往具有略微不同的特征。通常情況下,聚類算法查看數據點的特征向量之間的度量或距離函數,然后將彼此“接近”的度量或距離函數進行分組。如果類不重疊,則聚類算法最有效。

最常見的聚類方法之一是k-均值,它試圖使用歐幾里得的距離度量將n個觀測值劃分為k個聚類,目的是最小化每個聚類中的方差(平方和)。這是矢量量化的一種方法,對于特征學習很有用。

勞埃德(Lloyd)算法(帶有質心更新的迭代集群集聚)是解決這一問題的最常用的啟發式算法,雖然效率較高,但不能保證全局收斂。為了改善這一點,人們經常使用由Forgy方法或隨機劃分方法生成的隨機初始簇質心多次運行該算法。

k-均值假設球狀簇是可分離的,因此其均值向簇中心收斂,并且還假設數據點的順序無關緊要。集群的大小應該相似,因此對最近的集群中心的分配是正確的。

如果k-均值聚類不適合,那么需要考慮使用層次聚類分析、混合模型或DBSCAN。還應考慮其他類型的無監督學習,例如自動編碼器和矩量方法。

3.使用半監督學習標記數據

標記數據是機器學習的必要條件。如果沒有標記數據,則無法訓練模型來預測目標值。而一個簡單的方法是人工標記所有數據,但這并不經濟可行。

而一種成本較低的方法是人工標記一些數據,然后嘗試使用一個或多個模型預測其余的目標值。這稱之為半監督學習。使用自訓練算法(一種半監督學習),可以從單個模型中以高于某個閾值的概率接受任何預測值,并使用現在更大的訓練數據集來構建精確模型。然后將該模型用于另一輪預測,再進行迭代,直到沒有更多的預測為止。自我訓練有時是有效的,而在其他時候,該模型因錯誤的預測而受到損壞。

如果你構建多個模型并使用它們進行相互檢查,則可以采用更健壯的方法,例如三重訓練。另一種選擇是將半監督學習與基于不同數據構建的現有模型的轉移學習相結合。

你可以自己實現這些方案中的任何一個。或者可以將Web服務與受過訓練的標記數據一起使用,例如Amazon SageMaker Ground Truth、Hive Data、Labelbox、Dataloop和Datasaur。

4.添加補充數據集

外部性通常可以揭示數據集中的異常情況,特別是時間序列數據集。例如,如果將天氣數據添加到自行車租賃數據集,能夠解釋許多偏差,例如暴雨期間租金的急劇下降。

預測零售額還提供了其他很好的例子。銷售行為、競爭產品、廣告變化、經濟事件和天氣都可能影響銷售。總之,如果數據沒有意義,添加一些場景,也許所有內容都會變得更加清晰。

5.嘗試采用自動機器學習(AutoML)

找到最佳數據模型的唯一方法是訓練每種可能的模型,然后看看哪種模型排在首位。對于許多類型的數據,尤其是帶標簽的表格數據,可以將自動機器學習(AutoML)工具指向數據集,稍后再返回以獲得一些很好的答案。有時,最好的模型將是其他模型的集合,這可能會導致成本高昂,但是,最好的簡單模型通常與該集合幾乎一樣好,并且運行起來成本低得多。

在幕后,自動機器學習(AutoML)服務不只是盲目嘗試每個合適的模型。例如,一些自動創建標準化和工程化的特征集,估算缺失值,刪除相關特征,并添加用于時間序列預測的滯后列。另一個可選活動是對一些最佳模型執行超參數優化,以進一步改善它們。為了在指定的時間內獲得最佳結果,某些自動機器學習(AutoML)服務可以迅速終止對沒有太大改進的模型的訓練,并將更多的周期投入到看起來更有希望的模型中。

6.通過轉移學習定制訓練有素的模型

從頭開始訓練大型神經網絡通常需要大量數據(數百萬個訓練項目并不罕見)、大量時間和計算資源(使用多個服務器GPU需要花費數周的時間)。一種強大的捷徑叫轉移學習,它是通過用新數據訓練網絡頂部的一些新層,或者從網絡中提取特征,并使用這些特征來訓練簡單的線性分類器,來定制經過訓練的神經網絡。這可以使用云計算服務(例如Azure自定義視覺或自定義語言理解)來完成,也可以利用通過使用TensorFlow或PyTorch創建的經過訓練的神經網絡庫來完成。而遷移學習或微調通常可以在單個GPU上在幾分鐘之內完成。

7.嘗試在“Model Zoo”中進行深度學習算法

即使你無法使用首選的云計算服務或深度學習框架輕松地通過轉移學習來創建所需的模型,仍然可以避免從頭開始設計和訓練深度神經網絡模型的麻煩。大多數主要框架的原生模型庫Model Zoo比其模型API更為廣泛。甚至有一些網站為多個框架或任何可以處理特定表示形式的框架(例如ONNX0)維護Model Zoo。

在Model Zoo中,人們會發現許多模型都經過了充分的訓練,并且隨時可以使用。但是,有些快照是部分訓練的快照,其權重可作為使用自己的數據集進行訓練的起點。

8.優化模型的超參數

第一次訓練模型通常不會結束流程。機器學習模型通常可以通過使用不同的超參數進行改進,而最佳模型可以通過超參數優化或調整來找到。這并不是真正的起步,但它是從早期不太好的模型過渡到更好模型的一種方法。

超參數是模型外部的參數,用于控制學習過程。模型內部的參數(例如節點權重)是在模型訓練期間學習的。超參數優化本質上是為給定模型找到最佳的超參數集的過程。優化的每個步驟都需要重新訓練模型,并獲得損失函數的值。

重要的超參數取決于模型和模型中使用的優化器。例如,學習速率是神經網絡的一個常見超參數,除非優化器在不同的時間段控制學習速率。對于徑向基核函數和支持向量機分類器,超參數可以是正則化參數和核函數常數。

超參數優化器可以使用多種搜索算法。網格搜索是傳統的方法:一方面,網格搜索需要大量訓練才能覆蓋多個超參數的所有組合;另一方面,如果有足夠的計算資源,則所有訓練都可以并行運行。隨機搜索有時會更有效,并且也很容易并行化。其他替代方法包括貝葉斯優化、梯度下降、進化優化和提前停止算法。

總而言之,可以使用探索性數據分析開始模型構建過程。使用無監督學習來了解有關數據和功能的更多信息。嘗試使用自動機器學習(AutoML)可以快速測試許多模型。如果需要深度神經網絡模型,需要先嘗試進行轉移學習或Model Zoo,然后再嘗試從頭開始設計和訓練自己的網絡。如果找到認為很好的模型,可以嘗試通過超參數調整對其進行改進。然后,可以在生產中試用該模型,并對其進行監控。

而這還沒有真正結束。隨著時間的推移,數據或概念會由于實際事件而漂移,因此需要優化和重新訓練模型。人們甚至可能會發現,不同類型的模型更適合新數據。

原文標題:8 ways to jump-start your machine learning,作者:Martin Heller

【51CTO譯稿,合作站點轉載請注明原文譯者和出處為51CTO.com】

 

責任編輯:華軒 來源: 51CTO
相關推薦

2022-08-30 00:31:12

機器學習超參數調優算法

2020-06-28 10:07:31

加速軟件項目IT領導軟件開發

2024-07-29 08:00:00

2021-11-27 05:03:09

框架深度學習

2020-10-31 17:16:31

機器學習數據缺失數據科學

2020-11-02 10:54:18

機器學習技術人工智能

2018-05-04 08:20:39

機器學習深度學習人工智能

2022-01-16 09:30:34

Ansible自動化工具開源

2022-09-20 23:38:24

機器學習工具數字優化

2024-10-18 07:10:43

2023-11-28 12:12:46

機器學習算法

2023-12-29 09:23:25

Python回調函數遍歷字典

2021-04-01 22:19:54

機器學習模型數據

2011-12-26 10:35:03

Windows系統Linux系統

2011-12-26 10:28:59

Linux學習環境Linux系統

2018-03-09 09:00:00

前端JavaScript機器學習

2020-07-09 18:35:34

AWS機器學習

2010-05-31 09:51:51

云計算ROI

2021-03-30 13:45:00

人工智能

2021-02-23 15:13:41

人工智能機器學習數據
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 一区在线播放 | 成人亚洲精品久久久久软件 | 亚洲精品国产第一综合99久久 | 北条麻妃一区二区三区在线视频 | 国产精品视频一 | 欧美激情久久久久久 | 日日夜夜精品视频 | 奇米超碰 | 中文字幕在线中文 | 91国产精品 | 欧美国产精品 | 日韩字幕一区 | 日本在线你懂的 | 五月婷婷色 | 99精品热视频 | 在线欧美一区二区 | 久久国产综合 | 综合久久综合久久 | 国产精品91视频 | 国产精品久久二区 | 国产一区二区三区在线 | 中文字幕 在线观看 | 色永久| 99热热热热| 国产精品欧美精品 | 男人天堂视频在线观看 | 成人欧美一区二区三区黑人孕妇 | av永久免费| 欧美三级久久久 | 精品福利在线 | 日本国产一区二区 | 亚洲乱码国产乱码精品精98午夜 | 欧美精三区欧美精三区 | 国产精品一区二区三区四区五区 | 欧美日日 | 欧美日韩精品中文字幕 | 国产婷婷色一区二区三区 | 亚洲精品欧美 | 91在线看 | 荷兰欧美一级毛片 | 华人黄网站大全 |