解決現實世界問題的四大機器學習策略
機器學習有四種廣受認可的形式:監督式、無監督式、半監督式和強化式。在研究文獻中,這些形式得到了深入的探討。它們也被納入了大多數機器學習算法的入門課程。下表對這四種形式作了總結。

但一個并不廣為人知的概念是機器學習策略,即以創造性的方式,運用基本的機器學習算法,解決現實世界問題。我對這些策略產生了濃厚的興趣。在這篇文章中,我將探討四種策略:在線學習、遷移學習、集成學習和深度學習。好在,這四項策略適用于表格中任意一種機器學習形式。
一、在線學習
在線學習使用瞬息萬變的數據。這類模型跟著數據及時更新,并不存儲先前的數據。有的在線學習算法還會“適應”,即隨時調整模型,跟隨或追蹤數據的變化。具體而言,它們會逐漸“遺忘”過時數據,從而適用于環境/模型隨時變動的應用程序。批量(或離線)學習使用靜態的數據,可以充當在線學習的熱身。在批量學習中,模型一次性完成所有數據的學習。很多在線學習算法使用一個批量/離線算法(以一小批數據為基礎),為模型作啟動前的熱身。這種做法可以顯著加快算法的收斂(convergence)速度。
二、遷移學習
遷移學習將一個領域的知識應用到另一個領域。它將舊的數據、模型和參數用于新問題的解決,對于機器學習模型的終身學習而言至關重要。遷移學習是人與生俱來的能力。舉個例子,我們會將已經掌握的語言知識(詞匯、語法等),應用到新語言的學習中。兩種語言越是接近,知識遷移就越簡單。
三、集成學習
單學習器模型只用一個學習器(算法),而集成學習使用多個學習器。一般的集成算法包含梯度提升、引導聚集、決策森林、堆棧集成和超級學習器。集成學習可以結合相對較弱(很多情況下,預測精度只略高于隨機猜測)的學習器,產生強大、準確的模型。
四、深度學習
深度學習包含多個層,可以學習數據的層級化或多尺度特征。與之相對的是“淺層學習”,即簡單地運用普通的機器學習建模算法。通常,淺層學習離不開特征工程(feature engineering),以保障輸入以適當的形式呈現給模型,而深度學習在訓練時,就自然而然地學會了這些特征。
在用機器學習算法解決日常業務難題時,機器學習策略是我們要考慮的又一個方面。