機器學習都能做些什么呢?你知道嗎?
機器學習的兩大應用場景—回歸與分類
回歸(regression)和分類(classification)是兩種最常見的機器學習問題類型,如下圖所示。
回歸問題通常用來預測一個值,其標簽的值是連續的。例如,預測房價、未來的天氣等任何連續性的走勢、數值。比較常見的回歸算法是線性回歸(linear regression)算法以及深度學習中的神經網絡等。
分類問題是將事物標記一個類別標簽,結果為離散值,也就是類別中的一個選項,例如,判斷一幅圖片上的動物是一只貓還是一只狗。分類有二元分類和多元分類,每類的最終正確結果只有一個。分類是機器學習的經典應用領域,很多種機器學習算法都可以用于分類,包括最基礎的邏輯回歸算法、經典的決策樹算法,以及深度學習中的神經網絡等。還有從多元分類上衍生出來的多標簽分類問題,典型應用如社交網站中上傳照片時的自動標注人名功能,以及推薦系統——在網站或者App中為同一個用戶推薦多種產品,或把某一種產品推薦給多個用戶。
機器學習的其他應用場景
當然,除回歸問題和分類問題之外,機器學習的應用場景還有很多。比如,無監督學習中最常見的聚類 (clustering)問題是在沒有標簽的情況下,把數據按照其特征的性質分成不同的簇(其實也就是數據分類);還有一種無監督學習是關聯規則,通過它可以找到特征之間的影響關系。
又比如時間序列,指在內部結構隨時間呈規律性變化的數據集,如趨勢性數據、隨季節變化的數據等。時間序列問題其實也就是和時間、周期緊密關聯的回歸問題。具體應用場景包括預測金融市場的波動,推斷太陽活動、潮汐、天氣乃至恒星的誕生、星系的形成,預測流行疾病傳播過程等。
還有結構化輸出。通常機器學習都是輸出一個答案或者選項,而有時需要通過學習輸出一個結構。什么意思呢?比如,在語音識別中,機器輸出的是一個句子,句子是有標準結構的,不只是數字0~9這么簡單(識別0~9是分類問題),這比普通的分類問題更進一步。具體應用場景包括語音識別——輸出語法結構正確的句子、機器翻譯——輸出合乎規范的文章。
還有一部分機器學習問題的目標不是解決問題,而是令世界變得更加豐富多彩,因此AI也可以進行藝術家所做的工作,例如以下幾種。Google的Dreamwork可以結合兩種圖片的風格進行藝術化的風格遷移。 生成式對抗網絡GAN能造出以假亂真的圖片。挖掘數字特征向量的潛隱空間,進行音樂、新聞、故事等創作。
我們可以把這種機器學習應用稱為生成式學習。
還有些時候,機器學習的目標是做出決定,這時叫它們決策性問題。決策性問題本質上仍然是分類問題,因為每一個決策實際上還是在用最適合的行為對環境的某一個狀態進行分類。比如,自動駕駛中的方向(左、中、右),以及圍棋中的落點,仍然是19×19個類的其中之一。具體應用場景包括自動駕駛、智能體玩游戲、機器人下棋等。在很多決策性問題中,機器必須學習哪些決策是有效的、可以帶來回報的,哪些是無效的、會帶來負回報的,以及哪些是對長遠目標有利的。因此,強化學習是這種情況下的常用技術。
總體來說,機器學習的訣竅在于要了解自己的問題,并針對自己的問題選擇最佳的機器學習方法(算法),也就是找到哪一種技術最有可能適合這種情況。如果能把場景或任務和適宜的技術連接起來,就可以在遇到問題時心中有數,迅速定位一個解決方向。下圖將一些常見的機器學習應用場景和機器學習模型進行了連接