帶著問題學Machine Learning:什么是機器學習
機器學習是個難以接受的東西。如果有案例就好了,那就 lets go~
Q:什么是機器學習?
機器學習就是讓計算機有像人一樣的學習能力的技術,是從數據中尋找有用的知識的數據挖掘技術。
比如呢?運用機器學習技術,類似今日頭條給我推我喜歡看的,并看不完的短視頻,(害得我卸載了…)。比如說,淘寶知道你喜歡的衣服款式,老是在猜你喜歡那里出現你喜歡的。
Q:那機器學習的數據種類不同吧?
是的,很不一樣。根據所學習的數據種類,可以分為監督學習、無監督學習和強化學習等。
Q:什么是監督學習?
監督學習,就是計算機在有結果標記的數據學習后,能預測數據結果的學習過程。
比如,預測數值型數據的回歸,預測標稱型數據的分類等。太抽象了…
對應的比如,圖像處理,垃圾郵件的分類和攔截等
Q:什么是無監督學習?
無監督學習,就是計算機在沒有結果標志的數據學習后,能獲取有用數據的學習過程。
自然還有個半監督學習,介于兩者之間。
比如,預測腫瘤的良性惡性、視頻分析等
Q:什么是強化學習?
強化學習,跟無監督學習類似,沒有結果標志的數據學習后,又跟監督學習一樣,能預測數據結果。
這個’四不像’,被認為人類的主要學習模式之一。
自然也很復雜,涉及到的算法很多。下面聊聊常見的算法。
Q:監督學習和無監督學習中有哪些典型的問題?
在機器學習中有很多典型的問題,比如回歸、分類、異常檢測、聚類和降維等。自然每個問題,延伸出就是算法,所以也有對應的算法。
Q:什么是回歸問題?
回歸,都對線性回歸有印象吧。回歸是數學模型,用于統計的一種方法。是對一組因變量 Yn 和另一組自變量 Xn 之間關系的統計分析。
比如記得以前用 SPSS 的時候,回歸統計人的體表面積與身高、體重有關系。從案例看出,回歸多半用在監督學習。
Q:什么是分類問題?
分類包括有監督分類和無監督分類。
有監督分類,就是大家一直知道的。術語表達,是指對于指定的模式進行識別的有監督識別問題。這類分類問題,也可以想回歸問題那樣,被看作是函數近似問題。對,在經過已知樣本數據的訓練,只能對未知樣本估計分類,無法對分類近似分類。
無監督分類,沒有任何先驗條件,僅僅根據數據,(盲目)的分類。其分類結果肯定是不同緯度的分類,但不能確定分類的類別屬性。
Q:什么是異常檢測問題?
異常檢測,簡單說,就是從一堆數據中區分異常值和正常值。術語表達,對數據集中其他項目的項目、事件等識別。比如文本錯誤問題。
Q:什么是聚類問題?
聚類,和分類問題相似。但屬于一種無監督學習。是把相似的樣本分成不同的組別或者更多子集。關鍵詞:相似,所以相同組別(子集)的樣本具有相似的性質,不同組別(子集)的樣本之間具有不同的性質。在聚類問題中,如何計算樣本之間的相似度是很重要的。
Q:什么是降維問題?
降維,其目的很直接,提取關鍵信息。術語表達,是降低樣本的個數,得到一組變量的過程。自然,根據樣本種類的不同,(我們上面介紹 監督學習 和 無監督學習 ,可以復習下)降維的問題也要分為 監督降維 和 無監督降維。降維有兩種方法:特征選擇和特征提取。
特征選擇,是假定樣本數據中包含大量冗余和無關數據,從而找出主要數據的方法。
特征提取,是從高維數據中提取關鍵信息,轉為低維數據進而求解的方法。過程中伴隨著除去數據,創建新數據。
廣泛用在圖像識別領域。