數(shù)據(jù)分析入門必知:機(jī)器學(xué)習(xí)最通俗的解釋?
有人經(jīng)常會(huì)把數(shù)據(jù)分析與機(jī)器學(xué)習(xí)給搞混掉,機(jī)器學(xué)習(xí)這個(gè)主題已經(jīng)很普遍了,每個(gè)人都在談?wù)撍苌儆腥四軌蛲笍氐亓私馑裉炖侠罱o大家分享一下機(jī)器學(xué)習(xí)的概念。
數(shù)據(jù)分析和機(jī)器學(xué)習(xí)
如果你認(rèn)為大數(shù)據(jù)僅僅是關(guān)于SQL語句查詢和海量的數(shù)據(jù)的話,那么別人也會(huì)理解你的,但是大數(shù)據(jù)真正的目的是通過對(duì)數(shù)據(jù)的推斷,從數(shù)據(jù)中獲取價(jià)值、從數(shù)據(jù)中發(fā)現(xiàn)有用的東西。例如,“如果我降低5%的價(jià)格,我將增加10%的銷售量。”
數(shù)據(jù)分析是最重要的技術(shù),包括如下方面:
- 描述性分析:確定所發(fā)生的事情。這通常涉及到描述發(fā)生了什么現(xiàn)象的報(bào)告。例如,用這個(gè)月的銷售額與去年同期進(jìn)行比較的結(jié)果。
- 特征性分析:解釋現(xiàn)象發(fā)生的原因,這通常涉及使用帶有OLAP技術(shù)的控制臺(tái)用以分析和研究數(shù)據(jù),根據(jù)數(shù)據(jù)挖掘技術(shù)來找到數(shù)據(jù)之間的相關(guān)性。
- 預(yù)測性分析:評(píng)估可能發(fā)生的事情的概率。這可能是預(yù)測性分析被用來根據(jù)你的工作性質(zhì)、個(gè)人興趣愛好,認(rèn)為你是一個(gè)潛在的讀者,以便能夠鏈接到其他的人。
機(jī)器學(xué)習(xí)適合于預(yù)測性分析。
一個(gè)例子說明什么是機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí)是指利用計(jì)算機(jī)模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為。那機(jī)器是怎么學(xué)習(xí)的呢?我們就舉個(gè)相親的例子?,F(xiàn)有一妙齡女郎相親,候選人有青年 A、B、C 和 D,四個(gè)青年的屬性分別為:
- A:『高,帥,富』
- B:『高,帥,窮』
- C:『高,丑,富』
- D:『矮,丑,富』
經(jīng)過一番篩選,女子將 [A C D] 分為適合婚戀組,將 [B] 劃分為不適合婚戀組。上述就是人類的學(xué)習(xí)過程。
由于相親對(duì)象實(shí)在過多,妙齡女郎相不過來了,于是她找來機(jī)器幫忙。首先,她要培訓(xùn)下機(jī)器,告訴機(jī)器如下信息:
- A:屬性『高,帥,富』— 標(biāo)簽 『適合婚戀組』
- B:屬性『高,帥,窮』— 標(biāo)簽 『不適合婚戀組』
- C:屬性『高,丑,富』— 標(biāo)簽 『適合婚戀組』
- D:屬性『矮,丑,富』— 標(biāo)簽 『適合婚戀組』
機(jī)器一番學(xué)習(xí),建立起了「屬性」和「標(biāo)簽」的對(duì)應(yīng)關(guān)系,這就是機(jī)器學(xué)習(xí)建模過程?,F(xiàn)在有青年 E、F、G …… 的屬性值,妙齡少女把這堆屬性值告訴機(jī)器,機(jī)器返回哪些是可以繼續(xù)發(fā)展的對(duì)象,哪些是淘汰的對(duì)象。
這就是 有監(jiān)督機(jī)器學(xué)習(xí) ,即告訴機(jī)器訓(xùn)練數(shù)據(jù)的「屬性」和「標(biāo)簽」,機(jī)器利用某種算法建立「屬性」和「標(biāo)簽」的關(guān)系,利用該關(guān)系,就可以根據(jù)新數(shù)據(jù)的「屬性」得到新數(shù)據(jù)的「標(biāo)簽」,如下圖。
機(jī)器學(xué)習(xí)如何工作?
垃圾郵件過濾是一個(gè)很好的例子,它利用機(jī)器學(xué)習(xí)技術(shù)來學(xué)習(xí)如何從數(shù)百萬封郵件中識(shí)別垃圾郵件,其中就用到了統(tǒng)計(jì)學(xué)技術(shù)。
例如,如果每100個(gè)電子郵件中的85個(gè),其中包括“便宜”和“偉哥”這兩個(gè)詞的郵件被認(rèn)為是垃圾郵件,我們可以說有85%的概率,確定它是垃圾郵件。并通過其它幾個(gè)指標(biāo)(例如,從來沒給你發(fā)送過郵件的人)結(jié)合起來,利用數(shù)十億個(gè)電子郵件進(jìn)行算法測試,隨著訓(xùn)練次數(shù)不斷增加來提升準(zhǔn)確率。
事實(shí)上,谷歌表示它現(xiàn)在已經(jīng)可以攔截99.99%左右的垃圾郵件。
機(jī)器學(xué)習(xí)的算法有哪些
我制作了一份機(jī)器學(xué)習(xí)算法選擇速查表:
這張速查表能幫你從眾多機(jī)器學(xué)習(xí)算法中,針對(duì)你自己的具體問題和情況,選出最合適的算法。下面就介紹如何使用這份速查表。
因?yàn)槭敲嫦虺鯇W(xué)者,所以在談到算法時(shí),會(huì)盡量做一些最簡單的假設(shè)。下文談及的算法也都是眾多數(shù)據(jù)科學(xué)家、機(jī)器學(xué)習(xí)專家和開發(fā)者們推薦的結(jié)果。
怎樣使用速查表
按照“如果(路徑標(biāo)簽)就用(算法)”的邏輯,查看速查表上的路徑和算法標(biāo)簽。例如:
- 如果你想降維,就用主成分分析。
- 如果你需要迅速得到數(shù)值預(yù)測,就用決策樹和邏輯回歸。
- 如果你需要層次結(jié)果,就用層次聚類。
有時(shí)我們可能需要不止一個(gè)算法,有時(shí)可能這些算法沒有一個(gè)是最合適的。我和許多數(shù)據(jù)科學(xué)家聊過,他們認(rèn)為這種情況下,最保險(xiǎn)的做法就是把所有算法都嘗試一遍,找到最合適的那個(gè)。