【機(jī)器學(xué)習(xí)】圖解多重線性回歸 原創(chuàng)
前面我們圖解了簡(jiǎn)單線性回歸,也就是只有一個(gè)自變量,今天我們來(lái)看看自變量有多個(gè)的情況,也就是多重線性回歸。
先來(lái)個(gè)整體視角:
再逐步分解開來(lái):
???????? ?????????????????? ??????????
我們用體重作為因變量,身高作為自變量,并假設(shè)它們之間有某種線性關(guān)系。
???????? ?????????????????????? ????????!
要想得到一個(gè)好模型就必須先充分了解數(shù)據(jù)。
在正式訓(xùn)練模型之前,先來(lái)探索分析數(shù)據(jù)。
看,Gender居然也是個(gè)重要因素。
當(dāng)我們將身高與體重繪制成圖表時(shí),我們會(huì)發(fā)現(xiàn)呈現(xiàn)出一種線性模式。
然而……當(dāng)我們考慮性別時(shí)……
結(jié)果發(fā)現(xiàn),即使相同身高,不同性別也會(huì)是不同體重。
???????????? ????????????
通過(guò)性別來(lái)拆分?jǐn)?shù)據(jù),我們可以進(jìn)行兩次獨(dú)立的線性回歸。
這兩條線的斜率幾乎相同,這表明行為相似。
但是截距呢?
它們告訴我們起點(diǎn)是不同的基線。
??????????-????????????????
我們可以添加多個(gè)變量來(lái)進(jìn)行多重線性回歸。
其核心理論是一樣的:我們?nèi)匀皇褂镁€性函數(shù)來(lái)預(yù)測(cè)目標(biāo)變量。
但是,我們可以追蹤N個(gè)自變量的值。
因此,在本例中可以同時(shí)考慮身高和性別這兩個(gè)因素 ?? N=2
?????????? ???? ??????????????????
多重線性回歸(MLR)接受數(shù)值型和類別型變量。
身高是一個(gè)數(shù)值型變量——這是一種可以被測(cè)量的變量。
性別是一個(gè)類別型變量——它將我們的數(shù)據(jù)劃分成不同的組別。
要在模型中使用類別變量,它們必須被編碼成二進(jìn)制變量。
我們可以很容易地將性別變量轉(zhuǎn)換成一個(gè)布爾型變量,用1和0來(lái)表示。
?????? ????????????????
我們的回歸方程就像是一個(gè)秘密配方。
它告訴我們需要每種成分(變量)的具體量。
身高每增加一個(gè)單位,體重也會(huì)相應(yīng)增加。
但性別也會(huì)影響這種關(guān)系。
因此,我們需要計(jì)算各個(gè)變量的權(quán)重!
?????????? ??????????????
我們可以使用scikit-learn庫(kù)來(lái)實(shí)現(xiàn)這種多重線性回歸。
代碼非常直觀,我們能夠輕松獲取所有的三個(gè)權(quán)重值。
針對(duì)這兩種情況,我們將得到一個(gè)統(tǒng)一的方程。
當(dāng)考慮到性別是0或1時(shí),我們實(shí)際上會(huì)得到兩個(gè)方程。
而這兩個(gè)方程與我們最初得到的非常相似??
那么,這就是目前關(guān)于線性回歸的所有內(nèi)容了。
本文轉(zhuǎn)載自公眾號(hào)人工智能大講堂
原文鏈接:??https://mp.weixin.qq.com/s/Oi5u10bxsSEkWtKkxOBe9Q???
