成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

一文講透深入理解邏輯回歸

發布于 2025-6-17 06:35
瀏覽
0收藏

什么是邏輯回歸

本文討論邏輯回歸的基礎知識及其在Python中的實現。邏輯回歸基本上是一種有監督分類算法。在分類問題中,目標變量(或輸出)y 對于給定的一組特征(或輸入)X ,且X只能取離散值。
有一點與流行的看法相反地是,我認為邏輯回歸是一種回歸模型。該模型建立一個回歸模型來預測給定數據條目屬于編號為“1”的類別的概率。就像線性回歸假設數據遵循線性函數一樣,邏輯回歸只是使用sigmoid函數對數據建模。

一文講透深入理解邏輯回歸-AI.x社區

一文講透深入理解邏輯回歸-AI.x社區

僅當將決策閾值引入時,邏輯回歸才成為一種分類技術。閾值的設置是Logistic回歸的一個很重要的方面,依賴于分類問題本身。

閾值的取值主要受精確率和召回率的影響。理想情況下,我們希望精確率和召回率都為1,但這種情況很少發生。

高低精度/召回情況

在Precision-Recall平衡的情況下,我們使用以下參數來決定閾值:

  1. 低精度/高召回率:在我們一定要報出來但精度不要求高的應用中,我們選擇具有低精度/高召回率的模型。例如,在癌癥診斷應用程序中,我們不希望任何受影響的患者被歸類為未受影響,而無需過多注意患者是否被錯誤診斷為癌癥。這是因為沒有癌癥可以通過進一步的醫學疾病檢測到,但不能漏篩,如果漏篩會對患者造成嚴重后果,精度保證可以接著后續檢查得出。
  2. 高精度/低召回率:在我們想要預測準的場景下,我們要選擇具有高精度/低召回率的模型。例如,如果我們要對客戶進行分類,判斷他們對個性化廣告的反應是積極還是消極,我們希望絕對確定客戶會對廣告做出積極反應,否則錯誤預測消極反應可能會導致潛在銷售損失顧客。

根據類別的數量,邏輯回歸可以分為:

  1. 二項式:目標變量只能有兩種可能的類型:“0”或“1”,可能代表“贏”與“輸”、“通過”與“失敗”、“死”與“活”等。
  2. 多項式:目標變量可以有 3 種或更多可能的類型,這些類型沒有順序(即類型沒有數量意義),如“疾病 A”、“疾病 B”和“疾病 C”。
  3. 序數:它處理具有有序類別的目標變量。例如,考試成績可以分為:“很差”、“差”、“好”、“很好”。在這里,可以為每個類別分配一個分數,例如 0、1、2、3。

舉個栗子

首先,我們探索邏輯回歸的最簡單形式,即二項式邏輯回歸。考慮一個示例數據集,它將學習的小時數與考試結果進行映射。結果只能取兩個值,即 passed(1) 或 failed(0):

小時(x)  通過(y)
0.50  0
0.75  0
1.00  0
1.25  0
1.50  1
1.75  0
2.00  1
2.25  1
2.50  1
2.75  1
3.00  0
3.25  0
3.50  0
3.75  1
4.00  0
4.25  0
4.50  1
4.75  0
5.00  0
5.50  0

所以,我們有

一文講透深入理解邏輯回歸-AI.x社區

即 y 是一個分類目標變量,它只能采用兩種可能的類型:“0”或“1”。 

為了推廣我們的模型,我們假設: 

該數據集具有“p”個特征變量和“n”個觀測值。特征矩陣表示為:

一文講透深入理解邏輯回歸-AI.x社區

一文講透深入理解邏輯回歸-AI.x社區

一文講透深入理解邏輯回歸-AI.x社區

一文講透深入理解邏輯回歸-AI.x社區

一文講透深入理解邏輯回歸-AI.x社區

然后,以更緊湊的形式,

一文講透深入理解邏輯回歸-AI.x社區

一文講透深入理解邏輯回歸-AI.x社區

所以,

一文講透深入理解邏輯回歸-AI.x社區

稱為邏輯函數sigmoid函數。 

這是顯示 g(z) 的圖:

一文講透深入理解邏輯回歸-AI.x社區

從上圖我們可以推斷:

一文講透深入理解邏輯回歸-AI.x社區

Python代碼示例

import csv
import numpy as np
import matplotlib.pyplot as plt


def loadCSV(filename):
 '''
 function to load dataset
 '''
 with open(filename,"r") as csvfile:
  lines = csv.reader(csvfile)
  dataset = list(lines)
  for i in range(len(dataset)):
   dataset[i] = [float(x) for x in dataset[i]] 
 return np.array(dataset)


def normalize(X):
 '''
 function to normalize feature matrix, X
 '''
 mins = np.min(X, axis = 0)
 maxs = np.max(X, axis = 0)
 rng = maxs - mins
 norm_X = 1 - ((maxs - X)/rng)
 return norm_X


def logistic_func(beta, X):
 '''
 logistic(sigmoid) function
 '''
 return 1.0/(1 + np.exp(-np.dot(X, beta.T)))


def log_gradient(beta, X, y):
 '''
 logistic gradient function
 '''
 first_calc = logistic_func(beta, X) - y.reshape(X.shape[0], -1)
 final_calc = np.dot(first_calc.T, X)
 return final_calc


def cost_func(beta, X, y):
 '''
 cost function, J
 '''
 log_func_v = logistic_func(beta, X)
 y = np.squeeze(y)
 step1 = y * np.log(log_func_v)
 step2 = (1 - y) * np.log(1 - log_func_v)
 final = -step1 - step2
 return np.mean(final)


def grad_desc(X, y, beta, lr=.01, converge_change=.001):
 '''
 gradient descent function
 '''
 cost = cost_func(beta, X, y)
 change_cost = 1
 num_iter = 1
 
 while(change_cost > converge_change):
  old_cost = cost
  beta = beta - (lr * log_gradient(beta, X, y))
  cost = cost_func(beta, X, y)
  change_cost = old_cost - cost
  num_iter += 1
 
 return beta, num_iter


def pred_values(beta, X):
 '''
 function to predict labels
 '''
 pred_prob = logistic_func(beta, X)
 pred_value = np.where(pred_prob >= .5, 1, 0)
 return np.squeeze(pred_value)


def plot_reg(X, y, beta):
 '''
 function to plot decision boundary
 '''
 # labelled observations
 x_0 = X[np.where(y == 0.0)]
 x_1 = X[np.where(y == 1.0)]
 
 # plotting points with diff color for diff label
 plt.scatter([x_0[:, 1]], [x_0[:, 2]], c='b', label='y = 0')
 plt.scatter([x_1[:, 1]], [x_1[:, 2]], c='r', label='y = 1')
 
 # plotting decision boundary
 x1 = np.arange(0, 1, 0.1)
 x2 = -(beta[0,0] + beta[0,1]*x1)/beta[0,2]
 plt.plot(x1, x2, c='k', label='reg line')

 plt.xlabel('x1')
 plt.ylabel('x2')
 plt.legend()
 plt.show()
 

 
if __name__ == "__main__":
 # load the dataset
 dataset = loadCSV('dataset1.csv')
 
 # normalizing feature matrix
 X = normalize(dataset[:, :-1])
 
 # stacking columns with all ones in feature matrix
 X = np.hstack((np.matrix(np.ones(X.shape[0])).T, X))

 # response vector
 y = dataset[:, -1]

 # initial beta values
 beta = np.matrix(np.zeros(X.shape[1]))

 # beta values after running gradient descent
 beta, num_iter = grad_desc(X, y, beta)

 # estimated beta values and number of iterations
 print("Estimated regression coefficients:", beta)
 print("No. of iterations:", num_iter)

 # predicted labels
 y_pred = pred_values(beta, X)
 
 # number of correctly predicted labels
 print("Correctly predicted labels:", np.sum(y == y_pred))
 
 # plotting regression line
 plot_reg(X, y, beta)

最終結果:

估計回歸系數:[[ 1.70474504 15.04062212 -20.47216021]]
迭代次數:2612
正確預測標簽:100

一文講透深入理解邏輯回歸-AI.x社區

本文轉載自??????沐白AI筆記??????,作者:楊沐白

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 日日天天| 亚洲精品久久久一区二区三区 | 欧美一级片黄色 | 国产综合久久久久久鬼色 | 久草.com | 91久久久精品国产一区二区蜜臀 | 亚洲狠狠爱 | 国产亚洲精品精品国产亚洲综合 | 91视频在线看 | 中文字幕一二三区 | 韩国久久 | 日韩在线精品 | www亚洲精品 | 婷婷国产一区 | 麻豆久久久久久久久久 | 欧美色图另类 | 国产精品爱久久久久久久 | 伊人青青久久 | 亚洲精品第一国产综合野 | 精国产品一区二区三区四季综 | 久久久.com | 国产免费一区二区 | 天天躁人人躁人人躁狂躁 | 蜜桃特黄a∨片免费观看 | 日韩一及片 | 国产精品九九九 | 久久草在线视频 | 精品久| 99热首页 | 国产欧美在线观看 | 亚洲免费大片 | 91精品国产高清一区二区三区 | 亚洲日本视频 | 综合一区二区三区 | 自拍偷拍第1页 | 国产精品日韩欧美一区二区三区 | 97精品国产一区二区三区 | 精品网站999www| 日产精品久久久一区二区福利 | 99久久免费精品视频 | 福利久久|