成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

如何用 Python 預測房價走勢?

開發 后端
買房應該是大多數都會要面臨的一個選擇,當前經濟和政策背景下,未來房價會漲還是跌?這是很多人都關心的一個話題。今天分享的這篇文章,以波士頓的房地產市場為例,根據低收入人群比例、老師學生數量等特征,利用 Python 進行了預測,給大家做一個參考。

 該分享源于Udacity機器學習進階中的一個mini作業項目,用于入門非常合適,刨除了繁瑣的部分,保留了最關鍵、基本的步驟,能夠對機器學習基本流程有一個最清晰的認識。

項目描述

利用馬薩諸塞州波士頓郊區的房屋信息數據訓練和測試一個模型,并對模型的性能和預測能力進行測試;

項目分析

數據集字段解釋:

  1. RM: 住宅平均房間數量;
  2. LSTAT: 區域中被認為是低收入階層的比率;
  3. PTRATIO: 鎮上學生與教師數量比例;
  4. MEDV: 房屋的中值價格(目標特征,即我們要預測的值);

其實現在回過頭來看,前三個特征應該都是挖掘后的組合特征,比如RM,通常在原始數據中會分為多個特征:一樓房間、二樓房間、廚房、臥室個數、地下室房間等等,這里應該是為了教學簡單化了;

MEDV為我們要預測的值,屬于回歸問題,另外數據集不大(不到500個數據點),小數據集上的回歸問題,現在的我初步考慮會用SVM,稍后讓我們看看當時的選擇;

Show Time

Step 1 導入數據

注意點:

  1. 如果數據在多個csv中(比如很多銷售項目中,銷售數據和店鋪數據是分開兩個csv的,類似數據庫的兩張表),這里一般要連接起來;
  2. 訓練數據和測試數據連接起來,這是為了后續的數據處理的一致,否則訓練模型時會有問題(比如用訓練數據訓練的模型,預測測試數據時報錯維度不一致);
  3. 觀察下數據量,數據量對于后續選擇算法、可視化方法等有比較大的影響,所以一般會看一下;
  4. pandas內存優化,這一點項目中目前沒有,但是我最近的項目有用到,簡單說一下,通過對特征字段的數據類型向下轉換(比如int64轉為int8)降低對內存的使用,這里很重要,數據量大時很容易撐爆個人電腦的內存存儲;

上代碼:

 

  1. # 載入波士頓房屋的數據集 
  2.  
  3. data = pd.read_csv('housing.csv'
  4.  
  5. prices = data['MEDV'
  6.  
  7. features = data.drop('MEDV', axis =1) 
  8.  
  9.  
  10. # 完成 
  11.  
  12.  
  13. print"Boston housing dataset has {} data points with {} variables each.".format(*data.shape) 

Step 2 分析數據

加載數據后,不要直接就急匆匆的上各種處理手段,加各種模型,先慢一點,對數據進行一個初步的了解,了解其各個特征的統計值、分布情況、與目標特征的關系,最好進行可視化,這樣會看到很多意料之外的東西;

基礎統計運算

統計運算用于了解某個特征的整體取值情況,它的最大最小值,平均值中位數,百分位數等等,這些都是最簡單的對一個字段進行了解的手段;

上代碼:

 

  1. #目標:計算價值的最小值 
  2.  
  3. minimum_price = np.min(prices)# prices.min 
  4.  
  5.  
  6. #目標:計算價值的最大值 
  7.  
  8. maximum_price = np.max(prices)# prices.max 
  9.  
  10.  
  11. #目標:計算價值的平均值 
  12.  
  13. mean_price = np.mean(prices)# prices.mean 
  14.  
  15.  
  16. #目標:計算價值的中值 
  17.  
  18. median_price = np.median(prices)# prices.median 
  19.  
  20.  
  21. #目標:計算價值的標準差 
  22.  
  23. std_price = np.std(prices)# prices.std 

特征觀察

這里主要考慮各個特征與目標之間的關系,比如是正相關還是負相關,通常都是通過對業務的了解而來的,這里就延伸出一個點,機器學習項目通常來說,對業務越了解,越容易得到好的效果,因為所謂的特征工程其實就是理解業務、深挖業務的過程;

比如這個問題中的三個特征:

  • RM:房間個數明顯應該是與房價正相關的;
  • LSTAT:低收入比例一定程度上表示著這個社區的級別,因此應該是負相關;
  • PTRATIO:學生/教師比例越高,說明教育資源越緊缺,也應該是負相關;

上述這三個點,同樣可以通過可視化的方式來驗證,事實上也應該去驗證而不是只靠主觀猜想,有些情況下,主觀感覺與客觀事實是完全相反的,這里要注意;

Step 3 數據劃分

為了驗證模型的好壞,通常的做法是進行cv,即交叉驗證,基本思路是將數據平均劃分N塊,取其中N-1塊訓練,并對另外1塊做預測,并比對預測結果與實際結果,這個過程反復N次直到每一塊都作為驗證數據使用過;

上代碼:

 

  1. # 提示:導入train_test_split 
  2.  
  3. fromsklearn.model_selectionimporttrain_test_split 
  4.  
  5.  
  6. X_train, X_test, y_train, y_test = train_test_split(features, prices, test_size=0.2, random_state=RANDOM_STATE) 
  7.  
  8. printX_train.shape 
  9.  
  10. printX_test.shape 
  11.  
  12. printy_train.shape 
  13.  
  14. printy_test.shape 

Step 4 定義評價函數

這里主要是根據問題來定義,比如分類問題用的最多的是準確率(精確率、召回率也有使用,具體看業務場景中更重視什么),回歸問題用RMSE(均方誤差)等等,實際項目中根據業務特點經常會有需要去自定義評價函數的時候,這里就比較靈活;

Step 5 模型調優

通過GridSearch對模型參數進行網格組合搜索最優,注意這里要考慮數據量以及組合后的可能個數,避免運行時間過長哈。

上代碼:

 

  1. fromsklearn.model_selectionimportKFold,GridSearchCV 
  2.  
  3. fromsklearn.treeimportDecisionTreeRegressor 
  4.  
  5. fromsklearn.metricsimportmake_scorer 
  6.  
  7.  
  8.  
  9. deffit_model(X, y): 
  10.  
  11. """ 基于輸入數據 [X,y],利于網格搜索找到最優的決策樹模型""" 
  12.  
  13.  
  14. cross_validator = KFold 
  15.  
  16.  
  17. regressor = DecisionTreeRegressor 
  18.  
  19.  
  20. params = {'max_depth':[1,2,3,4,5,6,7,8,9,10]} 
  21.  
  22.  
  23. scoring_fnc = make_scorer(performance_metric) 
  24.  
  25.  
  26. grid = GridSearchCV(estimator=regressor, param_grid=params, scoring=scoring_fnc, cv=cross_validator) 
  27.  
  28.  
  29. # 基于輸入數據 [X,y],進行網格搜索 
  30.  
  31. grid = grid.fit(X, y) 
  32.  
  33.  
  34. # 返回網格搜索后的最優模型 
  35.  
  36. returngrid.best_estimator_ 

可以看到當時項目中選擇的是決策樹模型,現在看,樹模型在這種小數據集上其實是比較容易過擬合的,因此可以考慮用SVM代替,你也可以試試哈,我估計是SVM效果比較好;

學習曲線

通過繪制分析學習曲線,可以對模型當前狀態有一個基本了解,如下圖:

 

如何用 Python 預測房價走勢?

 

可以看到,超參數max_depth為1和3時,明顯訓練分數過低,這說明此時模型有欠擬合的情況,而當max_depth為6和10時,明顯訓練分數和驗證分析差距過大,說明出現了過擬合,因此我們初步可以猜測,優質參數在3和6之間,即4,5中的一個,其他參數一樣可以通過學習曲線來進行可視化分析,判斷是欠擬合還是過擬合,再分別進行針對處理;

小結

通過以上的幾步,可以非常簡單、清晰的看到一個機器學習項目的全流程,其實再復雜的流程也是這些簡單步驟的一些擴展,而更難的往往是對業務的理解,沒有足夠的理解很難得到好的結果,體現出來就是特征工程部分做的好壞,這里就需要各位小伙伴們奮發圖強了,路漫漫啊。

項目鏈接

  • 通篇瀏覽可以通過nbviewer來看;
  • 項目源文件、數據集文件可以通過GitHub波士頓項目獲取,歡迎Follow、Fork、Star;

 

責任編輯:華軒 來源: 今日頭條
相關推薦

2020-11-17 17:28:29

機器學習技術人工智能

2011-04-22 15:21:13

宏碁H7531D宏碁投影機

2021-08-21 14:30:58

機器學習bilibili股價

2021-08-23 11:15:20

Python機器學習bilibili

2021-11-12 15:41:42

LSTM神經網絡人工智能

2022-03-30 15:11:26

Python房價工具

2020-07-14 08:34:07

AI機器學習預測股價

2018-03-20 15:33:05

深度學習加密貨幣

2017-03-24 08:58:23

機器學習算法預測

2018-03-27 18:12:12

PythonHTML

2020-07-10 09:49:53

數據清理數據分析查找異常

2023-02-08 07:09:40

PythonChatGPT語言模型

2017-06-19 15:12:30

Uber神經網絡事件預測

2020-01-19 20:04:14

智慧城市預測分析物聯網

2018-12-17 06:21:39

2010-03-19 16:01:10

千兆交換機

2018-05-17 10:05:24

運行iPadPython

2020-05-09 10:38:31

Python透視表數據

2020-12-10 10:46:23

PythonExcel圖片

2021-06-02 15:10:20

PythonScrapy視頻
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久成人一区 | 91在线观看视频 | 黄色一级大片在线观看 | 亚洲精久久久 | 99热热精品| 日韩一区二区三区精品 | 久久精品亚洲精品国产欧美 | 国产91亚洲精品 | 成人av网页| 国产夜恋视频在线观看 | 精品国产综合 | 成人免费视屏 | 国产精品国产亚洲精品看不卡15 | 丁香色婷婷 | 午夜精品影院 | 成人在线视频一区二区三区 | av中文在线 | 免费观看毛片 | 精品一区二区三区四区 | 亚洲最新在线 | 日韩成人在线视频 | 欧洲免费毛片 | 成人av播放 | 国产一级黄色网 | 99精品欧美一区二区三区综合在线 | 日韩精品久久一区二区三区 | 久久亚洲国产精品日日av夜夜 | 久久久久久久久久久久91 | 国产欧美视频一区 | 日韩中文字幕高清 | 涩涩视频在线观看 | 99免费看| 久久久tv| 亚洲成人精选 | 九九伊人sl水蜜桃色推荐 | 国产美女视频 | 亚洲精品国产一区 | 国产精品一区在线 | 久久夜视频| 久久91| 国产精品久久久久久久久久久久冷 |