成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

不能爬小程序,叫什么會爬蟲

網絡 通信技術
與訪問 H5 不同的是,小程序相當于一個 app,其上的操作是經過微信的封裝的,所以無法直接獲取到請求鏈接和數據,同樣也無法獲得返回的數據。

[[397424]]

本文轉載自微信公眾號「Python技術」,作者派森醬。轉載本文請聯系Python技術公眾號。

上次寫的如何給小孩約馬術課過程,見這里 Python 約課[1], 本想一勞永逸,但是好景不長,預約系統升級了,而且還換了服務商,從之前的公眾號 H5 應用,換成了小程序,之前編寫的方式直接失效,孩子又沒馬騎了

誰叫他遇到一個程序員老爸呢?這點事兒難不倒我,開干

小程序的不同之處

與訪問 H5 不同的是,小程序相當于一個 app,其上的操作是經過微信的封裝的,所以無法直接獲取到請求鏈接和數據,同樣也無法獲得返回的數據

就像一個 app,他的請求都是內置在程序內的

對于這種情況,就需要使用抓包工具,比如 Charles

它的原理是,作為請求的代理,即小程序 或 app 發送請求時,先將請求發送給代理,然后再由代理將請求發送給服務器,返回的過程也一樣

這也是著名的 中間人攻擊

中間人攻擊

如果要獲取 小程序或者 app 的具體請求,就需要用這種方式,讓代理獲取請求和相應的數據

具體這么玩呢?直接參考 Charles 教程或者在網上一搜,就知道了,這里推薦一篇Android抓包-Charles[2],供各位參考

飛越 Https 協議

如果配置好了之后,可能發現 Charles 抓的包全是亂碼,這是因為 小程序必須使用 Https 協議

也就是在 Http 協助之上對請求數據做一次加密,以防止中間人攻擊

Https 的原理也很簡單,就是目標網址申請一個 https 證書,然后將其對稱密鑰的公鑰發布在頒發證書的網站上

當由請求訪問目標服務器時,目標服務器會要求其進行加滿請求,這是客戶端程序會自動去證書頒發網址下載目標網站的公鑰,也就是證書

然后對請求的數據用公鑰加密,再發送到目標服務器上,目標服務器收到請求后,會用自己的私鑰解密請求數據,轉化為明文繼續處理

當返回響應時也是一樣的,不過目標服務器用自己的私鑰加密,客戶端用公鑰解密

詳細說明可參考 圖解HTTP[3]

這里只需要按照 Charles 的說明,再手機端按照 Charles 頒發的證書就可以了

不過如果用的是 Android 系統的話,需要注意 Android 7.0 之后 谷歌升級了安全策略,不再支持用戶自主安裝的證書

有兩個解決辦法:

  1. 對手機做root,然后修改手機的安全策略,詳細可參考: 通過Charles抓取Android的Https鏈接數據[4]
  2. 找一個未升級到 Android 7.0 的手機

翻出了一臺幾年前的手機,充電,開機,查看版本,是 Android 6,哈哈,太幸運了

安裝好證書后,再次抓包,就可以看見請求的數據了

Charles 抓包

輕車熟路

得到了請求鏈接和請求數據,就可以像上一次一樣編寫成 Python 腳本了

上一次是通過瀏覽器中請求的方式獲取的請求數據,在 Charles 中,獲取也很方便,如下圖

Charles 獲取請求

通過快捷菜單,獲取 curl 命令的請求數據,然后復制到 網站 https://curl.trillworks.com/[5]

Charles 獲取請求

然后將 python 代碼拷出到文件里,執行即可,夠簡單吧,具體可以參考之前的文章: 這才是使用Python的正確姿勢![6] 的文章描述

更進一步

這里還需要解決一個問題,可能是我這個做老爸的實在太懶了

因為正直五一假期,假期結束后的一個周六是工作日,而之前的程序會預約每周六的課程,如果是工作日的話,剛好沖突了

所以需要避開工作日,那么首先想到的是有沒有判斷節假日的庫可用,找了一圈,發現有些 api 可以,但是不是需要付費就是需要注冊,比較麻煩,于是直接去萬年歷中去抓取

鎖定的一個萬能歷網站 https://wannianrili.bmcx.com,標記清晰,數據準確,而且免費

萬年歷

分析請求,是通過鏈接 https://wannianrili.bmcx.com/ajax/ 獲取一個月的數據,獲取的結果是 xml 格式的數據

分析發現,日期類型是通過 css 的類來標記的,分別是 wnrl_riqi_ban,wnrl_riqi_mo,wnrl_riqi_xiu,表示 上班,周末 和 休息

所以只需要對獲取的 xml 進行解析就好了

這里我又再進一步 —— 因為獲取的是一個月的,每次請求獲取又點費,而且是在搶預約,所以需要更高的效率(哈哈,實際上是想炫炫技而已),于是做了一個小緩存,每次看看有沒有當月的 xml 文件,如果有直接讀取,沒有則獲取,并存儲起來

實現了節假日判斷后,在主預約程序里加一個判斷,如果要預約的日子是工作日,再后延一日,繼續判斷,直到遇到一個費工作日

這里展示一下判斷日期類型的代碼:

  1. import requests 
  2. from lxml import etree 
  3. import datetime 
  4. import os 
  5.  
  6. def getDaysInfo(ym): 
  7.     cacheName = ym + ".html" 
  8.     if os.path.exists(cacheName): 
  9.         content = open(cacheName).read() 
  10.     else
  11.         content = requestsDayInfo(ym) 
  12.         saveFile(cacheName, content) 
  13.      
  14.     return content 
  15.  
  16. def requestsDayInfo(ym=None): 
  17.     headers = { 
  18.         'sec-ch-ua''"Google Chrome";v="89", "Chromium";v="89", ";Not A Brand";v="99"'
  19.         'Referer''https://wannianrili.bmcx.com/'
  20.         'sec-ch-ua-mobile''?0'
  21.         'User-Agent''Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36'
  22.     } 
  23.     params = ( 
  24.         ('q', ym), 
  25.         ('v''20031912'), 
  26.     ) 
  27.     response = requests.get('https://wannianrili.bmcx.com/ajax/', headers=headers, params=params) 
  28.     return response.text 
  29.  
  30. def saveFile(name, content): 
  31.     print(name
  32.     f = open(name,'w'
  33.     f.write(content) 
  34.     f.close() 
  35.  
  36. def parse(content, d): 
  37.     html = etree.HTML(content) 
  38.     dayclass = html.xpath('//*[@id="wnrl_riqi_id_'+str(int(d)-1)+'"]')[0].attrib.get('class'
  39.  
  40.     if dayclass is None or dayclass == 'wnrl_riqi_ban'
  41.         return 1 
  42.     elif dayclass == 'wnrl_riqi_mo'
  43.         return 2 
  44.     elif dayclass == 'wnrl_riqi_xiu'
  45.         return 3 
  46.     else
  47.         return 0 
  48.  
  49. def getDayType(date): 
  50.     str_date = date.strftime('%Y-%m-%d'
  51.     ymd = str_date.split("-"
  52.     ym = ymd[0] + '-' + ymd[1] 
  53.     d = ymd[2] 
  54.     return parse(getDaysInfo(ym), d) 
  55.  
  56. if __name__ == "__main__"
  57.     delta = 1  # 探索步長為一日 
  58.     date = datetime.date.today() 
  59.     while(getDayType(date)<2): 
  60.         delta += 1 
  61.         date = datetime.date.today() + datetime.timedelta(days=delta) 

總結

好了,現在又可以做優雅的老爸了哈哈,對孩子最好的教育就是陪孩子一起成長,無論是什么方面,如果你恰巧喜歡編程,會編程的話,可以嘗試和孩子一起做些有意思的東西,比如 做個擲骰子游戲[7]

參考資料

[1]Python 約課: https://mp.weixin.qq.com/s/XqICwC9_cRBhua-6-lbjWw

[2]Android抓包: https://www.jianshu.com/p/8385a13b0e5c

[3]圖解HTTP: https://book.douban.com/subject/25863515/

[4]Android 7.0 安裝證書: https://bbs.huaweicloud.com/blogs/245014

[5]Curl 轉化為 Python 請求: https://curl.trillworks.com/

[6]這才是使用Python的正確姿勢!: https://mp.weixin.qq.com/s/XqICwC9_cRBhua-6-lbjWw

[7]做個擲骰子游戲: https://mp.weixin.qq.com/s/czcGKk6RTrZVi6-KRUAR0w

 

責任編輯:武曉燕 來源: Python技術
相關推薦

2021-06-06 19:53:05

爬蟲處理字體反爬

2013-10-29 10:24:31

程序員漫畫

2016-12-07 11:18:58

Python爬蟲網站

2017-05-24 15:07:19

Python爬蟲爬取

2020-10-27 08:58:47

設計NUMA內存

2021-09-26 05:01:55

Scrapy項目爬蟲

2017-05-15 10:39:48

爬蟲應對機制

2013-09-26 09:34:56

女程序員

2019-10-21 10:47:33

爬蟲程序員大數據

2020-11-17 06:11:14

PythonisinstanceGolang

2018-09-07 17:29:13

小程序

2019-01-24 13:37:14

JavaScript開發 小程序

2017-12-14 21:45:39

2018-02-23 14:30:13

2016-11-01 20:37:31

javascriptnode.jstypescript

2019-01-14 15:25:04

小程序互聯網微信

2015-08-25 15:47:56

2012-08-07 09:24:57

程序員項目

2017-05-08 15:03:07

微信小程序開發實戰
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 九九国产| 国产特级毛片 | 亚洲国产成人在线视频 | 伊人性伊人情综合网 | 国产精品久久久久久中文字 | 九九综合九九 | 亚洲国产精品久久 | 亚洲精品久久久久中文字幕欢迎你 | 韩日在线观看视频 | 波波电影院一区二区三区 | 日韩在线高清 | 中文av字幕| 亚洲精品乱码久久久久久久久久 | 精品一区二区久久久久久久网站 | 亚洲精品在线免费观看视频 | 992人人草 | gav成人免费播放视频 | 久久在视频 | 一区二区精品 | 一区二区三区四区日韩 | 免费在线成人 | 欧美一区二区 | 伊色综合久久之综合久久 | 一区二区三区四区不卡视频 | 黄色在线免费观看 | 中文在线一区二区 | 亚洲精品456 | 久久艹免费视频 | 亚洲欧美日韩精品久久亚洲区 | 夜夜夜夜夜夜曰天天天 | 日韩有码一区 | 精品网| 亚洲手机视频在线 | 欧美综合久久久 | 成人不卡| 久久精品福利视频 | 久久久免费精品 | 在线一区 | 天天干.com | 精品毛片在线观看 | 欧美日韩国产欧美 |