Python網絡爬蟲之數美滑塊的加密及軌跡-動態JS參數分析
數美滑塊
數美滑塊的加密及軌跡等應該是入門級別的吧,用他們的教程和話來說 就一個des 然后識別缺口位置可以用cv2或者ddddoc 軌跡也可以隨便模擬一個,這些簡單的教程 在csdn已經有一大把可以搜到的,但是卻很少人告訴你,它的js好像是一周更新一次,更新之后post的參數key和des的key會變,混淆的js結構也會變,現在我準備說的就是分析動態的參數和des加密的key值。
滑塊預覽圖如下圖所示:
滑塊預覽圖
抓包
進入正題 首先看這個接口 /ca/v1/conf 返回域名和js地址 包含版本號:
{
code: 1100
detail: {css: "/pr/auto-build/v1.0.3-151/style.min.css",…}
css: "/pr/auto-build/v1.0.3-151/style.min.css"
domains: ["castatic.fengkongcloud.cn", "castatic.fengkongcloud.com", "castatic-a.fengkongcloud.com",…]
0: "castatic.fengkongcloud.cn"
1: "castatic.fengkongcloud.com"
2: "castatic-a.fengkongcloud.com"
3: "castatic2.fengkongcloud.com"
js: "/pr/auto-build/v1.0.3-151/captcha-sdk.min.js"
message: "success"
requestId: "88aac752cd02b26a54e13b5c577652cc"
riskLevel: "PASS"
score: 0
}
得到js地址 這個js就是滑塊用的。
再看提交滑塊時的參數:
一大堆的參數,除了sdkver,organization,rid,act.os,rversion,ostype,callback以外,另外的11個名字不固定 值也會更新,所以需要在上面的js里搞出來(我用的正則匹配)大佬們都用ast的 可是我不會啊,難頂。
下圖是我之前小記的大概位置:
先全局搜個參數名 定位到這邊,下個斷點 隨便滑滑塊,斷下來找參數。
已經很明顯的 11個參數有8個就在這里能用。
看代碼分析 后面這一段 有的是_0x27c7fb(0x46e) 這種函數傳參(16進制)得到des的key值 也有的是直接就是明文des的key值,所以我們還要得到_0x27c7fb解密的函數。
- 獲得解密函數;
整個js可以看為兩個部分,第一部分就是寫一個解密函數 你傳一個整數過來 減一個整數 再把結果給大數組當下標返回一個字符串,上面那些要解密的都調用這個函數就行。不要漏了后面的代碼_0x2abc是返回大數組 然后匿名函數1是對大數組做偏移處理,匿名函數2也就是第二部分好像是webpack導出的 不用管他 它只是讓我們用來匹配東西的。
main_reCom = re.compile(',function\(\)\{function(.+)\]\)')
# 匹配到匿名函數2 并且正則替換掉 剩下的就是解密數組了
main_array_dec = re.sub(main_reCom, "", content)
js = execjs.compile(main_array_dec)
# get_array_functionName = re.search('function (_0x\d\w+)\(\)', main_array_dec).group(1)
get_arrayValue_FcuntionName = re.search('function (_0x\d\w+)\(_\d\w+,', main_array_dec).group(1)
print("通過傳參獲得數組返回值的函數名叫:", get_arrayValue_FcuntionName)
這樣把解密函數的js和函數名都獲取到了,那下一步就匹配參數了。
- 這里的全部["2位數的參數"]=(.....,"key"|函數(16進制)) 匹配下來;
正則代碼1:
all_args_rule: str = '\[\'(\w{2})\'\]=this.*?,(_0x[\d\w]{6}\((0x[\d\w]{3})\)\)|\'([\d\w]{8})\')'
all_args = re.findall(all_args_rule, content)
匹配19個,就上面那些圖中可見的都匹配下來了,自己再根據slide是那些參數去保存。
- 找另外的3個動態參數 搜名字;
- 正則代碼2:
# 獲取checkapi的另外3個參數 及要解的des密鑰或者密鑰
checkApi_args_rule = '\'(\w{2})\',this.*?,(_0x[\d\w]{6}\((0x[\d\w]{3})\)\)|\'([\d\w]{8})\')'
checkApi_args = re.findall(checkApi_args_rule, content)
十一個動態參數就已經匹配出來了。
下面說說怎么去得到值。
2位數的明文參數就不說了 循環 然后下標0就是。然后有的下標2有值(16進制的參數) 有的是直接下標3有值(明文des的密鑰) 寫個判斷 然后上面不是定義了js函數和獲得了解密的js函數名嗎?16進制轉成int類型 然后執行js函數傳參解密得到密鑰就行。
我的代碼大概這樣的:
data_json = {}
data_json["QueKouWeiZhi"] = [all_args[5][0], all_args[5][3] if all_args[5][3] != "" else get_des_key(int(all_args[5][2], 16))]
最后返回data_json:
要提交滑塊信息的時候,定義個params字典先 把固定的先寫好,動態的就動態修改。
總結
大家好,我是黑臉怪。我上上周剛看的時候 版本號好像是148 現在是151,我試過了我正則出來的只能匹出147-151,146之前的混淆結構又是不同的,所以這里只能算是提供一種動態的正則思路,GitHub看到一個大佬用ast做,可惜我不會啊,然后用他的ast代碼好像也提不出來動態參數了。這種常更新的js,難頂哦。