Python模擬網頁中javascript加密與驗證的相關處理
在做網絡爬蟲的過程中你是否一些在這方面做的很好的網站,你向知道他是通過哪些相關的操作做出這么好的網站,以下就是文章的相關內容的具體介紹,希望你瀏覽完下面的內容會有所收獲。Python模擬網頁的javascript加密驗證處理
在做網絡爬蟲中很多人都會遇到,做得比較好的一些企業級網站,對于登陸或者其他操作都會對用戶的輸入做一些加密處理后再post到服務器上去,而加密這部分幾乎都是通過JavaScript來完成的,所以要做爬蟲,需要模擬 這些加密的處理。
我比較喜歡Python來做爬蟲,urllib/urllib2庫用起來真的是很方便,所以很多時候遇到需要在python中來模擬網站的JavaScript加密過程。暫時總結起來有兩種方法:
***種是改寫JavaScript的代碼。這沒什么好說的,不過只適用于比較小而且不復雜的JavaScript代碼片段。比如人人網上發站內信的頁面有這樣的一個隱藏post數據:
- <input type="hidden" name="biz" value=0 id="xn_biz"/>
在頁面上biz的值為0,但是post的時候就會變成類似于941_683291223928232的字串,仔細看一下頁面的源代碼,就會發現這段驗證的加密字串是通過一段JavaScript的代碼生成的:這其實類似一段小型的驗證加密,Python模擬網頁的javascript加密驗證處理 ,它先隨機生產一段字
- <script>var mREOQQ=’A`ZDu^`’;var VKMHX=’
^&+*L/~’;var uCHKAU=0;var rTIU;var wCJS=”;var
yAYH=Math.floor(VKMHX.length/2);while
(uCHKAU<mREOQQ.length){rTIU=mREOQQ.
charCodeAt(uCHKAU++);var aYDG=VKMHX.
charCodeAt(rTIU%VKMHX.length);aYDG=String.
fromCharCode(aYDG);if(aYDG==’L')aYDG=’<<’
;if(aYDG==’~')wCJS+=~rTIU*(-1);else{wCJS+=Math.
floor(eval(rTIU+aYDG+yAYH));}}var ab=941;ab+="_";
ab+=wCJS; document.getElementById("xn_biz")
.value=ab;</script>
串,復制給隨機產生的一個變量名,再隨機生成一段運算符,復制給另一個隨機生成的變量名,然后對這兩個變量進行一系列操作和運算,生成一個類似于941_683291223928232的字串。每次刷新頁面這段代碼中產生的字串和變量名都是不一樣的,但是仔細研究這段代碼,算法都是相同的,只要得到字串和運算符串,就可以生成這串驗證密鑰了。
所以將這段代碼簡單的改寫成python代碼,問題得到解決,下面代碼中code就是提取出來的上述JavaScript代碼中的mREOQQ,operator代表VKMHX,而xn則代表ab的初始值,***得到的xn_biz就是我們最終需要的驗證密鑰了。以上的文章就是對Python模擬網頁的實際應用的相關介紹。
【編輯推薦】