用 JS 實現了識別網頁驗證碼的功能！

作者：LeoNaN 2021-07-22 10:25:07

開發前端

當時我寫代碼的時候，沒有找到純 js 可以用的代碼和庫，不能打包成 chrome 擴展，用起來還是不太方便的。所以在驗證了思路的可行性后，我就大致寫下來，給他人以方便吧。

很高興大家喜歡！Github：leonof/imgRecJs[1]，剛剛上傳，代碼還需要完善～因為有不少同學表示訓練和識別有疑問，我做了個小接口放在最后，可以方便大家先把流程走通。

后續會更新：將 js 代碼等打包成 chrome 擴展程序，這樣就可以讓瀏覽器自動識別，完全傻瓜式使用啦～！（更新啦：利用 chrome 擴展，讓瀏覽器執行我們的腳本[2]）

其實整篇文章難度不高，網上也有很多 java、c 等的代碼。只是當時我寫代碼的時候，沒有找到純 js 可以用的代碼和庫，不能打包成 chrome 擴展，用起來還是不太方便的。所以在驗證了思路的可行性后，我就大致寫下來，給他人以方便吧。

目前有多種驗證碼識別思路，限于能力有限，我只好采用了最簡單的機器學習。目標驗證碼也比較簡單，如：

（含字母也一樣）

識別控制速度在 0.1 秒以內的話，正確率在 99.99999%（因為一直是識別正確哈哈哈）。

在動手之前，先梳理一下大致思路，方便比較獨立的同學自己嘗試完成代碼：

1、先分析網頁 DOM 結構，載入驗證碼圖片。

2、將圖片畫到 canvas 上，拿到圖片的像素數據。

3、先后對圖片進行二值化、腐蝕膨脹、切割、旋轉、縮放處理。

4、記錄處理后的單個數字的二值化數據，并人工錄入真實數字。

5、重復訓練。

6、識別時，用處理后的圖像與庫中數據對比，取得最相近的數據，得到真實數字。

（以下優化）

7、數據量大時，可以取前幾個相似數據，并按權重從中選出最可能的數字，以提高準確度。

8、也可查找到相似度足夠高時停止搜索，取其作為最后識別結果，以提升效率。

大神們可以直接去寫了，我這低級簡單的代碼會遭你們嘲笑的。。。比較急于求成的同學也可以不用看了，回頭直接拿 demo 去修改吧！

好吧既然你看到這里了，我就盡量說的清楚明白一點。

在動手之前，我簡單模擬一下需要輸入驗證碼的網站，效果如下：

好吧，是真的簡單…點擊圖片可以更換驗證碼，輸入框用來輸入，按鈕模擬提交，如下：

我們就假裝他作為我們要自動識別的目標。

一、分析網頁 DOM 結構，載入驗證碼圖片。

我們可以看到，驗證碼的 url 是：img/0.jpg。我這里的 url 會變化，是為了模擬更換驗

ctx1.drawImage(img,0,0,img.width,img.height);

證碼的過程。但實際上，由于驗證碼絕大多數為后臺生成的，所以地址是固定的。那么我們很容易就可以拿到圖片數據：new 一個 Image，賦值 url 即可（直接 get 到 img 元素也行）。參考代碼：

var img = document.getElementById("img");

二、將圖片畫到 canvas 上，拿到圖片的像素數據。

要將圖片畫到 canvas 上，首先要創建一個 canvas 并初始化。參考代碼：

var canvas1 = document.createElement("canvas");  
document.getElementsByTagName("body")[0].appendChild(canvas1);  
canvas1.style.backgroundColor = "cornsilk"; 
 var ctx1 = canvas1.getContext("2d");

隨后，將圖片繪制上去。參考代碼：

ctx1.drawImage(img,0,0,img.width,img.height);

然后我們就可以利用 canvas，拿到圖片的像素數據。參考代碼：

var imgData = ctx1.getImageData(0,0,WIDTH,HEIGHT);

三、先后對圖片進行二值化、腐蝕膨脹、切割、旋轉、縮放處理。

這部分是圖像識別的重點，直接影響到識別準確率和速度。復雜的驗證碼還應加上去躁等處理過程。比如可以檢測貫穿的橫線并消除，或者將顏色高度統一的背景去掉等等。我們的圖片幾乎沒有干擾，只有簡單的旋轉和縮放，故直接進行二值化操作（二值化也能去掉少量的干擾）。

1、二值化操作的思路是：計算圖片的平均灰度作為閾值，比閾值大的置為純黑，反之純白。參考代碼：

function toHex(fromImgData){//二值化圖像  
    var fromPixelData = fromImgData.data;  
    var greyAve = 0;  
    for(var j=0;j<WIDTH*HEIGHT;j++){  
        var r = fromPixelData[4*j];  
        var g = fromPixelData[4*j+1];  
        var b = fromPixelData[4*j+2];  
        greyAve += r*0.3 + g*0.59 + b*0.11;  
    }  
    greyAve /= WIDTH*HEIGHT;//計算平均灰度值。  
    for(j=0;j<WIDTH*HEIGHT;j++){  
        r = fromPixelData[4*j];  
        g = fromPixelData[4*j+1];  
        b = fromPixelData[4*j+2];  
        var grey = r*0.333 + g*0.333 + b*0.333;//取平均值。  
        greygrey = grey>greyAve?255:0;  
        fromPixelData[4*j] = grey;  
        fromPixelData[4*j+1] = grey;  
        fromPixelData[4*j+2] = grey;  
    }  
    return fromImgData;  
}//二值化圖像

二值化后，效果如圖：

可以發現，簡單的背景色是可以去掉的。

二值化處理之后，就可以將圖片轉換成數組（存 0 或 1）來保存了。參考代碼如下：

function toXY(fromImgData){  
    var result = new Array(HEIGHT);  
    var fromPixelData = fromImgData.data;  
    for(var j=0;j<HEIGHT;j++){  
        result[j] = new Array(WIDTH);  
        for(var k=0;k<WIDTH;k++){  
            var r = fromPixelData[4*(j*WIDTH+k)];  
            var g = fromPixelData[4*(j*WIDTH+k)+1];  
            var b = fromPixelData[4*(j*WIDTH+k)+2];  
            result[j][k] = (r+g+b)>500?0:1;//賦值0、1給內部數組  
        }  
    }  
    return result;  
}//圖像轉數組

2、接下來是腐蝕、膨脹。腐蝕的基本思路在于，將所有白色周圍的像素都置成白色，以此來消除游離的個別黑色像素點噪聲。膨脹正好相反，將黑色周圍置成黑色，消除數字內部的個別白色。同時，腐蝕、膨脹的操作可以讓圖片更加平滑。參考代碼：

function corrode(fromArray){  
    for(var j=1;j<fromArray.length-1;j++){  
        for(var k=1;k<fromArray[j].length-1;k++){  
            if(fromArray[j][k]==1&&fromArray[j-1][k]+fromArray[j+1][k]+fromArray[j][k-1]+fromArray[j][k+1]==0){  
                fromArray[j][k] = 0;  
            }  
        }  
    }  
    return fromArray;  
}//腐蝕（簡單）  
function expand(fromArray){  
    for(var j=1;j<fromArray.length-1;j++){  
        for(var k=1;k<fromArray[j].length-1;k++){  
            if(fromArray[j][k]==0&&fromArray[j-1][k]+fromArray[j+1][k]+fromArray[j][k-1]+fromArray[j][k+1]==4){  
                fromArray[j][k] = 1;  
            }  
        }  
    }  
    return fromArray;  
}//膨脹（簡單）

由于我們的圖片背景干擾不是很強烈，所以基本看不出差別。不過對于計算機來說，還是有不同的喲～尤其是背景復雜的圖片，這一步很好用。

3、切割。

由于我們的圖片內各數字沒有粘連，所以切割時只需要從上至下，從左至右掃描圖片，發現圖片某一豎行均為白色，就切一刀。有粘連的驗證碼比較困難，暫時不討論了。參考代碼：

function split(fromArray,count){  
    var numNow = 0;  
    var status = false;  
    var w = fromArray[0].length;  
    for(var k=0;k<w;k++) {//遍歷圖像  
        var sumUp = 0;  
        for (var j=0;j<fromArray.length;j++) //檢測整列是否有圖像  
            sumUp += fromArray[j][k];  
        if(sumUp == 0){//切割  
            for (j=0;j<fromArray.length-1;j++)  
                fromArray[j].remove(k);  
            w --;  
            k --;  
            status = false;  
            continue;  
        }  
        else{//切換狀態  
            if(!status)  
                numNow ++;  
            status = true;  
        }  
        if(numNow!=count){//不是想要的數字  
            for (j=0;j<fromArray.length-1;j++)  
                fromArray[j].remove(k);  
            w --;  
            k --;  
        }  
    }  
    return fromArray;  
}//切割，獲取特定數字

切割后，左右的空白因為都被切了，就沒有了。但是上下仍然存在空白，所以進行處理。這里比較簡單，就不放代碼了，思路和切割類似，但簡單很多。

4、旋轉、縮放。

其實旋轉不是必要的。沒有旋轉的步驟，可以用更多的數據量訓練來彌補。同理，縮放也不是必須的。先大致講一下思路：旋轉和縮放都再次利用了 canvas，將圖片畫上去之后，利用 canvas 的方法操作圖片旋轉或縮放，之后再把數據拿下來，就像我們最開始讀圖片時做的一樣。旋轉時，取順時針逆時針各 90 度，取左右寬度最窄的角度，當作數字站立的旋轉角度。縮放時，直接按預設長寬畫圖即可。這里我就只寫了縮放。處理后再轉換回數組形式。參考代碼：

function zoomToFit(fromArray){  
    var imgD = fromXY(fromArray);  
    var w = lastWidth;  
    var h = lastHeight;  
    var tempc1 = document.createElement("canvas");  
    var tempc2 = document.createElement("canvas");  
    tempc1.width = fromArray[0].length;  
    tempc1.height = fromArray.length;  
    tempc2.width = w;  
    tempc2.height = h;  
    var tempt1 = tempc1.getContext("2d");  
    var tempt2 = tempc2.getContext("2d");  
    tempt1.putImageData(imgD,0,0,0,0,tempc1.width,tempc1.height);  
    tempt2.drawImage(tempc1,0,0,w,h);  
    var returnImageD = tempt2.getImageData(0,0,WIDTH,HEIGHT);  
    fromArray = toXY(returnImageD);  
    fromArray.length = h;  
    for(var i=0;i<h;i++)  
        fromArray[i].length = w;  
    return fromArray;  
}//尺寸歸一化

處理后效果如圖：

四、記錄處理后的單個數字的二值化數據，并人工錄入真實數字。

到這里，圖像處理就搞定了，后面的工作就比較簡單了。我們把上一步得到的數組和真實的數字一起保存起來。這個過程可以有很多方法。我當時采取了大家一起錄入的方式，所以搭建了 PHP+MySQL 的服務器，用數據庫存儲。這塊就不詳述了，大家各顯神威。

五、重復訓練

為了方便訓練，我直接在頁面里增加了手動輸入的地方，提交后刷新驗證碼，繼續提交。提交 20 個驗證碼（20*4=80 個數字）后，便經常可以正確識別出 4 位驗證碼，在單個數字的數據量在 300 左右時（大約需要 300/4=75 個驗證碼），識別效率已經在 95%以上。在 500 左右時已經基本見不到錯誤識別的情況了，這時候已經可以寫代碼實現自我訓練了。此時識別一次大約需要 0.06 秒。

六、識別時，用處理后的圖像與庫中數據對比，取得最相近的數據，得到真實數字。

這塊也比較簡單。訓練完成后，我將數據庫數據導出，保存成了一個大的數組，直接用 js 就可以讀了。識別時遍歷所有的數據，按像素點逐一比較。由于尺寸做了歸一化，所以直接數有多少像素匹配即可。匹配數量最多的即為識別出的結果。我只找到了最開始寫的 PHP 代碼，先放一下吧，有點懶得再寫 js 了…：

function check($str)  
{  
    $str = str_split($str,1);  
    $length = count($str);  
    $tempNum = 0;  
    $tempSimmiar = 0;  
    $query = "SELECT * FROM numkeys";  
    $sth = execSql($query);  
    while ($RES = $sth->fetch()) {  
        $thisSimmiar = 0;  
        $thisFeature = str_split($RES["feature"],1);  
        $thisNum = $RES["resultnum"];  
        for($i=0;$i<$length;$i++){  
            if($thisFeature[$i]==$str[$i]){  
                $thisSimmiar ++;  
            }  
        }  
        if($thisSimmiar>$tempSimmiar){  
            $tempSimmiar = $thisSimmiar;  
            $tempNum = $thisNum;  
        }  
    }  
    return $tempNum;  
}

七、優化部分

這塊就大家自己看著來吧，因為我的圖片不是很復雜，數據量也不是很大（千條級別），所以也沒啥優化的必要，每次識別大約 0.1 秒吧。所以我只是沒事干，做了之前大綱里寫了那兩個優化。其實我感覺主要的優化方向還是圖像處理那塊，盡量減少干擾，才能提高效率，也能檢測更復雜的驗證碼。

PS：訓練和識別的接口：

訓練：POST 發送 username（用戶名）、password（密碼）、n1（第一個數組）、n2、n3

、n4、num（真實四位字符）至 http://www.leonszone.cn/test/yanzhengma/train.php[3]。參考代碼：

function sendData() {  
    var str = prompt("請輸入驗證碼:", "");  
    if(!str)  
        return false;  
    postData = {//整合數據包  
        username: 'pdgzfx',  
        password: 'pdgzfx',  
        nums: str,  
        n1: numsArray[0],  
        n2: numsArray[1],  
        n3: numsArray[2],  
        n4: numsArray[3]  
    };  
    $.ajax({ 
         url: 'http://www.leonszone.cn/test/yanzhengma/train.php',  
        type: 'POST',  
        data: postData,  
        success: function (data) {  
            console.log(data);  
            setTimeout(function () {  
                location.reload();  
            },1000);  
        }  
    });  
}

識別：POST 發送 username（用戶名）、password（密碼）、n1（第一個數組）、n2、n3、n4 至 http://www.leonszone.cn/test/yanzhengma/check.php[4]。參考代碼：

function getData() {  
    postData = {//整合數據包  
        username: 'pdgzfx',  
        password: 'pdgzfx',  
        nums: 'help!!!',  
        n1: numsArray[0],  
        n2: numsArray[1],  
        n3: numsArray[2],  
        n4: numsArray[3]  
    };  
    $.ajax({  
        url: 'http://www.leonszone.cn/test/yanzhengma/check.php',  
        type: 'POST', 
        data: postData,  
        success: function (data) {  
            $("#Vercode").val(data);  
            console.log(data);  
        }  
    });  
}

注冊用戶名密碼（防止大家的庫混淆）：POST 或 GET 發送 username（用戶名）、password（密碼）至 http://www.leonszone.cn/test/yanzhengma/regist.php[5]。參考代碼：

function getData() {  
    postData = {//整合數據包  
        username: 'pdgzfx',  
        password: 'pdgzfx',  
        };  
    $.ajax({  
        url: 'http://www.leonszone.cn/test/yanzhengma/regist.php',  
        type: 'POST',  
        data: postData,  
        success: function (data) {  
            console.log(data); } }); }

或直接瀏覽器訪問：http://www.leonszone.cn/test/yanzhengma/regist.php\?username= 你的用戶名 \&amp;password=[6]你的密碼

好累，先休息下，看看有沒有人看吧…（我感覺應該沒多少人= = 還真的有人！！！）

責任編輯：龐桂玉來源： Web開發

JS 驗證碼前端

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看