CAPTCHA識別器可識別94.4%的暗網CAPTCHA
研究人員提出基于機器學習的CAPTCHA識別器,可以識別94.4%的暗網CAPTCHA。
當前,網絡攻擊和數據泄露等網絡犯罪數量指數級增長。因此,使暗網變得更加透明對于針對性的網絡攻擊防御具有重要意義。研究人員想要創建一個將網絡威脅情報流水線化處理的系統,這就需要系統能夠識別當前需要手動識別的CAPTCHA驗證碼。
CAPTCHA(Completely Automated Public Turing test to tell Computers and Humans Apart,全自動區分計算機和人類的圖靈測試)的目的是區分計算機和人類的一種程序算法,是一種區分用戶是計算機和人的計算程序,這種程序必須能生成并評價人類能很容易通過但計算機卻通不過的測試。
DW-GAN
暗網CAPTCHAs
為了保護暗網網站免受DDoS攻擊等的威脅,當前暗網網站在登錄頁都使用了CAPTCHA。而且這些CAPTCHA都是定制的,使得開發一個高準確率的CAPTCHA識別器非常困難。因此從暗網市場和論壇自動化地收集網絡威脅情報都變得非常困難和昂貴。
DW-GAN方法
為解決這一問題,研究人員提出一種基于機器學習方法的CAPTCHA識別器——DW-GAN。與近年來基于人工智能方法的CAPTCHA識別器方法不同,DW-GAN 使用GAN來去除背景噪聲,使用增強的字母分割算法來處理可變字符長度的CAPTCHA圖像。
圖 邊界追蹤與區間識別
識別器可以通過去除圖像噪聲、識別字母之間的邊界、將內容分割為單個字母的形式來區分字母與數字。
圖 去除CAPTCHA噪聲和分割字母
因此,CAPTCHA的大小并不影響識別器的有效性,尤其是識別3次的累計性能方面。不同CAPTCHA大小的識別準確率如下圖所示:
圖 不同CAPTCHA大小的識別準確率
從字符識別方面來看,識別器使用多個本地區域提取的樣本來識別線、邊等精細化特征,因此不會受到字符旋轉、字體大小變化、顏色混合等的影響。
圖 不同字體的數據樣本
現實場景測試
研究人員對DW-GAN方法在不同數據集上進行了測試,其中包括在現實場景Yellow Brick的測試。研究人員從Yellow Brick收集了1831個非法產品,其中有286個網絡安全相關的項目,包括102個竊取的信用卡、131個竊取的賬戶、9個偽造的掃描文件、44個黑客工具和1223條毒品相關的信息。
圖 在Yellow Brick市場對數據集進行測試
在DW-GAN的幫助下,對這1831個情報信息的數據花費; 5個小時。其中加載每個新頁面的HTTP請求花費8.8秒,因此發起1831個頁面花費了268.5秒,利用DW-GAN破解和識別CAPTCHA花費18.6秒/個。
總體來看,DW-GAN可以在不超過3次嘗試的情況下破解CAPTCHA,破解1831個產品頁面的CAPTCHA驗證碼花費了76分鐘。
與其他基于機器學習的驗證碼識別器的性能對比如下:
圖 其他基于機器學習的驗證碼識別器的性能對比
相關研究成果發表在期刊ACM Transactions on Management Information Systems上,DW-GAN代碼也上傳到了GitHub,參見:https://github.com/johnnyzn/DW-GAN
論文下載地址:https://arxiv.org/pdf/2201.02799.pdf
本文翻譯自:https://www.bleepingcomputer.com/news/security/researchers-develop-captcha-solver-to-aid-dark-web-research/如若轉載,請注明原文地址。