這個開源文本識別系統我粉了!
說到文本識別大家已經非常熟悉了,這一技術早就深深融入我們生活的方方面面,今天,猿妹要和大家分享一個可以識別文本背后含義的工具——pyWhat。
當你不知道特定一串文本代表什么時,它能快速判斷它是否是 email、油管視頻編號、手機號 或者是其他信息格式。你給它一個 .pcap 文件或者一段文本,它能告訴你這個文件或是文本代表了什么。
目前,pyWhat已經在Github上標星3.8K,累計分支 127 個
(Github地址:https://github.com/bee-san/pyWhat)
同搜索不同,pyWhat 會自動進行文本分斷,例如 5f4dcc3b5aa765d61d8327deb882cf99 如果沒有完全匹配的信息格式,pyWhat 會切斷文本進行多個不同字符串長度的完全匹配
示例
比如當你遇到了一個名為 WantToCry的新惡意軟件,你回想起 Wannacry 并記得它被停止是因為研究人員在代碼中發現了一個終止開關。
當一個硬編碼到 Wannacry 的域被注冊時,病毒就會停止。你可以通過這個工具識別惡意軟件中的所有域,并使用域注冊器 API 來注冊所有域。如果 Wannacry 再次發生,你就可以在幾分鐘內阻止它,而不是幾周。
更快地分析 Pcap 文件
假設你有一個.pcap來自網絡攻擊的文件。What可以識別并快速找到以下內容:
- 所有哈希
- 信用卡號碼
- 加密貨幣地址
- 聯系方式等
簡而言之,只要你想要在一個文件中找出所有有用的結構化數據,pywhat都適合你。