總模型僅17M!這個超輕量中文OCR開源項目在Github火了
項目地址:https://github.com/ouyanghuiyu/chineseocr_lite
光學字符識別(OCR)相信大家都不陌生,就是指電子設備(例如掃描儀或數碼相機)檢查紙上打印的字符,通過檢測暗、亮的模式確定其形狀,然后用字符識別方法將形狀翻譯成計算機文字的過程。
目前比較常用的中文OCR開源項目是 chineseocr,最近又有一個新開源的中文OCR項目,登上Github Trending榜單第二——chineseocr_lite
這是一個超輕量級中文 ocr,支持豎排文字識別,支持 ncnn 推理,psenet (8.5M) + crnn (6.3M) + anglenet (1.5M) 總模型僅 17M。目前已經在Github上標星2.6K,累積343個Fork(Github地址:https://github.com/ouyanghuiyu/chineseocr_lite)
chineseocr_lite實現的功能如下:
- 提供輕量的backone檢測模型psenet(8.5M),crnn_lstm_lite(9.5M) 和行文本方向分類網絡(1.5M)
- 任意方向文字檢測,識別時判斷行文本方向
- crnncrnn_lite lstmdense識別(ocr-dense和ocr-lstm是搬運chineseocr的)
- 支持豎排文本識別
- ncnn 實現 (支持lstm)
- mnn 實現
話不多說,先來看看效果:
接下來,我們再說一下chineseocr_lite的運行環境:
- Ubuntu 18.04
- Python 3.6.9
- Pytorch 1.5.0.dev20200227+cpu
此外,最近項目作者對更新了可實現的功能。
- nihui 大佬實現的 crnn_lstm 推理
- 升級 crnn_lite_lstm_dw.pth 模型 crnn_lite_lstm_dw_v2.pth , 精度更高
- 提供豎排文字樣例以及字體庫(旋轉 90 度的字體)
如果你也對這個項目感興趣就趕緊嘗試下吧。