小技巧：如何在Linux上從圖像和PDF中提取文本

作者：XXVI.AI 2021-03-10 10:20:06

系統 Linux

gImageReader是一個GUI工具，可利用tesseract OCR引擎從Linux中的圖像和PDF文件中提取文本。

gImageReader是Tesseract開源OCR引擎的前端。Tesseract最初是由HP開發的，然后于2006年開源。

基本上，OCR（Optical Character Recognition光學字符識別）引擎使您可以掃描圖片或文件（PDF）中的文本。默認情況下，它可以檢測多種語言，并且還支持通過Unicode字符進行掃描。

但是，Tesseract本身就是沒有任何GUI的命令行工具。因此，在這里，gImageReader可以幫助任何用戶利用它來從圖像和文件中提取文本。

讓我重點介紹一些有關它的內容，同時提及我在測試期間的使用經驗。

gImageReader：Tesseract OCR的跨平臺前端

為了簡化工作，gImageReader可以方便地從PDF文件或包含任何類型文本的圖像中提取文本。

無論是拼寫檢查還是翻譯都需要它，它對于特定的用戶組應該很有用。

gImageReader功能介紹:

從磁盤，掃描設備，剪貼板和屏幕截圖添加PDF文檔和圖像
旋轉圖像的能力
通用圖像控件可調節亮度，對比度和分辨率
直接通過應用程序掃描圖像
能夠一次處理多個圖像或文件
手動或自動識別區域定義
識別純文本或hOCR文檔
編輯器顯示識別的文本
可以拼寫檢查提取的文本
從hOCR文檔轉換/導出為PDF文檔
將提取的文本導出為.txt文件
跨平臺（Windows）

在Linux上安裝gImageReader

注意：您需要顯式安裝Tesseract語言包以從軟件管理器中的圖像/文件中進行檢測。

您可以在某些Linux發行版（例如Fedora和Debian）的默認存儲庫中找到gImageReader。

對于Ubuntu，您需要添加一個PPA，然后再安裝它。為此，您需要在終端中輸入以下內容：

linuxmi@linuxmi:~/www.linuxmi.com$ sudo add-apt-repository ppa:sandromani/gimagereader  
linuxmi@linuxmi:~/www.linuxmi.com$ sudo apt update 
linuxmi@linuxmi:~/www.linuxmi.com$ sudo apt install gimagereader tesseract-ocr tesseract-ocr-eng tesseract-ocr-chi-sim tesseract-ocr-chi-tra -y  
linuxmi@linuxmi:~/www.linuxmi.com$ sudo apt install tesseract-ocr-chi-sim-vert tesseract-ocr-chi-tra-vert -y

您還可以從其構建服務中為openSUSE找到它，AUR將成為Arch Linux用戶的地方。

到存儲庫和軟件包的所有鏈接都可以在其GitHub頁面中找到。

使用gImageReader的經驗

gImageReader是一個非常有用的工具，可以在需要時從圖像中提取文本。當您嘗試使用PDF文件時，它的效果很好。

為了從智能手機拍攝的照片中提取圖像，檢測很接近，但是有點不準確。也許當您掃描某些內容時，從文件中識別字符可能會更好。

因此，您必須自己嘗試一下，看看它在您的用例中的效果如何。我在Ubuntu 20.04.2 LTS上進行了嘗試。

操作步驟

打開 gImageReader

添加pdf

識別語言選擇多種語言 ==> 簡體字[chi_sim]+ English[eng]