成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

小技巧:如何在Linux上從圖像和PDF中提取文本

系統 Linux
gImageReader是一個GUI工具,可利用tesseract OCR引擎從Linux中的圖像和PDF文件中提取文本。

 gImageReader是Tesseract開源OCR引擎的前端。Tesseract最初是由HP開發的,然后于2006年開源。

基本上,OCR(Optical Character Recognition光學字符識別)引擎使您可以掃描圖片或文件(PDF)中的文本。默認情況下,它可以檢測多種語言,并且還支持通過Unicode字符進行掃描。

但是,Tesseract本身就是沒有任何GUI的命令行工具。因此,在這里,gImageReader可以幫助任何用戶利用它來從圖像和文件中提取文本。

讓我重點介紹一些有關它的內容,同時提及我在測試期間的使用經驗。

gImageReader:Tesseract OCR的跨平臺前端

為了簡化工作,gImageReader可以方便地從PDF文件或包含任何類型文本的圖像中提取文本。

無論是拼寫檢查還是翻譯都需要它,它對于特定的用戶組應該很有用。

gImageReader功能介紹:

  •  從磁盤,掃描設備,剪貼板和屏幕截圖添加PDF文檔和圖像
  •  旋轉圖像的能力
  •  通用圖像控件可調節亮度,對比度和分辨率
  •  直接通過應用程序掃描圖像
  •  能夠一次處理多個圖像或文件
  •  手動或自動識別區域定義
  •  識別純文本或hOCR文檔
  •  編輯器顯示識別的文本
  •  可以拼寫檢查提取的文本
  •  從hOCR文檔轉換/導出為PDF文檔
  •  將提取的文本導出為.txt文件
  •  跨平臺(Windows)

在Linux上安裝gImageReader

注意:您需要顯式安裝Tesseract語言包以從軟件管理器中的圖像/文件中進行檢測。

您可以在某些Linux發行版(例如Fedora和Debian)的默認存儲庫中找到gImageReader。

對于Ubuntu,您需要添加一個PPA,然后再安裝它。為此,您需要在終端中輸入以下內容: 

  1. linuxmi@linuxmi:~/www.linuxmi.com$ sudo add-apt-repository ppa:sandromani/gimagereader  
  2. linuxmi@linuxmi:~/www.linuxmi.com$ sudo apt update 
  3. linuxmi@linuxmi:~/www.linuxmi.com$ sudo apt install gimagereader tesseract-ocr tesseract-ocr-eng tesseract-ocr-chi-sim tesseract-ocr-chi-tra -y  
  4. linuxmi@linuxmi:~/www.linuxmi.com$ sudo apt install tesseract-ocr-chi-sim-vert tesseract-ocr-chi-tra-vert -y 

您還可以從其構建服務中為openSUSE找到它,AUR將成為Arch Linux用戶的地方。

到存儲庫和軟件包的所有鏈接都可以在其GitHub頁面中找到。

使用gImageReader的經驗

gImageReader是一個非常有用的工具,可以在需要時從圖像中提取文本。當您嘗試使用PDF文件時,它的效果很好。

為了從智能手機拍攝的照片中提取圖像,檢測很接近,但是有點不準確。也許當您掃描某些內容時,從文件中識別字符可能會更好。

因此,您必須自己嘗試一下,看看它在您的用例中的效果如何。我在Ubuntu 20.04.2 LTS上進行了嘗試。

操作步驟

打開 gImageReader

添加pdf

識別語言選擇 多種語言 ==> 簡體字[chi_sim]+ English[eng]

復制或保存識別文本

操作結果參照下圖:

我只是在管理設置中的語言時遇到了一個問題,但沒有得到快速的解決方案。如果遇到此問題,則可能需要對其進行故障排除,并進一步了解如何解決該問題。

除此之外,它工作得很好。

永久鏈接:https://www.linuxmi.com/linux-ocr-gimagereader-pdf.html 

 

責任編輯:龐桂玉 來源: Linux公社
相關推薦

2021-03-15 21:50:22

Linux提取文本GUI工具

2023-11-29 11:30:17

PDF語言模型

2023-11-15 13:04:30

Python提取表格

2020-07-08 07:54:03

PythonPDF數據

2025-02-17 12:00:00

PythonOpenCV提取圖像

2021-05-13 23:54:12

DockerDockerfile鏡像

2018-03-25 08:44:07

iPhonePDF網頁

2018-01-26 09:02:30

LinuxPDF創建視頻

2014-02-28 10:26:16

Linux文本搜索ack

2023-11-20 22:07:51

PythonPDF

2016-01-26 11:08:54

2021-08-16 11:51:16

微軟Windows 365Azure

2019-08-14 09:42:06

LinuxElasticsearKibana

2015-08-04 14:04:28

UbuntuPDF文件

2023-08-28 15:52:10

LinuxPDF

2013-04-01 11:14:56

IT大數據網絡信息化

2022-11-23 10:31:54

2014-05-12 10:57:41

TermRecord終端會話

2020-03-20 18:19:05

UbuntuLinuxNetbeans

2018-03-29 15:21:03

LinuxDebian網橋
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日日操夜夜操天天操 | 男人天堂手机在线视频 | 欧美日韩在线观看一区 | 午夜欧美一区二区三区在线播放 | 99福利视频 | 日韩在线观看网站 | 久久久久国产一区二区三区 | 欧美成人不卡 | 欧美成人一区二免费视频软件 | 精品少妇一区二区三区日产乱码 | 久久av一区二区三区 | 欧美视频中文字幕 | 91影库 | 国产a区 | 18av在线播放| 激情自拍偷拍 | 中文字幕一页二页 | 天天躁日日躁狠狠的躁天龙影院 | 国产高清免费视频 | 中文字幕国产 | 成人影院一区二区三区 | 日韩一区二区三区视频在线播放 | 亚洲最大的黄色网址 | 天天躁人人躁人人躁狂躁 | 中文字幕加勒比 | 国产精品揄拍一区二区 | 免费一级网站 | 91精品国产自产在线老师啪 | 99视频网站 | 本道综合精品 | 免费观看av| 免费视频一区二区 | 日韩av免费在线观看 | 国际精品鲁一鲁一区二区小说 | 免费一级淫片aaa片毛片a级 | 精品久久久久久久久久久下田 | 欧美久久久久久久 | 亚洲欧洲中文日韩 | 福利网址 | 欧美激情综合五月色丁香小说 | 美女黄色在线观看 |