Ако сте студент или работата ви включва работа с много изображения и PDF файлове, в даден момент бихте почувствали нужда да извлечете текст от изображение или документ.

За щастие извличането на текст прави това възможно. И има няколко инструмента, които можете да използвате, за да направите това. gImageReader е един от многото инструменти. Той е безплатен за използване и работи както с файлове с изображения, така и с PDF документи.

Нека се потопим, за да разгледаме подробно gImageReader и да видим как можете да го използвате за извличане на текст от изображения и PDF файлове.

Какво е gImageReader?

gImageReader е приложение, което ви позволява да извличате текст от изображения и PDF файлове на Linux. По същество това е GUI или преден край към машината Tesseract OCR, ан отворен код двигател, разработен от Hewlett-Packard, който се счита за един от най-добрите налични OCR двигатели.

С gImageReader можете лесно и доста точно да извличате текст от изображения или PDF документи с няколко прости щраквания. След това можете да експортирате извлечения текст в текстов или PDF файл за по-нататъшна употреба.

instagram viewer

Характеристики на gImageReader

gImageReader включва следните функции:

  • Импортирайте PDF документи и изображения от различни източници (диск, сканиращи устройства, клипборд и екранна снимка)
  • Пакетна обработка на изображения или документи, т.е. извличане на текст от множество изображения или документи наведнъж
  • Разпознавайте текстови фрагменти като обикновен текст или hOCR документи
  • Вградена проверка на правописа
  • Автоматично откриване на текстова област
  • Основно редактиране на изображения/документи
  • Запазете резултата като текстов файл

Как да инсталирате gImageReader на Linux

gImageReader е достъпен на най-големите Linux дистрибуции. Но преди да продължите с инсталирането му, трябва да инсталирате Tesseract OCR двигателя на вашата система.

За да направите това, отворете Софтуерен мениджър на вашата система и потърсете тесеракт. Когато върне списък с резултати, инсталирайте тесеракт-окр и tesseract-ocr-eng пакети. Можете също да използвате мениджъри на пакети от командния ред, за да инсталирате пакета, ако ви е по-удобно с терминала.

След това вижте инструкциите за инсталиране в следващите раздели, за да инсталирате gImageReader на вашия компютър.

Ако използвате Debian или Ubuntu, отворете терминала и изпълнете командите по-долу, за да инсталирате gImageReader:

sudo add-apt-repository ppa: sandromani/gimagereader
sudo apt-получавам актуализация
sudo apt Инсталирай gimagereader

Във Fedora, CentOS или Red Hat Enterprise Linux (RHEL):

sudo dnf Инсталирай gimagereader-qt 

На Arch Linux или Манджаро:

sudo pacman -S gimagereader

Потребителите на openSUSE могат да инсталират gImageReader с помощта на:

sudo zypper Инсталирай gimagereader

В случай, че използвате друга дистрибуция на Linux, можете да изградите gImageReader от изходния код, като следвате инструкциите на GitHub на gImageReader.

Как да използвате gImageReader на Linux

gImageReader е доста лесен за използване и работи с всички видове файлове с изображения, както и с PDF документи. Следвайте инструкциите по-долу, за да извлечете текст от изображения или PDF файлове на Linux.

Отворете менюто с приложения, потърсете gImageReaderи стартирайте приложението. Удари Увеличете максимално в прозореца на gImageReader, за да го отворите в изглед на цял екран.

Сега щракнете върху Добавете изображения в левия панел под лентата с инструменти и използвайте файловия браузър, за да изберете изображението(ата) или PDF(ите), от които искате да извлечете текст.

Кликнете Добре за импортиране на изображение(а) или PDF(и) в gImageReader. Или, ако искате да извлечете текст от това, което се показва на екрана, щракнете върху падащото меню до Добавете изображения бутон и изберете Направи снимка на екрана. gImageReader ще направи екранна снимка на съдържанието на екрана.

След като добавите изображението към gImageReader, щракнете върху Превключване на изходния панел бутон (един с икона на бележник), за да изведете изходния панел. Това е мястото, където се появява текстът, който извличате от изображения или PDF файлове.

В зависимост от това как искате да продължите, вече имате опцията да идентифицирате текста в изображението или PDF автоматично или ръчно. За да направите това автоматично, щракнете върху Автоматично разпознаване на оформлението и той ще маркира всички текстови блокове в избраното изображение или PDF документ.

След това докоснете Разпознаване на селекцията > Текуща страница за да започнете процеса на извличане на текст.

Като алтернатива, за да изберете текста ръчно, задръжте курсора на мишката над текста, който искате да извлечете, и с помощта на косъм начертайте квадрат около областта, от която искате да извлечете текста. След това натиснете Разпознаване на селекцията бутон, за да продължите.

Ако това е PDF документ и искате да извлечете текст от различни страници, докоснете плюс (+), за да прелистите страниците.

За да се върнете назад, натиснете Минус (-) бутон. След това изберете текста, който искате да извлечете, и натиснете Разпознаване на селекцията бутон, за да го извлечете.

Макар и рядко, може да има моменти, когато gImageReader ще върне извлечения текст на език, различен от английски. Когато това се случи, просто докоснете падащия бутон отстрани Разпознаване на селекцията и изберете една от английските опции.

Накрая, за да запазите извлечения текст, щракнете върху Запазване на изхода бутон. Това ще изведе прозореца Запазване. Тук дайте име на файла и натиснете Добре.

Какво друго можете да правите с gImageReader?

Както споменахме по-рано, gImageReader също ви дава възможност да променяте определени аспекти на импортираните изображения или документи, като тяхната яркост, контраст и разделителна способност. Освен това можете също да обръщате цветовете или да завъртате изображенията или документите, ако е необходимо.

Повечето от тези опции могат да се окажат полезни, когато текстът в изображение или документ не е четлив за gImageReader и следователно пречи на инструмента да разпознае текста.

За достъп до някоя от тези опции за редактиране щракнете върху Контроли на изображението и ще разкрие мини лента с инструменти под основната лента с инструменти. Оттук изберете подходящите бутони, за да извършите желаната операция за редактиране на изображението или документа.

Извличането на текст в Linux става лесно с gImageReader

Извличането на текст често изисква правилния инструмент: такъв, който използва надеждна и точна OCR машина, която му позволява да идентифицира ефективно текст в изображение или документ, така че можете да го извлечете ефективно без никакви караница.

gImageReader постига това добре, благодарение на Tesseract OCR двигателя, който използва във фонов режим. Като се има предвид лекотата на използване, gImageReader несъмнено е един от най-добрите инструменти за извличане на текст, налични за Linux.

Като алтернатива, ако търсите по-просто решение, можете да разгледате TextSnatcher, който е бърз и доста лесен за използване.