реклама

Издърпването на текст от изображения никога не е било по-лесно, отколкото днес, благодарение на технологията за оптично разпознаване на символи (OCR).

OCR ни позволява да правим всякакви полезни неща, като например търсене на изображения с помощта на текстови заявки, възпроизвеждане на документи, без да ги пишете на ръка и дори конвертиране на ръкописен текст в цифров текст Как да конвертирате изображение с ръкопис в текст с помощта на OCRТрябва да дигитализирате ръкописни бележки за редактиране или да ги запазите за по-късно? Ето най-добрите OCR инструменти за преобразуване на почерк в текст. Прочетете още .

Но какво е оптично разпознаване на символи? Как всъщност работи? Може да ви се стори черна магия, но до края на тази статия ще имате стабилно разбиране за това как компютрите могат да разпознават букви и думи.

Как работи оптичното разпознаване на символи

За да разберем как текстът се извлича от изображение, първо трябва да разберем какви са изображенията и как се съхраняват на компютрите.

instagram viewer

А пиксел е една точка с определен цвят. Една образ по същество е колекция от пиксели. Колкото повече пиксели в изображението, толкова по-висока е неговата разделителна способност. Компютърът не знае, че изображението на указател е наистина указателен знак - той просто знае, че първият пиксел е този цвят, следващият пиксел е този цвят и показва всичките му пиксели, които можете да видите.

Това означава, че текстът и нетекстът не се различават от компютъра и затова оптичното разпознаване на символи е толкова трудно. Имайки това предвид, ето как работи.

Стъпка 1: Предварителна обработка на изображението

Преди да може да се изтегли текстът, изображението трябва да се масажира по определени начини, за да се извлече по-лесно и по-вероятно да успее. Това се нарича предварителна обработка и различните софтуерни решения използват различни комбинации от техники.

По-често срещаните техники за предварителна обработка включват:

бинаризацията
Всеки един пиксел в изображението се преобразува в черно или бяло. Целта е да се изясни кои пиксели принадлежат на текста и кои пиксели принадлежат на фона, което ускорява действителния процес на OCR.

Бинаризация за оптично разпознаване на символи

Обръщане
Тъй като документите рядко се сканират с перфектно подравняване, знаците могат да се окажат наклонени или дори наопаки. Целта тук е да се идентифицират хоризонтални линии на текста и след това да се завърти изображението, така че тези линии да са всъщност хоризонтални.

Despeckle
Независимо дали изображението е бинаризирано или не, може да има шум, който може да попречи на идентифицирането на знаците. Отчаянието се отървава от този шум и се опитва да изглади изображението.

Премахване на линия
Идентифицира всички линии и маркировки, които вероятно не са символи, след което ги премахва, така че действителният процес на OCR да не се обърква. Това е особено важно при сканиране на документи с таблици и кутии.

райониране
Разделя изображението на отделни парчета текст, като идентифициране на колони в документи с много колони.

Зониране за оптично разпознаване на символи
Кредитна снимка: WayneRay /Wikimedia

Стъпка 2: Обработка на изображението

Първо, първо, OCR процесът се опитва да установи основната линия за всеки ред текст в изображението (или ако той е бил зониран при предварителна обработка, той ще работи през всяка зона една по една). Всеки идентифициран ред от знаци се обработва един по един.

За всеки ред символи софтуерът OCR идентифицира разстоянието между знаците, като търси вертикални линии на нетекстови пиксели (което трябва да е очевидно при правилното бинаризиране). Всеки парче пиксели между тези нетекстови редове се маркира като „знак“, който представлява един знак. Следователно тази стъпка се нарича токанизация.

Обработка на изображения за оптично разпознаване на символи

След като всички потенциални символи в изображението са токенизирани, софтуерът за OCR може да използва две различни техники, за да идентифицира какви символи всъщност представляват тези символи:

Разпознаване на шаблон
Всеки маркер се сравнява от пиксел на пиксел с цял набор от известни глифове - включително числа, препинателни знаци и други специални символи - и се избира най-близкото съвпадение. Тази техника е известна още като съвпадение на матрицата.

Тук има няколко недостатъка. Първо, жетоните и глифовете трябва да са с подобен размер, иначе никой от тях няма да съвпада. Второ, жетоните трябва да са с подобен шрифт като глифовете, което изключва почерка. Но ако шрифтът на маркера е известен, разпознаването на шаблони може да бъде бързо и точно.

Извличане на функции
Всеки знак се сравнява с различни правила, които описват какъв характер може да бъде. Например две вертикални линии с еднаква височина, свързани с една хоризонтална линия, вероятно ще бъдат главна буква H.

Тази техника е полезна, тъй като не е ограничена до определени шрифтове или размери. Той може също да бъде по-нюансиран в разпознаването на фините разлики между главна буква I, малка буква L и число 1. Недостатъкът? Програмирането на правилата е много по-сложно от просто сравняване на пиксели в символи с пикселите в глиф.

Стъпка 3: След обработка на изображението

След като приключи съвпадението на токените, софтуерът за OCR може просто да го извика на ден и да ви представи резултатите. Но обикновено трябва да се направи малко повече играене, за да сте сигурни, че няма да търкаляте очи при безсмислени резултати.

Лексикално ограничение
Всички думи се сравняват с лексикон от одобрени думи и всички, които не съвпадат, се заменят с най-подходящата дума. Речник е един пример за лексикон. Това може да помогне за коригиране на думи с грешни знаци, като „трън“ вместо „th0rn“.

Специфични за приложението оптимизации
Когато OCR се използва в нишови настройки, като например за медицински или правни документи, може да се използва специален вид OCR, който е специално проектиран за тази настройка. В тези случаи софтуерът за OCR може да търси математически уравнения, специфични за индустрията термини и т.н.

Естествен език
Тази усъвършенствана техника коригира изреченията с помощта на езиков модел, който описва колко вероятно да бъдат последвани определени думи от други думи. Подобно е на технологията, която предсказва каква дума искате да напишете след това на мобилна клавиатура.

Когато се направи добре, това може да доведе до четене на текст.

Препоръчителни инструменти за разпознаване на оптични символи

Сега, когато знаете как работи OCR, трябва да е лесно да се види, че не всички инструменти на OCR са равни. Точността на вашите резултати ще зависи силно от това доколко софтуерът реализира различните техники за OCR, обсъдени в тази статия.

Силно препоръчваме OneNote за това, което е само една причина защо бие Evernote за водене на бележки Evernote vs. OneNote: Кое приложение за отбелязване е подходящо за вас?Evernote и OneNote са невероятни приложения за водене на бележки. Трудно е да изберете между двете. Сравнихме всичко - от интерфейс до организация на бележки, за да ви помогнем да изберете. Какво работи най-добре за вас? Прочетете още . Ако желаете да платите за премиум решение, помислете за OmniPage. Вижте нашите сравнение на OneNote vs. OmniPage за OCR Безплатно vs. Платен OCR софтуер: Microsoft OneNote и Nuance OmniPage СравнениСофтуерът за OCR скенер ви позволява да конвертирате текст в изображения или PDF файлове в текстови документи, които могат да се редактират. Достатъчно добър ли е безплатен OCR инструмент като OneNote? Нека разберем! Прочетете още . За мобилни документи ще искате да проверите тези OCR приложения за Android устройства 6 най-добри приложения за Android OCR за извличане на текст от изображенияТрябва ли да дигитализирате някакъв отпечатан текст, за да можете да поддържате меко копие от него? Ако е така, всичко, от което се нуждаете, е инструмент за оптично разпознаване на символи (OCR). Прочетете още .

Как използвате OCR? Имате ли любими инструменти за OCR, които не споменахме? Уведомете ни в коментарите по-долу!

Джоел Лий има B.S. в областта на компютърните науки и над шест години професионален опит в писането. Той е главен редактор на MakeUseOf.