реклама

Хавиер пита:

Аз съм писател на кратки истории и приказки. Търся безплатно Оптично разпознаване на символи (OCR) или Интелигентно разпознаване на символи (ICR) програма за сканиране на старите ми ръкописи от изображения или снимки, за да мога да ги преобразувам във файлове на Microsoft Word.

Има ли свободни и точни програми, способни да направят това? За съжаление нямам скенер, но имам достъп до цифрова камера с разделителна способност от 20 мегапиксела.

ръкопис

Отговор на Канон:

Както вече споменахте, има няколко вида технологии за разпознаване на знаци, които могат автоматично да преобразуват ръкописно или набрано писане в цифрови знаци. Нивото на точност на този вид софтуер варира значително в различните приложения. Някои конвертират въз основа на буква за буква, а други могат да конвертират цели думи. Има три общи категории на този софтуер:

  • Оптично разпознаване на символи (OCR)
  • Интелигентно разпознаване на символи (ICR)
  • Интелигентно разпознаване на думи (IWR)

Оптично разпознаване на символи

В интерес на истината OCR е общ термин и често всички методи, описани в тази статия, се наричат ​​OCR - Уикипедия обаче дава на OCR своя собствена класификация, но съвременните реализации са склонни да събират едновременно множество методи. И така, какво прави? OCR преобразува отделни букви или ръкописни букви в цифрови знаци. Така софтуерът разглежда документ и след това се опитва да го преобразува в обикновен текст, като отгатне какъв е всеки символ.

instagram viewer

Софтуерът не е перфектен. Софтуерът за OCR може да изтълкува погрешно отделни знаци със сходни изяви, което води до неправилно изписани думи и неточни резултати. През повечето време потребителите могат да копират текста, генериран от OCR програма, в текстов процесор и автоматично да коригират правописните грешки. Често грешките ще се появят като подобни символи. Например буквата "d" може да бъде представена като "cl".

Но що се отнася до ръкописни текстове, OCR не се справя много добре. Поне повечето от безплатните реализации са трагично лоши. Има някои търговски продукти, които могат наистина ли транскрипция на ръка с нокти, но ценообразуването им ги поставя напълно недостъпни за широката публика. Например, има Lexmark Софтуер за ReadSoft OCR. Този софтуер само за предприятие струва хиляди на долари.

анотиран текст

Интелигентно разпознаване на символи

ICR е подмножество на OCR, което е специализирано в преобразуването на ръкописен текст в отделни цифрови знаци. Като се има предвид, че вашите бележки и ръкописи са написани на ръка, ICR програма е най-полезната. Не съм сигурен обаче колко точно могат да конвертират текстове, написани на чужди езици, като испански. Както при OCR, потребителите могат да подобрят качеството на изведените текстове, като ги копират в текстов процесор с включена корекция на правописа и след това на корекция на ръка.

Тест на характер: 10 игри с шрифтове, които доказват типография, могат да бъдат забавни

Интелигентно разпознаване на думи

Последната еволюция на OCR и ICR е Интелигентно разпознаване на думи софтуер. Вместо да разпознава отделни знаци, той се опитва да преведе цели ръкописни думи. Подобно на OCR и ICR, интелигентното разпознаване на думи често неправилно превежда думи и изисква от потребителя ръчно да коригира всички допуснати грешки.

Кой е най-добрият безплатен OCR софтуер?

Налични са много опции. тесеракт е може би най-доброто отворен код (и безплатен) OCR софтуер там. Доколкото знам, тя разглежда само отделни герои, а не цели думи.

Тъй като използвате Microsoft Word (който има най-доброто, най-персонализираната проверка на правописа Как да проверите правописа и граматиката в Microsoft WordМожете да персонализирате вградените инструменти за проверка на правописа и граматиката на Microsoft Word, за да отговаряте на вашите нужди. Можете дори да използвате AutoCorrect, за да ускорите писането. Прочетете още в бизнеса) можете просто да копирате целия текст в Word и след това да извършите проверка на правописа, за да изчистите правописни грешки.

Tesseract всъщност е OCR двигател, който работи от командния ред. Освен ако не сте готови да се справите с трудността да разполагате с инструмент за команден ред, вероятно ще искате да инсталирате нещо по-удобно за потребителя. Има „преден край“ (или графичен потребителски интерфейс) за изтегляне, който ви позволява да използвате Tesseract като инструмент за плъзгане и пускане: PDF OCR X. Първо инсталирайте софтуерния пакет, след което го стартирайте. След това ще видите прозорец:

PDF OCR интерфейс

След това просто плъзнете и пуснете изображението на прозореца. След като изображението се зареди, стартирайте софтуера за транскрипция на OCR. Това може да отнеме около минута.

За съжаление се оказа напълно неадекватен за работа с вашия текст. Ето как изглежда след извличане на текст от документа:

Извличане на OCR изображение с помощта на tesseract

Тъй като изглежда, че вече използвате Microsoft Office, най-добрият вариант вероятно е също от Microsoft. Предполагам, че притежавате копие на Microsoft Office, което включва OneNote. Това е оборудвано с доста напреднала OCR технология.

Също и на двете IOS и андроид, има и напълно безплатно Обектив на Microsoft Office, която може да конвертира JPEG (и други формати на изображения) директно в текст. Това, което прави мобилните версии толкова прекрасни, е, че можете да заснемете изображение, да го качите в облачната система на Microsoft и след това да стартирате извличането на текст от OneNote на десктоп.

Процесът е доста прост. Първо направете снимка на вашия текст. Ако сте решили да използвате приложението OneNote, тогава ще трябва само да запазите файла в акаунта си в OneDrive. В противен случай прехвърлете изображението на вашия компютър и пуснете върху OneNote.

След това щракнете с десния бутон върху изображението и изберете копиеТекст от снимка от контекстното меню.

извличане на един бележка от текст

След това щракнете с десния бутон върху празна част на OneNote (или в приложение за четене на текст) и поставете текста в. Изведеният текст от вашия документ изглежда така:

onenote OCR извличане на текст

За съжаление, резултатите от OneNote не правят навсякъде близо до добра работа, произвеждайки пълни глупости. Това може да бъде причинено от комбинация от фактори, като например изкривено изображение или запис, който не се прави по права линия, или просто защото софтуерът не е достатъчно добър.

В момента най-доброто решение за OCR на ръкописни документи се отнася до машинното обучение: По-конкретно, задълбоченото обучение. Дълбокото обучение е усъвършенстван метод за обучение на компютър за изпълнение на задачи, в които преди това се е отличавал само човек, като например разпознаване на лице (Picasa прави разпознаване на лице Как да използвате разпознаването на лица в уеб албуми на Picasa Прочетете още , вярваш или не). Наскоро Google закупи DeepMind, който се развива технология за дълбоко обучение Готини изследователски проекти, които могат да променят бъдещетоЩе продължат ли мегакорпорациите като Google, Microsoft, IBM и Intel да дадат на бъдещите поколения света, който само сега можем да си представим? Тези вълнуващи изследователски проекти казват, че е обещание, което те ще спазят. Прочетете още . Тази ключова придобивка имаше голям ефект: Microsoft губи от Google в OCR Майкрософт срещу Google - Кой води състезанието по изкуствен интелект?Изследователите на изкуствения интелект постигат осезаем напредък и хората отново започват да говорят сериозно за AI. Двамата титани, водещи в състезанието за изкуствен интелект, са Google и Microsoft. Прочетете още . В момента Google предлага един от най-модерните (и безплатни) методи: Google Keep.

Google Keep (която за първи път прегледахме през 2013 г. Прости бележки в движение: Google Keep For Android е прегледанаИма някои невероятни приложения за водене на бележки, но ето едно, което заслужава по-отблизо: Google Keep, пазител на бележки, който има едновременно страхотно приложение за Android и гладък webapp. Прочетете още ) предлага и тяхна мобилна версия приложение за Android. Както при OneNote, можете да снимате изображението и да го прехвърляте директно в облака на Google. Просто плъзнете изображението в прозореца на Google Keep. След това кликнете върху бутона на менюто (три вертикални точки) и изберете Хванете текст на изображението от контекстното меню.

google Keep

Ето как изглежда след извличане на текста:

2015-07-18_19h45_34

Google Keep Wins

Както можете да видите, Google Keep доминира в конкуренцията. Резултатите могат да бъдат допълнително подобрени чрез използване на инструмент за редактиране на изображения 10 безплатни инструмента за редактор на снимки, за да извлечете максимума от вашите снимкиКакво се е случило с всички снимки, които сте направили в миналото? Ако имате планове и идеи, ето няколко страхотни Windows и някои инструменти за многоплатформа, с които да ги обработвате. Прочетете още за да увеличите контраста и да изправите изображението.

Дано тези опции помогнат. В случай, че се нуждаете от повече опции за OCR, моля, проверете 5 най-добри OCR инструменти 5-те най-добри OCR инструменти за извличане на текст от изображенияКогато имате типове хартия, как да получите целия този печатен текст, преобразуван в нещо, което цифровата програма ще може да разпознае и индексира? Дръжте един добър OCR софтуер наблизо. Прочетете още , за повече информация.

Kannon е технически журналист (BA) с опит в международните отношения (MA) с акцент върху икономическото развитие и международната търговия. Страстите му са в джаджи, създадени в Китай, информационни технологии (като RSS) и съвети и трикове за производителност.