Яка найкраща безкоштовна програма OCR або ICR для транскрипції рукопису?

Хав'єр запитує:

Я письменник оповідань і казок. Я шукаю безкоштовну програму оптичного розпізнавання символів (OCR) або інтелектуального розпізнавання символів (ICR) для сканування моїх старих рукописів із зображень або фотографій, щоб я міг перетворити їх на файли Microsoft Word.

Чи існують безкоштовні і точні програми, здатні зробити це? На жаль, у мене немає сканера, але у мене є доступ до цифрової камери з роздільною здатністю 20 мегапікселів.

Відповідь Каннона:

Як ви вже згадували, є кілька видів технологій розпізнавання символів, які можуть автоматично перетворювати рукописні або друковані написи на цифрові символи. Рівень точності цих видів програмного забезпечення сильно розрізняється в різних реалізаціях. Деякі конвертують за літерами, а інші можуть конвертувати цілі слова. Існує три основні категорії цього програмного забезпечення:

  • Оптичне розпізнавання символів (OCR)
  • Інтелектуальне розпізнавання символів (ICR)
  • Інтелектуальне розпізнавання слів (IWR)

Оптичне розпізнавання символів

По правді кажучи, OCR - це загальний термін, і часто всі методи, описані в цій статті, називаються OCR - проте Вікіпедія дає OCR свою власну класифікацію, але сучасні реалізації, як правило, об'єднують кілька методів. Так що ж це робить? OCR перетворює окремі друковані або рукописні літери на цифрові символи. Таким чином, програма переглядає документ, а потім намагається перетворити його на простий текст, вгадуючи, що являє собою кожен символ.

Програмне забезпечення не ідеальне. Програмне забезпечення OCR може неправильно витлумачувати окремі символи зі схожим зовнішнім виглядом, що призводить до помилкових слів і неточних висновків. У більшості випадків користувачі можуть копіювати текст, створений OCR, у текстовий процесор і автоматично виправляти орфографічні помилки. Часто помилки будуть відображатися у вигляді подібних символів. Наприклад, літеру «d» можна створити як «cl».

Але коли справа доходить до рукописних текстів, розпізнавання тексту не дуже добре. Принаймні, більшість безкоштовних реалізацій трагічно погані. Є деякі комерційні продукти, які дійсно можуть записати рукописну транскрипцію, але їх ціна робить їх повністю недоступними для широкої публіки. Наприклад, є програмне забезпечення Lexmark для читання оптичних дисків ReadSoft. Це корпоративне програмне забезпечення коштує тисячі доларів.

Інтелектуальне розпізнавання символів

ICR є підмножиною OCR, яке спеціалізується на перетворенні рукописного тексту в окремі цифрові символи. Враховуючи, що ваші нотатки і рукописи написані від руки, програма ICR є найбільш корисною. Однак я не впевнений, наскільки точно вони можуть конвертувати тексти, написані іноземними мовами, таких як іспанська. Як і у випадку з OCR, користувачі можуть поліпшити якість текстів, скопіювавши їх у текстовий процесор з увімкненим коригуванням орфографії, а потім відредагувавши вручну.

Інтелектуальне розпізнавання слів

Останньою еволюцією OCR і ICR є програмне забезпечення Intelligent Word Recognition. Замість розпізнавати окремі символи, він намагається перекласти всі рукописні слова. Як і OCR і ICR, інтелектуальне розпізнавання слів часто неправильно перекладає слова і вимагає, щоб користувач вручну виправляв будь-які допущені помилки.

Яке найкраще безкоштовне програмне забезпечення для розпізнавання тексту?

Тессеракт

Є багато доступних варіантів. Тессеракт, ймовірно, найкраще програмне забезпечення для оптичного розпізнавання тексту з відкритим вихідним кодом. Наскільки мені відомо, він дивиться тільки на окремих персонажів, а не на цілі слова.

Тому що ви використовуєте Microsoft Word (який має кращу, найбільш налаштовувану перевірку орфографії перевірити на підприємствах), ви можете просто скопіювати весь текст в Word, а потім запустити перевірку орфографії, щоб прибрати орфографічні помилки.

Тессеракт насправді є механізмом OCR, який запускається з командного рядка. Якщо ви не готові впоратися з труднощами володіння інструментом командного рядка, ви, ймовірно, захочете встановити щось більш зручне для користувача. Є завантажуваний «інтерфейс» (або графічний інтерфейс користувача), який дозволяє використовувати Tesseract як інструмент перетягування: PDF OCR X. Спочатку встановіть пакет програмного забезпечення, потім запустіть його. Ви побачите вікно:

Потім просто перетягніть файл зображення у вікно. Після завантаження зображення запустіть програму транскрипції OCR. Це може зайняти хвилину або близько того.

На жаль, він виявився абсолютно неадекватним для обробки вашого тексту. Ось як це виглядає після вилучення тексту з документа:

Microsoft OneNote

Оскільки здається, що ви вже використовуєте Microsoft Office, кращий варіант, ймовірно, також від Microsoft. Я збираюся здогадатися, що у вас є копія Microsoft Office, в яку входить OneNote. Це оснащено досить просунутою технологією OCR.

Крім того, як на iOS, так і на Android є також абсолютно безкоштовний об'єктив Microsoft Office, який може конвертувати JPEG (та інші формати зображень) безпосередньо в текст. Що робить мобільні версії такими чудовими, так це те, що ви можете знімати зображення, завантажувати їх в систему хмарних обчислень Microsoft, а потім запускати витяг тексту з OneNote на робочому столі.

Процес досить простий. Спочатку сфотографуй свій текст. Якщо ви вирішили використовувати програму OneNote, вам потрібно лише зберегти файл у своєму обліковому записі OneDrive. В іншому випадку перенесіть зображення на свій комп'ютер і помістіть в OneNote.

Потім клацніть правою клавішею миші зображення та виберіть «Копіювати текст з малюнка» в контекстному меню.

Потім клацніть правою кнопкою миші порожню частину OneNote (або в програмі для читання тексту) і вставте текст в. Вивід тексту з вашого документа виглядає наступним чином:

На жаль, результати OneNote не мають нічого спільного з хорошою роботою, виробляючи повну нісенітницю. Це може бути викликано поєднанням таких факторів, як спотворене зображення або запис, які не виконуються по прямій лінії, або просто тому, що програмне забезпечення недостатньо добре.

Google Keep

На даний момент найкраще рішення для розпізнавання рукописних документів відноситься до машинного навчання: зокрема, глибокому навчанню. Глибоке навчання - це складний метод навчання комп'ютера виконанню завдань, в яких раніше тільки людина мала перевагу, таких як розпізнавання облич (Picasa виконує розпізнавання облич, хочете вірте, хочете ні). Google нещодавно придбала DeepMind, яка розробляє технологію глибокого навчання Це придбання ключа мало великий ефект: Microsoft програє Google в OCR Зараз Google пропонує один з найбільш просунутих (і безкоштовних) методів: Google Keep.

Google Keep (який ми вперше розглянули в 2013 році ") також пропонує мобільну версію свого додатку для Android. Як і в OneNote, ви можете знімати зображення і передавати їх прямо в хмару Google. Просто перетягніть зображення у вікно Google Keep. Потім натисніть кнопку меню (три вертикальні точки) і виберіть «Захопити текст зображення» в контекстному меню.

Ось як це виглядає після вилучення тексту:

Google Keep Wins

Як бачите, Google Keep домінує в конкурентній боротьбі. Результати можуть поліпшуватися інструментом редагування зображень. інструментів, щоб збільшити контраст і вирівняти зображення.

Сподіваюся, ці варіанти допоможуть. Якщо вам потрібні додаткові можливості розпізнавання тексту, подивіться 5 кращих інструментів розпізнавання тексту 5 кращих інструментів, для отримання додаткової інформації.