Конвертация текста с бумажных носителей в электронный вид

Привет друзья. По окончанию последней статьи пришла идея написать о «Конвертации текста с бумажных носителей в электронный вид» так как о переделке PDF в FB2 я уже писал.  Думаю, что и данная статья будет уместной.

На сегодняшний день достаточно актуальна проблема конвертации текста с бумажных носителей в электронный вид. Особенно это трудозатратно в промышленных масштабах.

В конце двадцатого века появились специализированные системы, занимающиеся оптическим распознаванием символов. Все, что необходимо для их работы, это полученные путем сканирования или фотографирования изображения текстовых данных.

Система несколькими этапами обрабатывает изображения, сопоставляя каждому участку соответствующий символ, и сохраняет результат в выбранный пользователем формат.

Однако, такие системы не всегда точны, в среднем они удачно переводят около 99% данных. Правильность конвертации зависит от многих факторов: угол сканирования документа, пятна, надломы и другие физические повреждения. Поэтому результат работы таких программ нуждается в человеческом вмешательстве.

Но существуют и многоязычные документы. Качество их перевода зависит от способности системы правильно и в нужный момент определять язык текста. Для этого в системах существуют группы языков и встроенные словари, занимающиеся идентификацией слов.

На данный момент существует достаточно большое число коммерческих и открытых для общего пользования программ, таких как “ABBYY FineReader Online”, “Readiris Pro”, “OmniPage”, “CuneiForm” и других, профессионально занимающихся оптическим распознаванием текстов.

Все эти программы используют технологию оптического распознавания символов (ОРС).

ОРС – электронный перевод с бумажного носителя в текстовые данные, которые, могут быть представлены в любом текстовом редакторе.

Этот термин возник в 1929 году, а в 1935 году появилось механическое устройство, работавшее с документами с помощью метода ОРС. Далее этот метод совершенствовался и развивался.

В 90-ых годах российская компания “ОКРУС” создала программу “AutoR”, которая распознавала кириллицу. На тот момент алгоритм был в полной мере «умным» и работал быстро.

Вскоре еще одна компания “ABBYY” создала новую технологию распознавания, которая стала популярной и массово использовалась как обычными пользователями, так и компаниями.

Современные системы, ориентированные на задачу оптического распознавания символов, работают с большими растровыми изображениями источника информации, занимающими до 1Мб памяти.

Работа проводится в несколько этапов.

На первом этапе программа разбивает изображение на блоки текста, опираясь на выравнивание текста и колонки.

Следующий этап заключается в том, что полученные блоки разбиваются на строки. На данном этапе существуют проблемы с восприятием текста по причине того, что страница может иметь физические повреждения или отсканирована под каким-либо углом, тогда, например, у таких букв, как «ё», «j» верхние знаки строки №2 могут быть восприняты как точки для верхней строки №1.

На последнем этапе строки разбиваются на изображения и сопоставляются с определенными символами. Таким образом, ОРС по буквам восстанавливает страницу текста.

Не забудьте оставить свой комментарий. У меня на сегодня все, до встречи в новых статьях.

 

Понравилась статья? Поделиться с друзьями:
Комментариев: 1
  1. Александр

    Сделал конвертацию почти всех документов, для надежности.

Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: