В этой статье я опишу способ распознования страниц с помощью CuneiForm + YAGF.
Сам по себе CuneiForm под Линукс не имеет графического интерфейса, хотя функционал практически ничем не уступает всем известному Adobe Fine Reader. Какое то время они шли в одну ногу и оба были платными. Сегодня CuneiForm полностью бесплатное приложение с открытым исходным кодом.
YAGF - Графическая оболочка для работы с CuneiForm.
Помимо обработки изображений полученных со сканера, программа позволяет добавлять в проект уже отсканированные изображения. Правда к минусам можно причислить то что она не поддерживает формат PDF.
Так же имеется возможность проверки текста на орфографию, если у Вас установлен орфографический словарь.
Программа распознает множествоя языков среди них есть и Русский.
Качество распознования текста вполне приемлимо и мало чем уступает Fine Reader'у.
Сохранять текст можно в текстовый формат либо в HTML. Что бы сохранить форматирование лучше использовать последний.
Кнопка "Распозновать как одну колонку" заметно улучшает качество форматирования распознанного текста.
Установить программы можно из репозитория сайта www.getdeb.net
Для этого:
Идем в Система-Администрирование-Менеджер пакетов Synaptic, Настройки,Источники приложений, вкладка Другое ПО. Жмем Добавить и вводим в строку APT следующее:
deb http://archive.getdeb.net/ubuntu maverick-getdeb apps
Добавляем GPG ключ, открыв терминал и набрав:
wget -q -O- http://archive.getdeb.net/getdeb-archive.key | sudo apt-key add -
После чего можно найти данные программы в Центре приложений либо в Синаптике.
CuneiForm имеется и в стандарных репозиториях(multiverse) но там нет YAGF, да и версия обычно там бывает ниже чем на www.getdeb.net .
Скачать YAGF в исходных кодах можно на оффициальном сайте программы http://symmetrica.net/cuneiform-linux/yagf-ru.html