e.Typist - Распознавание иероглифики
- Программы для ПК
- 57874
e.Typist является одним из популярных в Японии средством распознавания отсканированных иероглифических текстов.
Поскольку e.Typist предназначен только для японского рынка, его интерфейс не переведён даже на английский язык - от полностью иероглифический. При попытке установки программы в русскоязычной Windows вместо иероглифов вы получите кракозябры даже при установленной в вашей системе поддержке японского языка. Проблема решается с помощью Microsoft Applocale.
Окна программы с подсказками по основным органам управления представлены на Рис. 1 и 2.
Рис. 1. Главное окно e.Typist. Для получения всплывающей справки
наведите курсор мыши на интересующую кнопку.
Рис. 2. Описание меню настроек распознавания для выделенного блока текста.
Опишу последовательность распознавания на конкретном примере (Рис 3).
Рис. 3
1) Открываем файл отсканированного изображения с помощью кнопки 1 (предварительно нажимаем на маленький треугольник справа и выбираем опцию ファイル読込(F)). Почему не пользуемся сканером? Дело в том, что после пропускания через Applocale сканер может отвалиться (ошибка - "Twain DLL не найден" по-японски), поэтому лучше сначала подготовить скан с помощью стандартного для сканера приложения (с максимально возможным разрешением для облегчения работы eTypist-у), а затем открыть его в нашей программе описанным способом.
2) Выделяем с помощью мыши блоки текста для распознавания. Для этого ставим перекрестье указателя в один угол, нажимаем левую кнопку мыши и тащим указатель в диагонально противоположный конец блока – появляется рамка, которая должна охватывать весь блок целиком. После отпускания кнопки блок подствечивается зелёной окантовкой. В нашем случае выделено 4 текстовых блока.
3) Проверяем порядок следования блоков, нажав на клавишу, указанную цифрой 3. В каждом блоке появляется его порядковый номер. Если порядок распознавания блоков неверен, то однократным щелчком по каждому блоку в нужной последовательности выставляем правильные номера. Отжимаем кнопку 3 обратно.
4) Для каждой области выставляем параметры распознавания (см. Рис. 2). Чтобы одновременно просмотреть наборы текущих параметров для каждого блока, необходимо нажать клавишу 4.
5) Перед запуском распознавания выставляем для Word опцию "Только текст" (с помощью маленького треугольника справа от кнопки со значком Word и выбора надписи テキスト転送(T)). Нажимаем на значок Word и дожидаемся, пока откроется его окно с результатами распознавания.
Получилось 4 отдельных текстовых блока, каждый из которых состоит из однострочных абзацев. Если включить в Word отображение непечатных символов (Ctrl-Shift-8), то хорошо видно, что значки абзаца завершают каждую строчку (Рис. 4).
Рис. 4
Чтобы избавиться от такого деления сделаем следующее. Выделим (закрасим) мышью кусок текста, который должен быть преобразован в один абзац. Сочетанием клавиш Ctrl-h вызываем диалоговое окно Найти и Заменить. В нём в поле Найти вписываем пару символов ^p, поле Заменить на оставляем пустым (Рис. 5):
Теперь жмём кнопку Заменить все. В результате кусок текста превращается в один слитный абзац и приобретает божеский вид:
Рис. 6