Здравствуйте. Представляю обещанную краткую инструкцию для СК (предварительную версию). Своеобразный Кромсатор.Лайт
Инструкция работает со специальной «сборкой» СК. «Сборка» представляет собой неизмененный СК, к которому добавлены два профиля, один из которых установлен по умолчанию. Все рассчитано на то, что если пользователю и нужно будет что-то подстраивать, то это будет только
один параметр - порог бинаризации (не считая установки фиксированного размера страницы - это уже для эстетов
).
Также в папку DOCS помещены документы, содержащие информацию, которой, на мой взгляд, можно доверять. Т.к. объем текстовой информации велик (туда же помещены архивы руборды) проще всего пользоваться ими через индексатор (к примеру, dtSearch).
В сборку будут добавлены и другие профили для разных случаев жизни
Можно обсудить, какие профили еще добавить. Буду рад критике имеющегося профиля по умолчанию.
Жду аргументированной критики и инструкции в целом.
Благодарю
Alexx_S за предварительную критику сборки и инструкции.
КРОМСАТОР. КРАТКАЯ ИНСТРУКЦИЯ. Данная инструкция предназначена для тех, кто хотел бы получить скорейший и качественный результат «здесь и сейчас». Инструкция включает всего
3 пункта – подготовка, обработка и постобработка. Первый пункт имеет 3 подпункта, причем третий (1.3.) не обязателен к выполнению.
В целом, можно считать, что инструкция наряду с прилагаемой «сборкой» применима к 60-70% всех книг. А при выполнении п. 1.3. она подойдет для 80-90% случаев, если считать, что в оставшиеся 10-20% входят, помимо прочих, книги с полутоновыми изображениями/фотографиями.
Предварительные условия (ПУ):
1. Загрузите «сборку» Кромсатора по следующему адресу:
http://rapidshare.com/files/135566411/Kromsator_ghosty.rar.html. 2. «Сборка» оптимизирована для работы с изображениями, отсканированными в режиме 300dpi в полутонах серого (8-bit Grey) – режим, рекомендуемый нами для 95% случаев.
3. Перед работой настоятельно рекомендуется прочитать о
порядке обрезки страниц в Кромсаторе.
1. ПОДГОТОВКА. Загрузите файлы в СК:
File -> Open Images (либо нажмите на стандартную иконку открытия в панели инструментов).
1.1. Теперь необходимо расставить резаки. Делается это автоматически. В меню выберите
Edit -> Draft Kromsate (в панели инструментов - иконка с ножницами). Если сканы представляют собой развороты (две страницы на листе), то в открывшемся окне ставим галку
Split pages. Нажимаем ОК.
1.2. Проверьте правильность расстановки резаков для всех страниц. Исправлять положение резака имеет смысл только в том случае, если он отсекает часть текста, либо включает в область обработки много мусора.
Резаки служат только для отсечения крупного мусора, мешающего автоматическому определению координат блока текста (см. ПУ 3).
1.3. * [more]1.3. Чтобы подобрать порог бинаризации, а также определить средние размеры страницы выделите в списке в левом верхнем углу 10-15 страниц – выбор осуществляется нажатием клавиши пробела. Старайтесь включать страницы с наибольшими размерами блока текста, а также страницы с отклонениями в качестве печати (слишком бледные, слишком темные).
1.3.1.
Подбор порога бинаризации. Обработайте выделенную группу страниц:
Process->Group->Process selected. После обработки просмотрите результат. Если шрифт кажется слишком бледным, необходимо будет увеличить порог бинаризации, слишком жирным – уменьшить. Закройте окно просмотра результатов и перейдите на закладку
Convert. Здесь значение параметра по умолчанию – 180. Измените это значение и проверьте его правильность, обработав данную страницу:
Process->Current File (в панели инструментов иконка c изображением резаков справа от кнопки Process).Заданный параметр можно распространить на группу выделенных страниц (щелкнуть по значению параметра и в контекстном меню выбрать
Apply option to group->Selected), после чего обработать эту группу (см. 1.3.1.). Когда порог подобран, т.е. он, по вашему мнению, подходит для всей книги, в этом же контекстном меню выберите
Apply option to all marked – т.е. мы устанавливаем один порог для всей книги.
1.3.2.
Задание фиксированного размера страниц. Перейдите на закладку
Book. Здесь в выпадающем списке для
Page width (ширина страницы) и
Page hight (высота) выберите опцию
Fixed. Затем щелкните правой кнопкой по окошку значения параметра Page width и выберите
Load page size from current output file – таким образом мы устанавливаем фиксированные размеры страниц для всей книги.
1.3.3.
Установка параметров выравнивания. В некоторых случаях необходимо задать выравнивание блока текста по чистому листу (см. ПУ 3). По умолчанию блок текста выравнивается по вертикали по верхней кромке листа, а по горизонтали – по центру. Если для какой-то страницы книги это не так (к примеру, главы начинаются с середины страницы), параметры выравнивания можно изменить на закладке
Page. Здесь
Page h. align – выравнивание по горизонтали (L и А – по левому краю, C - по центру, R – по правому краю), а
Page v. align – выравнивание по вертикали (T и А – по верхнему краю, C – по центру, B – по нижнему краю).[/more]
2. ОБРАБОТКА. В меню выберите
Process->All, либо нажмите кнопку
Process в панели инструментов. Обработка выполняется полностью автоматически и для большой книги может занять от 1,5 до 2,5 часов (на машине средней конфигурации).
3. ПОСТОБРАБОТКА. После обработки автоматически открывается окно просмотра результатов (Result View). Рекомендуется просмотреть все страницы. Некоторые страницы (или даже группы страниц – см. п. 1.3) при необходимости можно обработать отдельно с другим порогом бинаризации. Также в этом режиме возможна чистка страницы вручную. Основные инструменты –
ластик (в панели инструментов – иконка с изображением ластика),
режим выделения с полной очисткой (иконка с изображением зеленой метлы) – в области выделения очищается все, а также
режим выделения с очисткой спеклов (иконка с изображением красной метлы) – в области выделения очищается мусор только определенного размера. Размер мусора (т.н. спеклов) задается в контекстном меню страницы –
Clear Options. Если результат вас в целом не удовлетворяет, попробуйте также выполнить подпункт 1.3.
* Этот пункт относится к необязательным в случае оцифровки небольших журнальных статей, но его выполнение желательно при работе с книгами.