Ru-Board.club
← Вернуться в раздел «Программы»

» ScanKromsator СканКромсатор (Часть 3)

Автор: Widok
Дата сообщения: 30.03.2009 17:07
ScanKromsator: Знаменитый Кромсатор для обрезки получаемых при сканировании изображений, а также для разделения страниц, очистки от мусора и т.п. (есть FAQ). Автор: bolega. http://bolega.hotmail.ru/


ScanKromsator в Википедии: http://ru.wikipedia.org/wiki/ScanKromsator

Аналог ScanKromsator - Scan Tailor

Начало обсуждения - 1 часть, 2 часть.

Текущая версия: ScanKromsator v6.00.5 (2,1 МБ)
Предыдущая версия: ScanKromsator v5.93

Старые версии: [more]
ScanKromsator v5.95.beta.02 (2.8 МБ)ScanKromsator v5.93 (3,44 МБ)
ScanKromsator v5.92 (2 МБ) зеркало (3,40 МБ)
Full-версии - вкл. dll-библиотеки и Help к SK v1.0 в формате Pdf:v5.91 full (3,26 МБ) зеркало
v5.9 (3,19 МБ)
v5.81 NY (2,42 МБ)
v5.6А Full (2,25 МБ) What's new Зеркало
v5.52b (2,05 МБ)
v5.51b (2,06 МБ)
v5.07 (1,98 МБ)
v3.5 (1,52 МБ)[/more]
Изменения в новой версии (5.92) + описание нового порядка обработки (с "финализацией" файлов)


[more=Самая краткая инструкция по работе с СК (включает "сборку" СК) от ghosty]Здравствуйте. Представляю обещанную краткую инструкцию для СК (предварительную версию). Своеобразный Кромсатор.Лайт Инструкция работает со специальной «сборкой» СК. «Сборка» представляет собой неизмененный СК, к которому добавлены два профиля, один из которых установлен по умолчанию. Все рассчитано на то, что если пользователю и нужно будет что-то подстраивать, то это будет только [b]один параметр - порог бинаризации (не считая установки фиксированного размера страницы - это уже для эстетов ).
Также в папку DOCS помещены документы, содержащие информацию, которой, на мой взгляд, можно доверять. Т.к. объем текстовой информации велик (туда же помещены архивы руборды) проще всего пользоваться ими через индексатор (к примеру, dtSearch).
В сборку будут добавлены и другие профили для разных случаев жизни Можно обсудить, какие профили еще добавить. Буду рад критике имеющегося профиля по умолчанию.
Жду аргументированной критики и инструкции в целом.

Благодарю Alexx_S за предварительную критику сборки и инструкции.


КРОМСАТОР. КРАТКАЯ ИНСТРУКЦИЯ.
Данная инструкция предназначена для тех, кто хотел бы получить скорейший и качественный результат «здесь и сейчас». Инструкция включает всего 3 пункта – подготовка, обработка и постобработка. Первый пункт имеет 3 подпункта, причем третий (1.3.) не обязателен к выполнению.
В целом, можно считать, что инструкция наряду с прилагаемой «сборкой» применима к 60-70% всех книг. А при выполнении п. 1.3. она подойдет для 80-90% случаев, если считать, что в оставшиеся 10-20% входят, помимо прочих, книги с полутоновыми изображениями/фотографиями.

Предварительные условия (ПУ):
1.    Загрузите «сборку» Кромсатора по следующему адресу: http://rapidshare.com/files/135566411/Kromsator_ghosty.rar.html. Если ссылка не работает, то можно изготовить файлик sk.ini в корневом каталоге СК самому (отличие "сборки" - только в наличии этого файлика):

Код: [Panels]
[Options]
DefUserOptionsName=DEFAULT_5.9
DraftProfileName=DEFAULT_5.9
[UserOptions]
DEFAULT_5.9=1;1;1;1;180;210;0;1;;1;3;0;2;4;0;4;2;1;0;;1;1;0;0;1001;0;0;5903;1;2;2;5;0;0;20;3;0;0;-1;1;0;0;0;0;1;8;180;2;4;7;3;5;6;10;0;1;17;100;255;0;0;10;70;1;0;10;50;1;0;2;0;3;100;1;0;0;0;150;
OLD_BOOKS=0;1;1;1;180;210;0;1;;1;3;0;2;4;0;4;2;1;0;;1;1;0;0;1001;0;0;5891;1;2;2;10;0;0;20;3;0;0;-1;1;0;0;0;0;1;8;180;2;4;8;3;5;6;10;0;1;17;100;255;0;0;10;70;1;3;10;50;1;0;1;1;3;100;1;0;0;0;150;
Автор: Dracula
Дата сообщения: 30.03.2009 17:43
Если у меня книга плохо ложилась, т.е. страницы тонкие и при нажатии они всё равно "пузырились" - они обработаются хорошо?
Кстати, не был у вас сто лет (в смысле на этом топике) - столько всего произошло - узнал только что, что bolega уже не поддерживает свой проект. Увидел, что ghosty выложил инструкцию новую для юзеров.
Автор: VadimirTT
Дата сообщения: 30.03.2009 20:27
Dracula
Так он уже с версии 5.60 не поддерживает .
Автор: User6
Дата сообщения: 31.03.2009 18:29
Хм, а почему в 5.92 у меня в окне VR фон делается желтым цветом?

Добавлено:
И второй вопрос: почему при просмотре результата обработки фильтрами серой картинки на вкладке Качество я вижу приемлемый результат без потерь, а после процессинга соответствующей страницы - многие части букв потеряны?
Автор: ghosty
Дата сообщения: 31.03.2009 23:40
bolega
Такое впечатление, что баг. При такой расстановке резаков (см. субтаск ниже) Automargin не работает совсем. Если подвинуть левый резак чуть левее, Automargin срабатывает
http://rapidshare.com/files/215893954/test.rar
Автор: Torino
Дата сообщения: 01.04.2009 10:25

Цитата:
почему в 5.92 у меня в окне VR фон делается желтым цветом?


Нажатие на пробел меняет способ отображения результатов.

Добавлено:

Цитата:
почему при просмотре результата обработки фильтрами серой картинки на вкладке Качество я вижу приемлемый результат без потерь, а после процессинга соответствующей страницы - многие части букв потеряны?

Скорее всего было выполнено преобразование в ч/б.
Нужно поиграться с порогом преобразования.
Или оставить в сером.
Автор: bolega
Дата сообщения: 01.04.2009 11:17
User6

Цитата:
Хм, а почему в 5.92 у меня в окне VR фон делается желтым цветом?

Это означает, что Вы выбрали обработку в 2 этапа. После 1-го этапа в окне VR показывается не до конца обработанный файл, желтым подсвечивается контур текста. Вы можете подправить его при необходимости. Для завершения обработки необходимо выполнить команду Process->Calculate book size (и только полсе этого имеет смысл идти в окно VR и править там контура) и затем Process->Finalize. См. в шапке ссылку на статью "описание нового порядка обработки (с "финализацией" файлов)".


Цитата:
И второй вопрос: почему при просмотре результата обработки фильтрами серой картинки на вкладке Качество я вижу приемлемый результат без потерь, а после процессинга соответствующей страницы - многие части букв потеряны?


При Preview не выполняется despeckle. И не понятно, о каком "просмотре результата обработки" идет речь. В SK их несколько - для каждого из фильтра по отдельности и для всей обработки сразу. Только последнее даст Вам полную картину.

Добавлено:
ghosty
Прикольный эффект. Спасибо, посмотрю.
Правда, последние Ваши примеры - это все-таки не книги, там одна картинка и совсем нет текста, а SK ориентируется именно на текст
Автор: bolega
Дата сообщения: 06.04.2009 00:49
Прикрутил к СК jpg2000-кодек Kakadu. Теперь СК может создавать pdf с таким сжатием (как целиком страницы, так и зоны). Кодек сжимает в 4-6 раз лучше, чем обычный jpg при том же качестве. Kakadu скачивается с хомяка, там demo-версия, но ее достаточно.
Автор: Torino
Дата сообщения: 06.04.2009 21:06
bolega столкнулся с такой вещью (я говорю про расчетную высоту страницы, заведомо меньшей высоты textbox):


Хотя после Process (w/o finalize) желтый прямоугольник корректно отображал границы текста.
Это глюк или что-то с настройками?
Автор: bolega
Дата сообщения: 07.04.2009 07:33
Torino
Не вижу здесь никакой проблемы. Все нормально. Просто высота страницы задана (посчитана?) слишком маленькая, поэтому номер страницы ушел в поле (margin).
Как в данном случае была посчитана высота?
СК когда считает сам размеры страницы, делает это не исходя из максимальных размеров, а выбирает что-то вроде "самого характерного для книги размера". Поэтому не исключено, что в книгах, в которых имеются страницы, которые заметно отличаются по размеру от остальных, поля окажутся меньше - СК уменьшит их для этих страниц, чтобы вписаться в расчетный/заданный размер.
Автор: Torino
Дата сообщения: 07.04.2009 08:41
Высота была посчитана через Calculate book size перед Finalize.
А не может быть такой ситуации, что страница, резко выделяющаяся по размерам от большинства других страниц, вообще будет обрезана?
Автор: bolega
Дата сообщения: 07.04.2009 10:12
Torino

Цитата:
А не может быть такой ситуации, что страница, резко выделяющаяся по размерам от большинства других страниц, вообще будет обрезана?

Нет. СК будет уменьшать поля, чтобы максимально приблизиться к заданным размерам. Но не до нуля. Если увидит, что размер все равно невозможно выдержать, оставит как есть, обрезать, т.е. жертвовать контуром, не будет.
В шапке в статье про 2-х проходный режим написано, как быстро проконтролировать размеры. Нужно в окне VR переключиться в режим Thumbs, отсортировать их по высоте/ширине контура, тогда вверху ленты окажутся (если есть) проблемные (т.е. не влазеюшие в размер страницы). Тут же, не выходя из VR, можно увеличить размер книги и увидеть результат. Но делать это надо до финализации, потом будет поздно
Автор: Torino
Дата сообщения: 07.04.2009 12:55
Угу понял, спасибо )
Автор: realwhistle
Дата сообщения: 08.04.2009 17:28
Ребята, мне нужна помощь со сканкромсатором...

раньше делала ч/б изображения и обрабатывала в нем, получалось жирнова-то.. сказали что он приспособлен под серые изображения.. но у меня не получается оптимально его настроить(( выкладываю исходник и то, что получается.. не устраивают зазубрины у букв((..



Автор: ghosty
Дата сообщения: 08.04.2009 17:44
realwhistle
К сожалению, Вы дали линки на странички в очень низком разрешении - зазубрин уже не видно

Попробуйте использовать мою "сборку" с инструкцией из шапки, и дайте оригинал в том виде, в каком он вышел из сканера
Автор: realwhistle
Дата сообщения: 08.04.2009 18:08
вот ссылка на сами файлы.. заранее спасибо...

http://files.mail.ru/H7P9W3
http://files.mail.ru/5VKMMG
Автор: ghosty
Дата сообщения: 08.04.2009 19:01
realwhistle
Не понял, по-моему, все идеально обработано. Где зазубрины?
Автор: realwhistle
Дата сообщения: 08.04.2009 23:36
ghosty

буковки не кругленькие, а в зазубринах-квадратиках(( у руководителя получается без них.. и он забраковывает мои книжки((((( Проверяет на увеличении 400%.

при сканировании сразу в ч/б и обработке в кромсаторе, их тоже нет, но жирнова-то((

http://files.mail.ru/723P1D
Автор: ghosty
Дата сообщения: 09.04.2009 00:33
realwhistle

Цитата:
при сканировании сразу в ч/б и обработке в кромсаторе, их тоже нет, но жирнова-то((
http://files.mail.ru/723P1D

Как это нет, вот же они:

Причем эти намного хуже, чем те, что в моем предыдущем сообщении - т.к. тот файл, что Вы дали - отнюдь не ч/б, а цветной, к тому же сохраненный в JPEG, чего уж совсем не стоило делать, и из-за чего к "зазубринам" добавился еще вот этот шум вокруг символов, с которым при обработке совладать не так-то просто.


Цитата:
буковки не кругленькие, а в зазубринах-квадратиках((
Да, вы с руководителем - два сапога пара
Вы, наверное, и сами уже догадались, что эти "зазубринки-квадратики" - не что иное, как точки, из которых состоит любое компьютерное изображение. Когда Вы сканировали, то выбирали определенное разрешение для сканов, правильно? К примеру, 300dpi означает, сколько таких вот точек уместится в одном дюйме (dots per inch). Чем больше их умещается, тем больше разрешение, и тем меньше заметны эти "зазубринки" человеческому глазу при нормальном чтении - т.е. без увеличения до 400% В этом смысле выбранное Вами разрешение, 600dpi, очень уместно - особенно для греческих символов.

Руководитель неправ, а Вы правы. Вы обрабатываете правильно, а он - нет. Если у руководителя получается без зазубрин, значит он оставляет книги в цвете либо в полутонах серого, что значительно утяжеляет книжку, не делая ее более удобной для чтения, а чаще - совсем наоборот.

P.S. Кстати, Вы обратились по адресу - я на обработке греческих текстов собаку съел %)
Автор: VadimirTT
Дата сообщения: 09.04.2009 06:24
realwhistle
Кстати, для меня один из критериев качественной выделки это распечатать на лазернике и посмотреть, зачастую, получается лучше чем оригинал (оно конечно и за счет более лучшей контрастности в том числе).
Автор: ghosty
Дата сообщения: 10.04.2009 15:19
bolega
Подумал, а может быть в текущей версии есть какая-то возможность очистить фон цветного скана до бела?
Никак не получается - Illumination Correction все выравнивает до 248,248,248, а дальше - ни в какую
Автор: realwhistle
Дата сообщения: 10.04.2009 15:23
ghosty

посоветуйте пожалуйста как делать греческие тексты.. действительно ли лучше в сером? или ч/б сканировать? и какие настройки выставлять для серого.. ибо не понимаю что за что отвечает...

+ ещё один вопрос, как настраивать во сколки см от текста кромсатор обрезает страницу? и что значит розовая полоса, вместо синий?
Автор: ghosty
Дата сообщения: 10.04.2009 15:37
realwhistle
Очень Вас прошу, прочитайте мою "Самую краткую инструкцию" из шапки - она действительно очень невелика, и там ответы на все Ваши вопросы. Если после прочтения вопросы останутся/появятся новые, обязательно задавайте, не стесняйтесь.
Еще раз скажу: то, что обрабатывали Вы, обработано очень хорошо. С греческими символами, особенно напечатанными курсивом, может быть очень много проблем при обработке, а у Вас все чисто (не то, что у руководителя ).

Добавлено:
bolega, сдаюсь Помогите, пожалуйста:
http://rapidshare.com/files/219664907/test.rar
Необходимо очистить фон до белого - никакие параметры обработки не помогают (постобработкой - долго). Спасибо.
Автор: bolega
Дата сообщения: 10.04.2009 17:30
ghosty

Цитата:
Необходимо очистить фон до белого

Причина здесь в том, что выходной формат задан 4-битным. При уменьшении кол-ва цветов идет автоматический подбор палитры, максимально близкой к исходным 24-битным цветам. Отсюда и получился 248. И постобработка не поможет: при сохранении кромсатору негде будет хранить цвет 255, палитра то уже заполнена оптимальными цветами, и еще один цвет добавлять некуда, поэтому 255 снова станет 248.
Кстати, если поставить 8-битный формат, то получится уже 251. Неужели это для Вас так важно? В крайнем случае можете отмазаться, мол, это не цвет не белый, а монитор давно не мытый

А в принципе для забеления фона можно воспользоваться опцией histogram из grey enhance, но здесь это из-за палитры не поможет.
Автор: ghosty
Дата сообщения: 10.04.2009 17:44
bolega

Цитата:
Отсюда и получился 248. И постобработка не поможет: при сохранении кромсатору негде будет хранить цвет 255, палитра то уже заполнена оптимальными цветами, и еще один цвет добавлять некуда, поэтому 255 снова станет 248.
Да, я об этом догадывался. Но, с одной стороны, и если поставить 24-bit, то выбеливание невозможно, а, с другой стороны, может быть, можно как-то редактировать палитру? Почему, к примеру, СК подумал, что оптимальным цветом для фона будет именно 248?
На самом деле, я все о том же (выше был лишь пример) - об облегчении обработки цветных сканов - в тех случаях, когда выделение зон невозможно/сложно. Т.е. для зон уже есть функция замены цвета фона с определением порога, и я ищу аналог этой функции среди параметров обработки книги...
Автор: realwhistle
Дата сообщения: 10.04.2009 23:56
ghosty

спасибо, в прошлый праз не поняла где читать)) (скачала всю програмку и потеряла её в компе..) теперь немного разобралась с обрезкой...

Но в вашей инструкции нет ничего про настройки обрботки. перевода из грейскейла в ч/б, какой лучше загружать и чего выставлять в "Sharpen", ""Blur" и т.д...

еще есть проблема того что все, где текст не на полную страницу он мне его как-то преобразовывает что, если в верху две строки, они оказываются внизу(( при этому страница целая... (у вас что-то про это говориться, но я недопоняла.. тот ли это случай, она ведь не обрезает чтоб маленькая была)

+ сейчас отсканировала старую книгу (1917г) делала 600 dpi в градации серого.. но при прогонке через кромсатор, там где буквы на бумаге нормально пропечатанны, сдела как будто оч плохо, кусками отсутствуют..

http://files.mail.ru/7LK331 (на ней заодно и перенос видно)
http://files.mail.ru/24VYM7 (серый оригинал)
Автор: ghosty
Дата сообщения: 11.04.2009 00:58
realwhistle

Цитата:
Но в вашей инструкции нет ничего про настройки обрботки. перевода из грейскейла в ч/б, какой лучше загружать и чего выставлять в "Sharpen", ""Blur" и т.д...
Вы невнимательно читали инструкцию. Там сказано, что она работает с моей 'сборкой', в которой все уже выставлено - и "Sharpen", и "Blur", и все остальное. Для 60-70% современных книг этот профиль вполне подходит - возможно, необходимо будет выставить только порог бинаризации (закладка "Convert") в том случае, если текст будет слишком бледным или слишком жирным. Для той страницы, которую Вы приводите в качестве примера, необходимо увеличить этот порог (однако в данном случае и этого мало - см. ниже).


Цитата:
еще есть проблема того что все, где текст не на полную страницу он мне его как-то преобразовывает что, если в верху две строки, они оказываются внизу(( при этому страница целая... (у вас что-то про это говориться, но я недопоняла.. тот ли это случай, она ведь не обрезает чтоб маленькая была)
Две строчки вверху никак не могут оказаться снизу, если Вы сами не выставили (возможно, случайно) выравнивание блока текста по нижней кромке страницы (закладка Page->Page v. Align = B). В моем профиле это значение - А, что означает выравнивание по верхней кромке. Это хорошо для большинства страниц, кроме тех, на которых текст начинается, к примеру, с середины страницы (начало главы). Для таких страниц, к сожалению, вручную придется выставлять В. Делается это обычно в ходе проверки правильности расстановки резаков.


Цитата:
+ сейчас отсканировала старую книгу (1917г) делала 600 dpi в градации серого.. но при прогонке через кромсатор, там где буквы на бумаге нормально пропечатанны, сдела как будто оч плохо, кусками отсутствуют..
Эк Вы от греческого текста да к старым книгам сразу - это же все самый трудный материал для обработки. Потренируйтесь сначала на современных. Можно поинтересоваться, что за книжка, кстати? Это оригинал или репринт?

К счастью, и для старых книг в моей сборке Вы найдете специальный профиль - OLD_BOOKS Вы можете сменить профиль в File->Profiles.
В случае с профилем, используемым по умолчанию (DEFAULT) от Вас требовалось настроить только порог бинаризации. В данном случае если изменение этого параметра не поможет, придется повозиться с настройками выравнивания освещения (Quality->Grey Enhance->Illumination) - будут пропадать плохо пропечатанные элементы символов, уменьшите значение, начнет появляться мусор, увеличьте.
Если все это покажется сложным поначалу, отложите эту книжку, обработайте пока современную. Если ее небходимо обработать срочно, а мои советы не помогли, дайте побольше страниц (около 20-ти), и я составлю профиль под эту книгу.
Автор: realwhistle
Дата сообщения: 13.04.2009 00:26
ghosty

спасибо большое за ответы))) к сожалению нет возможности тренироваться.. какие книги дают - те и обрабатываю(( работа такая), большинство идет либо греческие, либо старые (одна была 1880 года.. ппц какой-то.. страшно было прикасаться..) редко современные(

скачаю ваш кромсатор и попробую ваши настройки.. если что - напишу) ещё раз большое спасибо за помощь)

Добавлено:
ghosty

забыла написать что за книжка) Христианский восток. Серия посвещенная изучению христианской культуры народов африки и азии (издание российской академии наук петроград. оригинал)

Добавлено:
ghosty

скачала Ваш кромсатор.. может я дура конечно.. но не поняла с профилями((по моему ничего не меняется вообще(( или я просто не активировала.. File->Profiles в появившемся окошке выбираю OLD_BOOKS и нажимаю значек Apply, затем галочка All marks (выбираю профиль после Draft Kromsate) правильно? у меня ничего не меняется и если зайти в профили, то там опять будет старый профиль выбран...

ужас какой-то, а сегодня должна была уже сдать.. но как-то всё проблемно(( за какую книгу не возьмусь из 5... всё не так получается(((

Добавлено:
ghosty

ещё, сначала для ч/б использовала следущие настройки : http://files.mail.ru/CI3RRP
при них все обрезались ровно, а теперь даже с ручным выравниваем почему-то режет а бы как(( а одну книгу вообще посередине текста режет(( и ни мои ручные, ни фиксированный размер ничего не помогает... может можно вообще убрать обрезание (я лучше в FR в ручную это сделаю.. хотя и времени на это нет..)
Автор: Torino
Дата сообщения: 13.04.2009 19:56
>>Bolega
я все со своими тараканами ))

Сильно не хватает функции, про которую я писал раньше:
полная очистка изображения за пределами textbox перед финализацией.

Или как вариант - Crop по textbox перед финализацией.
Автор: realwhistle
Дата сообщения: 14.04.2009 03:58
ghosty

у меня таки заработал Ваш профиль OLD_BOOKS, но ужасжно сделал((((
http://files.mail.ru/85IHEK
хотя книга хорошая и поновее немного.. 1926.. вот... в общем совсем расстроилась((

Страницы: 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102

Предыдущая тема: мнение о Maxthon


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.