Ru-Board.club
← Вернуться в раздел «Программы»

» ScanKromsator СканКромсатор (Часть 3)

Автор: 3y6acTuK
Дата сообщения: 09.03.2013 17:18
VadimirTT
Спасибо, обновил шапку
Автор: bolega
Дата сообщения: 09.03.2013 17:46
на прошлой странице давал ссылку на 5.96.2:
http://rusfolder.com/35171445
В версии 5.96.1 много багов, не советую юзать.
Автор: VadimirTT
Дата сообщения: 09.03.2013 19:08
bolega
Извинясь, пропустил 96.2, а ссылка на 96.1 не работала
Автор: 3y6acTuK
Дата сообщения: 09.03.2013 20:44
Столкнулся сейчас с тем, что Кромсатор обрезает сероватые заголовки на страницах (50/50) - можно ли настроить чувствительность у Automargins? (v.1.96.2)
Вот проект, с исходником, результатом обработки и настройками: http://rghost.ru/44387355 (30 MB)
Автор: bolega
Дата сообщения: 12.03.2013 16:45
3y6acTuK
Не совсем понял назначение этого задания, на входе цвет, на выходе - тоже, бинаризация не делается. Наверно, цель была просто обрезать до минимума поля (для читалок). Но это можно сделать намного проще. Поставить резаки на одном файле где надо и размножить их положение на все остальные страницы.
Автор: 3y6acTuK
Дата сообщения: 13.03.2013 16:32
bolega
Поля гуляют. Поэтому нужна была автоматическая обрезалка, адаптирующаяся к смещениям страниц вверх-вниз, влево-вправо. В любом случае - настройка чувствительности для нее не помешала бы. Интересно, что она в Кромсаторе кое-где определила номер страницы, но почему-то разрезала его пополам - странно.
Автор: Torino
Дата сообщения: 13.03.2013 19:55
bolega
Столкнулся с проблемой:
При обработке файла (tiff lzw grey 600 dpi 14308x8868 px)
на стадии Rotating Кромсатор дает ошибку Out of memory.
Смотрю Диспетчер задач, sk.exe до этого момента занимает 1 Гб.
На борту моей машины 64 Гб.

Добавлено:
Есть предложение:
1. Исходный файл:


2. Обработка этого файла в СК:


3. Крупнее:


==========

4. Исходный файл, для которого в Фотошопе сделан Resize до 600 dpi методом Bicubic smoother:


5. Обработка этого файла в СК (с теми же параметрами, что и для первого файла, за исключением выключенного Blur):


6. Крупнее:


==========

Видно, что для второго файла результат намного лучше.
Отсюда предложение:
Добавить в СК возможность ресайзить изображение с применением интерполяции Bicubic smoother
Автор: shch_vg
Дата сообщения: 13.03.2013 22:02
Torino

Цитата:
Столкнулся с проблемой:

Думаю, что даже bolega не сможет ничего сказать определенного, не увидев исходный файл и задание, каким Вы пытаетесь его обработать.
Автор: bolega
Дата сообщения: 14.03.2013 12:25
Torino
shch_vg

Цитата:
Думаю, что даже bolega не сможет ничего сказать определенного, не увидев исходный файл и задание, каким Вы пытаетесь его обработать

Здесь как раз тот случай, когда исходник не нужен
СК не может использовать памяти больше гига, это ограничение компилятора. Переходить на другой компилятор в планах не стоит, на это просто нет времени, т.к. весь код придется пересматривать (десятки тысяч строк!).
Здесь поможет Files->Options->Processing->optimized resampling=откл. Будет намного медленнее, но зато менее требовательно к памяти. На то, что это resampling, внимания не обращайте - это и на rotation влияет.


Цитата:
Добавить в СК возможность ресайзить изображение с применением интерполяции Bicubic smoother

Если Вы разузнаете у разработчиков фотошопа, что они под этим понимают, а также формулы алгоритма, то я с удовольствием сделаю.
Я тоже могу взять какой-нибудь алгоритм (например shear rotate), назвать его superpuperrotate и попробуйте догадаться, что я под этим имел ввиду. Так же и Bicubic smoother: может это Bicubic + какой-нибудь smooth-фильтр, а может это они так сглаживающий сплайн обозвали, а может еще какое-нибудь ноухау. Поди разбери.

3y6acTuK

Цитата:
В любом случае - настройка чувствительности для нее не помешала бы

закладка options-> text ver/hor sensivity: выставьте обе в High.


Автор: Torino
Дата сообщения: 14.03.2013 15:57

Цитата:
Если Вы разузнаете у разработчиков фотошопа, что они под этим понимают, а также формулы алгоритма, то я с удовольствием сделаю.

Вот здесь лежит исходник и бинарник для Вин программы-ресемплера:
http://entropymine.com/resamplescope/

А на этой странице автор подбирает параметры для этой программы, которые позволяют получить результаты аналогичные разным алгоритмам ресемплинга в Фотошопе (в т.ч. bicubic smoother):
http://entropymine.com/resamplescope/notes/photoshop/

Возможно это поможет?
Автор: Ironcast
Дата сообщения: 14.03.2013 19:57
Вроде бы разобрался в программе. Из пдф отлично импортируется, крое рваных файлов, где тысячи клочков, благо их мало. Даже более менее номальный вид после оработки стал получаться. Но как их кодировать в djvu? Photo профиль в djvu small не берёт файл--типа не закодировано ни одной страницы, b-w и битонал берёт но убивает картинки совершенно. Вместе с тем необработанные сканы (только импортированные) отлично берутся и работают, но, поятно, с гигантским размером. Сколько ни бьюсь логику этого дебилизма не понимаю, в чём же дело?
Автор: ghosty
Дата сообщения: 14.03.2013 23:13
При попытке открыть файл прерванного процесса *.skt выдается ошибка " is not a valid integer value.
Автор: leescott
Дата сообщения: 15.03.2013 02:44

Цитата:
При попытке открыть файл прерванного процесса *.skt выдается ошибка " is not a valid integer value.

I have two versions SK.When I meet this question. I use Tracks Eraser Pro to clear prefetch,cookie and cache etc.
Автор: bolega
Дата сообщения: 15.03.2013 10:41
Torino
Спасибо, посмотрю.

Ironcast

Цитата:
Но как их кодировать в djvu?

Что Вы имеете ввиду? Клочковые страницы или вообще?
Хоть СК и импортирует эти клочья, но работать с ними в таком виде бесполезно. Однозначно такие страницы нужно извлекать способом рендеринга, т.е. объединять все клочки в одну страницу.

ghosty
Проверю, наверно баг
Автор: ghosty
Дата сообщения: 15.03.2013 13:28
Попалась тут книжка детская с очень "расцвеченным" текстом. Обрабатывая ее, подумал, что, может быть, теоретически возможно было бы реализовать цветное jb2-кодирование (не знаю, возможно ли такое для jbig2), раз уж теперь есть GUI для кодера - перед бинаризацией проверяем цвет текста, и если он иной чем черный, помечаем зоной. Не знаю, насколько трудно это автоматизировать.

Пока, конечно, вручную ничего размечать не стал, ибо издевательство - просто аккуратно обработал в цветном режиме. Понятно, что в Акробате в режиме CS файл слишком разросся, зато выглядит "красиво", а сегментер DEE наломал дров, зато файлик маленький
Автор: bolega
Дата сообщения: 15.03.2013 14:35
ghosty

Цитата:
теоретически возможно было бы реализовать цветное jb2-кодирование

В последней версии СК такое есть, называется low-color-зоны. СК кодирует их с помощью jb2. Но есть одно но: чтобы получилось красиво и малого размера, буквы нужно сделать однородными по цвету. Т.е. задать зону, в которой не один цвет (за счет раскраски), а несколько; формат зоны - не b/w, а как есть, напр., color8bit. В постобработке поработать с цветами, чтобы буквы не содержали мусорных вкраплений другого цвета, и закодировать как low-color.
Автор: ghosty
Дата сообщения: 15.03.2013 15:30
bolega

Цитата:
В последней версии СК такое есть, называется low-color-зоны.

Т.е. он именно автоматически умеет расцвечивать? А где это (традиционный вопрос)?
Если речь идет о возможности вручную расцвечивать, то это было и в более ранних версиях. Просто вчера убедился, что для некоторых книг это в принципе невыполнимо, и приходится полагаться на автоматику сегментера.
Мне просто кажется, что это можно делать и красиво, и автоматически, особенно когда уже выделены зоны и остался один текст.

Эксперимент с кодированием из-под СК закончился неудачей:
[more]===========================
===========================
Step 1 start at 15.03.13 16:23
===========================
===========================

Prepare files... Done.
Run documenttodjvu.exe... Done.
Extract djvu pages from step1.djvu... Done.

===========================
===========================
Step 1 finished at 15.03.13 16:23
Encoding completed successfully
Size of encoded djvu: 81Kb
===========================
===========================

===========================
===========================
Step 2 start at 15.03.13 16:23
===========================
===========================

Prepare files... Done.
Run documenttodjvu.exe... Failed.
Use --help for usage instructions.
Error: [1-26007] The requested file 'G:\Temp\skfz5EC9667B.tif' does not exist..

===========================
===========================
Step 2 finished at 15.03.13 16:27
Encoding failed (20)
===========================
===========================[/more]
(на диске G свободно около 8 Гб).
Автор: bolega
Дата сообщения: 15.03.2013 16:52
ghosty

Цитата:
Если речь идет о возможности вручную расцвечивать, то это было и в более ранних версиях

Нет, не вручную.
Но на зоне должно быть как можно меньше лишнего цвета (фона и т.д.) и буквы должны быть однородными. Посмотрите при большом увеличении на цветной текст, там кроме полезного цвета будет еще десятки оттенков, точек, пятен и т.д. При авто-квантизации кол-ва цветов до заданного, нужного нам, кол-ва (именно этого мы добиваемся) буквы не будут однотонными, а это очень плохо влияет на результат.


Цитата:
Эксперимент с кодированием из-под СК закончился неудачей:

Так трудно сказать. Видно, что были зоны (или зона), и Вы отказались использовать МПФ. Обычно если есть зоны, то для таких страниц используется step3, а не step2. Или страница тоже цветная? Вы использовали attach auto?
Автор: rzia
Дата сообщения: 15.03.2013 19:46
Добрый вечер, Коллеги
Столкнулся с тем, что не могу получить хорошего результата с таким вот сканом
Подскажите, пожалуйста, можно что-то с таким приемлемое сделать?
Где что настроить, у меня нечего не получается
Буквы съедает, либо много лишнего остается (грязи)
Заранее спасибо
Автор: Ironcast
Дата сообщения: 15.03.2013 20:11

Цитата:
Клочковые страницы или вообще?
Вообще, зря 2 вопроса в один обьединил..
Oтличные результаты получаются при обработке в черно-белом режиме. Смотрю, точтов папке out и размерами и картинками удовлетворён. Но как их закодировать в djvu ?
Любые страницы с картинками напрочь убиваются. А фотопрофайл в Small Djvu не берёт такие файлы. Типа нет глубины битности, бла-бла-бла.. В моём понимании фотопрофайл--это минимум вмешательства в оригинал... Oбработал в кромсаторе исходник в сером -- small djvu берёт результат, но в фотопроайл размер чудовищный, а b-w картинки убиваются, остальные режимы не работают. Ну не вручную же их по одной вставлять! Надеялся описанным способом обойти этот ужас..
Цитата:
Однозначно такие страницы нужно извлекать способом рендеринга, т.е. объединять все клочки в одну страницу

Это как? Надеюсь, не вручную, а то их бывает по 10 штук на страницу!

Автор: ghosty
Дата сообщения: 15.03.2013 20:11
bolega

Цитата:
Нет, не вручную.

Хорошо, допустим, я выделил все картинки в зоны. Остался текст. Я его бинаризую или нет?
Если я его оставлю в цвете (даже очень хорошо очистив - избавив от фона, снизив кол-во цветов до минимума), то СК при кодировании в DJVU, насколько я понимаю, будет делать по сути то же самое, что и штатный сегментер (или он его и использует?).

Как я понимаю этот процесс в идеале (заранее прошу простить, если несу чушь):
Итак, у нас есть текст, расцвеченный всеми цветами радуги (даже оттенками серого - тут уж я точно не знаю, что можно сделать).
Мы предупреждаем СК, что текст содержит цвет. Когда нажимаем Process, он делает очень грубую разметку, заключая все цветные пятна в прямоугольники и запоминая усредненный цвет этих пятен. Далее происходит бинаризация. На выходе получаем ЧБ текст с разметкой. Когда конвертируем в DJVU СК передает кодеру информацию о цветных зонах, требуя закодировать текст в зонах тем самым усредненным цветом. Как-то так.


Цитата:
Так трудно сказать. Видно, что были зоны (или зона), и Вы отказались использовать МПФ.
Нет, зон не было, а МПФ - да, вероятно, забыл галочку поставить.

rzia
Я не смогу помочь, т.к. сейчас сижу за нетбуком практически без инета.
Автор: shch_vg
Дата сообщения: 15.03.2013 21:59
bolega
А нет ли в последней версии СК возможности выдачи в лог строки параметров DEE, используемых на каждом выполняемом шаге компиляции?
Автор: Volchar
Дата сообщения: 16.03.2013 00:45

Цитата:
Столкнулся с тем, что не могу получить хорошего результата с таким вот сканом
Подскажите, пожалуйста, можно что-то с таким приемлемое сделать?


Вот посмотрите может сойдет: http://rghost.net/44530415
Автор: 3y6acTuK
Дата сообщения: 16.03.2013 00:46
Torino
Под Win32 программы часто не могут занимать больше 1,5 гиг. А под x64 даже 32-битные x86-программы могут занимать почти 3 гига, но наверное не все.

Про качество моно - абсолютно согласен. Перевод из 256 в 2 цвета резко уменьшает визуальное разрешение. То есть это уже не 300 dpi, а где-то 100 dpi. Поэтому именно перед переводом в черно-белое (2-цветное, монохромное) нужно увеличивать сканы в 2 раза. Тем более, что DJVU не любит русские тексты в низком разрешении - ему подавайте минимум 400dpi.

Кстати, если бы в Photoshop еще и подобрали Levels/Curves, то качество увеличенного скана могло бы быть еще выше.
Между прочим - Photoshop позволяет делать удобную пакетную обработку изображений. Искать - в меню File, далее Automate, Batch. Плюс нужно научиться записывать макросы - это еще проще. Тогда может применять выбранный макрос ко всем изображениям из каталога.
Автор: 3y6acTuK
Дата сообщения: 16.03.2013 02:52
rzia
Чуть по-быстрому помучился в Photoshop - получилось так, но не идеально. Применялось выделение по маске, Curves, Levels, Treshold, Gaussian. В общем, в Photoshop можно action написать, чтобы обработать предварительно сканы перед окончательной обрезкой кромсатором.
http://rghost.ru/44531449

А изображения конечно лучше отдельно от текста обрабатывать - из-за того, что нужно было соблюсти баланс между деталями изображения и текстом, качество получилось не очень хорошим ни у текста, ни у картинки. Поэтому обрабатывать их надо отдельно.

Вообще всегда интересовало как правильно очищать такие изображения - с тонким тестом и шероховатой грязной бумагой. Один из выходов - применять маски для текста, "уничтожая" все остальное вокруг. Но как-то я не исследовал это до конца.

Однозначно могу сказать - такой текст с тонкими линиями (и иллюстрации-гравюры со штриховкой) нужно сканировать в 600 dpi. 300 dpi - маловато, даже если вытягивать увеличением разрешения.

То есть в данном случае можно поступить так:

1) Кромсатором выровнять освещенность страниц, может даже обрезать и т.д., но не переводить в монохромное - оставить серым и без регулировки контраста.
2) Разделить страницы на иллюстрации и текст.
3) В Photoshop отдельно обработать иллюстрации и текст пакетным методом. Предварительно подобрав оптимальные алгоритмы обработки для того и для другого (записать actions-макросы).
4) Склеить обратно кромсатором иллюстрации с текстом.

Получится максимально хорошо.

Автор: bolega
Дата сообщения: 16.03.2013 11:38
rzia
Здесь задание и результат: http://rusfolder.com/35497496
Исх.файл продублирован в списке 3 раза, чтобы удобнее было сравнивать результат разных опций.
Кстати, в новом СК для дублирования используется команда clone в контекстном меню списка файлов. После того, как клоны становятся не нужны, их удаляем из задания, СК при этом автоматически перенумерует сужествующие выходные файлы.

shch_vg

Цитата:
нет ли в последней версии СК возможности выдачи в лог строки параметров DEE

нет

ghosty

Цитата:
Нет, зон не было

Судя по ошибке (ругается на временный файл, который СК создает только если на step2 есть зоны), зона все-таки есть. Хотя конечно это не повод чтобы выдавать ошибку, здесь какой-то баг скорее всего. Посмотрите команду File->Task info. В новой версии эта команда выдает больше инфы о таске, включая и кол-во pic-зон. Там, кстати, можно ввести и произвольное примечание к таску. Для поиска страниц с зонами можно также применить команду Edit->Find, задав там искать страницы с pic-зонами.


Цитата:
Как я понимаю этот процесс в идеале

Да, пожалуй так было бы хорошо. Но уменя пока нет надежного алгоритма определения наличия цветного текста. Если бы он был, я бы давно сделал такую фичу.
Сейчас зону с цветным (более одного цвета) текстом приходится выделять вручную. Случай с одним цветом я не рассматриваю, для него в СК есть раскраска.
Лучше всего дайте пример страницы с текстом, раскрашенным более чем одним цветом.

Автор: ghosty
Дата сообщения: 16.03.2013 13:32
bolega

Цитата:
Но уменя пока нет надежного алгоритма определения наличия цветного текста. Если бы он был, я бы давно сделал такую фичу.

Ясно, просто я подумал, что нечто подобное реализовано в СК. Но в случае цветного текста, по идее, зоны цвета достаточно контрастны - возможно, и любой, даже ненадежный алгоритм с подобным справился бы...

http://data.mecheng.adelaide.edu.au/robotics/WWW_Devs/TISVisionTools/TIS_TrainUserManual.pdf


Цитата:
Посмотрите команду File->Task info.

Уже не могу посмотреть, к сожалению, в ближайшее время - в другом месте нахожусь.

Спасибо, что находите время развивать СК и отвечать на вопросы.
Автор: shch_vg
Дата сообщения: 16.03.2013 14:43
bolega

Цитата:

Цитата: нет ли в последней версии СК возможности выдачи в лог строки параметров DEE


нет
Автор: rzia
Дата сообщения: 16.03.2013 14:45
Коллеги, спасибо за советы и примеры, буду пробовать, а пока следующие вопросы. Как я понимаю при помощи ScanKromsator можно делать DjVu? Есть инструкция как это делать?
Спасибо
Автор: Torino
Дата сообщения: 16.03.2013 17:13

Цитата:
rzia
Здесь задание и результат: http://rusfolder.com/35497496

bolega
Существует ли возможность узнать, какие опции обработки активированы в задании, либо значение какого-либо параметра установлено в отличное от по-умолчанию?
Например, вы в задании для rzia, применили опцию Fill white holes.
Однако если бы про это не говорилось несколькими постами выше, то я бы этого и не заметил.

Страницы: 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102

Предыдущая тема: мнение о Maxthon


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.