Ru-Board.club
← Вернуться в раздел «Программы»

» ScanKromsator СканКромсатор (Часть 3)

Автор: Gazoved
Дата сообщения: 14.04.2009 08:20
bolega
Я поддерживаю Torino

Цитата:
Сильно не хватает функции...полная очистка изображения за пределами textbox перед финализацией.

Например, страницы криво лежали, а расставляьть резаки под углами - долго, а так, удалил весь мусор за пределами и да будет нам счастье. обрабатывать в 2 этапа, т.е. 0 поля, а потом уже нормальные - долго получается.

Да прошу прощения за то, что в свое время не ответил на Ваш вопрос (срочно уезжал в экспедицию в Сибирь на 3 недели), по преобразованию в b/w, как-то позже само все устранилось, точнее я просто привык делать все сразу.

Вот какой вопрос еще, иногда бывает такая ситуация, когда после DK и Process, не возможно посчитать размер книги, т.е. менюшка открывается, а реально ничего посчтать не возможно, просо кнопка "Ok" не доступна, где крыжики не расставляй приходится заново прогонять, акое бывает периодически и как продолжить из этого момента я не знаю. Это происходит примерно 1 раз из 20
Автор: alexsk777
Дата сообщения: 14.04.2009 12:24
realwhistle
Отключите Quality -> Gray Enhance -> Contrast -> Auto-levels (снимите птичку)
И попробуйте Quality -> Gray Enhance -> Gamma поставить значение гаммы, например, 2.
Не забывайте что эти настройки действуют только на текущую страницу если не нажать Ctrl.
Автор: realwhistle
Дата сообщения: 14.04.2009 12:36
alexsk777


Ctrl? никогда его не нажимала... черт...
Автор: Torino
Дата сообщения: 14.04.2009 12:38
Можно еще Alt прижать (без Ctrl) - даже интересней будет ))
Автор: ghosty
Дата сообщения: 14.04.2009 14:10
realwhistle
Профили - это всего лишь наборы таких параметров обработки, которые с большей вероятностью применимы для того или иного типа книг.
Профиль по умолчанию, по моим оценкам, подходит для 50-60% новых книг и для 80-90% (так же новых книг) - при настройке порога бинаризации.
Настройки профиля OLD_BOOKS подходят примерно для 20-40% старых книг. При условии установки параметров бинаризации и коррекции освещения для конкретной книги этот же профиль подойдет для 50-60% старых книг. Почему такой низкий процент? Потому что специфика старых книг состоит в следующем:
1) Для них приходится подбирать такой набор параметров, который сработает для большей части всех обрабатываемых страниц. В самом удачном случае это будет около ~70% страниц, в самом неудачном - чуть больше половины. Соответственно для всех остальных страниц приходится использовать другой набор параметров. Т.е. завершили первый "прогон" обработки, в режиме просмотра проверяем правильность обработки. Если видим, что какая-то страница обработана неудачно, нажимаем F2 (в списке файлов она помечается красным). Таким образом у нас формируется еще одна группа страниц для обработки. Устанавливаем параметры теперь уже для этой группы и выбираем в меню Process->Group->Process Selected.
2) Процесс обработки старых книг, как правило, не ограничивается только автоматической обработкой - потребуется также и, подчас кропотливый, ручной труд (как на этапе предобработки, так и на этапе постобработки).
Вот, это как бы совсем вкратце

Кстати, Вы помните, что эти профили составлены под сырые сканы 300dpi в полутонах серого?


alexsk777

Цитата:
Отключите Quality -> Gray Enhance -> Contrast -> Auto-levels (снимите птичку)
И попробуйте Quality -> Gray Enhance -> Gamma поставить значение гаммы, например, 2.
Вы же не видели книжку целиком, как Вы можете советовать?
Автор: alexsk777
Дата сообщения: 14.04.2009 16:19
ghosty

Цитата:
Вы же не видели книжку целиком, как Вы можете советовать?

Я видел обработанную часть в pdf - этого достаточно. И в этой книге 26г и в той страничке из книги 17г из-за автоуровней пропадают части символов. Нужно использовать ручные настройки. Автоуровни на малоконтрастных сканах зачастую так смещают гистограмму что при бинаризации светлые части текста попадают выше порога и пропадают.
Автор: Torino
Дата сообщения: 14.04.2009 18:25
Из моего опыта: светлые участки текста при использовании gray enhance, можно сохранить, сняв галку ignore light pixels на вкладке backgroudn cleaner.
Автор: realwhistle
Дата сообщения: 15.04.2009 04:37
ghosty
я на 400 dpi сканирую... 300-ам не доверяю.. некоторые даже на 600, совсем старые или греческий...
Автор: Gazoved
Дата сообщения: 15.04.2009 18:15
Вопрос такой, знает ли кто-нибудь, возможно ли повернуть Picture zone если она выделена прямоугольником, или наклонные картинки можно выделить только ломаной?
Автор: bolega
Дата сообщения: 16.04.2009 07:57
Gazoved
Зоны поворачиваются при deskew на такой же угол, что и вся страница. Форма зоны здесь роли не играет. Координаты вершин после поворота пересчитываются. И вот здесь форма имеет значение: прямоугольные зоны становятся несколько больше (за счет того, что при повороте они уже превращаются в наклонные прямоугольники, СК как бы создает новую прямоуг. зону, в которую вписан повернутый, и поэтому габариты зоны становятся больше). Непрямоугольные же зоны габариты не меняют.
Автор: Gajver100
Дата сообщения: 17.04.2009 05:35
НАРОД!!!! СРОЧНО НУЖНА ВАША ПОМОЩЬ!!! КАК СОЗДАТЬ PDF в СканКромсаторе изобработанных тифов???!!! Срочно, а то на работе задушат сейчас нафиг... из головы вылетело.
Автор: bolega
Дата сообщения: 17.04.2009 07:34
Gajver100
В задании, в котором получены обработанные тифы, нажимаете в главном меню File->Create out-task. Задание создается и тут же загружается. Идете сразу на закладку опций Files, там задаете output format=pdf. Там же в поле pdf name задаете имя pdf-файла. Нажимаете кнопку Process! Ждете пару минут, пока СК создает pdf.
Автор: Gazoved
Дата сообщения: 17.04.2009 22:13
bolega


Цитата:
Зоны поворачиваются при deskew

Вы меня скорее всего недопоняли, я имел ввиду, как повернуть выделение Picture zone, т.е., я выделяю обычным прямоугольником, а потом мне этот прямоугоьник надо повернуть. Когда таке встречается, напримр, сканирование двойных страниц, страницы разъехались и каждая из них лежит киво, выделяя рисунок, попадает часть текста под картинкой, выделять ломаной - гораздо дольше, чем просто обвести повернуть, нельзя ли ввести такую опцию, скажем, чтобы по "+" и "-" происходил поворот зоны выделения.
Автор: shch_vg
Дата сообщения: 19.04.2009 16:09

Цитата:
нельзя ли ввести такую опцию, скажем, чтобы по "+" и "-" происходил поворот зоны выделения.

Очень полезная возможность, хорошо бы только с минимумом действий.
Автор: shch_vg
Дата сообщения: 20.04.2009 18:02
bolega
Провел такой эксперимент:
В SK 5.92 объединил исходные сканы (два в цвете 150, остальные серые 300) в PDF, затем той же программой импортировал этот PDF в TIFF и стал сравнивать в Irfanview.
Несжатые размеры у соответствующих файлов одинаковы, сжатые же все не совпадают.
Цветные в сжатом виде стали почти вдвое меньше, число цветов почти вдвое уменьшилось. Зато все серые стали чуть больше, причем у каждого серого количество цветов чуть увеличилось. В результате суммарный объем всех сканов после этих операций немного увеличился.
Визуально практически не заметна разница в цветных сканах, на серых разница заметна чуть-чуть.
Интересно, почему теряются/находятся цвета?
Автор: bolega
Дата сообщения: 21.04.2009 16:35
shch_vg

Цитата:
Интересно, почему теряются/находятся цвета?

В pdf картинки загоняюся с jpg-сжатием 80% (так по умолчанию, закладка опций pdf). В этом и причина.
В принципе, СК может загонять и без потерь, тогда в свойствах зоны нужно задать формат зоны в pdf=tif. Причем это можно сделать как сразу для всех зон, так и выборочно. Т.е. формат зоны и степень ее сжатия в pdf можно при желании указывать для каждой зоны индивидуально.

Автор: shch_vg
Дата сообщения: 21.04.2009 18:08
bolega

Цитата:
В принципе, СК может загонять и без потерь, тогда в свойствах зоны нужно задать формат зоны в pdf=tif

А как загнать без потерь, если нет зон?
Неужели для этого нужно все страницы заключать в зоны?

P.S. Не нашел, где можно в свойствах зоны задать формат зоны в pdf=tif.
Автор: ghosty
Дата сообщения: 21.04.2009 18:28
shch_vg

Цитата:
Неужели для этого нужно все страницы заключать в зоны?

Да, вот мне один раз уже так пришлось делать, чтобы иметь возможность отфильтровать весь бэкграунд до белого в цветной кулинарной книге
Автор: bolega
Дата сообщения: 21.04.2009 22:09
shch_vg

Цитата:
А как загнать без потерь, если нет зон?

Задайте качество jpg=100%. В 99,9% случаев это практически равнозначно сжатию без потерь. Использовать для этого тиф бессмысленно: качество будет такое же, а размер - в несколько раз больше, т.е. ужасно большим (мы ведь говорим о целиком серых/цветных страницах). В новой версии можно теперь использовать jpg2000.


Цитата:
Не нашел, где можно в свойствах зоны задать формат зоны в pdf=tif

Для этого нужно создать задание для pdf (из обычного задания). Как это сделать - я уже неоднократно писал, в том числе намедни. В таком задании зоны становятся внешними (т.е. отображаются уже в исх. окне), вот в их-то свойствах и есть такая опция. Для внутренних зон (т.е. получаемых в процессе обработки) такой опции действительно нет, т.к. предолагается, что pdf создается из спец. задания, в противном случае невозможна будет постобработка.

Ч/б страницы или зоны СК загоняет в pdf только в формате тиф, независимо от того, что там задано в опциях!!
Говорю это на всякий случай, чтобы не подумали, что СК кодирует их в jpg. Такой глупости он не делает!
После того, как pdf создан, нужно в Acrobat Prof сделать PDF Optimizer, чтобы превратить тиф в JBIG2. размер после этого упадет в 2-3 раза.

Добавлено:
ghosty

Цитата:
отфильтровать весь бэкграунд до белого

А Вы не пробовали просто воспользоваться опцией histogram, т.е. задать точку белого?
Автор: shch_vg
Дата сообщения: 21.04.2009 22:20
bolega
Попытался последней версией Вашей программы импортировать один PDF (90 мб), она это сделала, но крайне странно:
1. все файлы в левом окне выделены красным цветом.
2. все страницы (как цветные, так и черно-белые) порезаны на 5 отдельных файлов разных странных dpi (слева в списке присутствуют только первые из них), причем расположены они повернутыми на 90 гр. против часовой стрелки.
3. на каждом из высвечиваемых файлов находится по несколько picture-зон, которые частично перекрывают друг друга.
4. программа Ap PDF to TIFF разобрала этот файл корректно.
Если Вас заинтересовал такой феномен, могу его выложить.
Автор: ghosty
Дата сообщения: 21.04.2009 22:32
bolega

Цитата:
А Вы не пробовали просто воспользоваться опцией histogram, т.е. задать точку белого?
Пробовал, но почему-то мне показалась реализация замены фона для зон намного эффективнее. Если я не прав, прошу прощения.
Автор: shch_vg
Дата сообщения: 21.04.2009 22:33
bolega

Цитата:
Задайте качество jpg=100%. В 99,9% случаев это практически равнозначно сжатию без потерь.

Странно, значит я попал в 00,1%.
Я именно это сделал, размер pdf увеличился почти в четыре раза, но его разборка все равно дала примерно тот же результат, что я описал выше.
Вопрос о сохранении без потерь ( пусть и при значительном увеличении объма) для меня остается открытым.

Цитата:
нужно в Acrobat Prof сделать PDF Optimizer, чтобы превратить тиф в JBIG2

А это влияет на качество сохраняемых тифов?

P.S. У меня в 8-ом Акробате нет JBIG2, где его искать?
Автор: bolega
Дата сообщения: 21.04.2009 23:17
shch_vg

Цитата:
Если Вас заинтересовал такой феномен, могу его выложить

Давайте, очень интересно.

ghosty

Цитата:
Пробовал, но почему-то мне показалась реализация замены фона для зон намного эффективнее

Наверно, так и есть.

shch_vg

Цитата:
Вопрос о сохранении без потерь ( пусть и при значительном увеличении объма) для меня остается открытым

Оригинал Вы, батенька


Цитата:
А это влияет на качество сохраняемых тифов?

Нет.
Впрочем, если использовать lossy и прибегнуть к помощи хорошего микроскопа,отличия найти можно


Цитата:
У меня в 8-ом Акробате нет JBIG2, где его искать?

Он есть начиная с 5-го (а может и раньше даже).
Advanced->PDF Optimizer (в разных версиях название может и отличаться, в последних версиях может быть и в File->..., сейчас точно не помню)
Далее Закладка Images->Monochrom images->Compression=JBIG2, Quality=Lossy или Lossless. Lossy в PDF совсем не то же самое, что в djvu. Он гораздо мягче, т.е. всякие инь-янь и пропажи мелких точек исключены. Но и размер проигрывает djvu.
Главное, не включать там Adaptive Compression. Подозреваю, что все поганые pdf в инете именно из-за этой опции появляются. Она портит даже ч/б сканы.



Добавлено:
shch_vg

Цитата:
Я именно это сделал, размер pdf увеличился почти в четыре раза, но его разборка все равно дала примерно тот же результат, что я описал выше

ну а что Вы хотите, jpg - это не тиф. Даже при 100%-качестве он не является полностью обратимым
Автор: shch_vg
Дата сообщения: 22.04.2009 01:45
bolega
Выложил "феномен" здесь.

Т.к. я плохо понимаю в pdf, может посоветуете мне, как сохранять исходные серые сканы-развороты в 300dpi + цветные обложки в 150 dpi в PDF, чтобы при последующем извлечении можно было получить приемлемый djvu.
Я попробовал Вашей программой создать PDF из 55 серых разворотов и 2 цветных обложек общим объемом 280 мб и получил при установках по умолчанию размер PDF, равный 61 мб. Поскольку JBIG2 применяется только к ч/б тифам, вряд ли я могу получить меньший размер PDF. Единственное, что меня смущает, это то, что после повторного импорта есть небольшая разница (которая правда не очень заметна визуально).
Т.е. мой вопрос таков: полученный по умолчанию PDF оптимален, или можно еще что-то улучшить?
Этот вопрос важен для тех, кто может только отсканировать, но имеет проблемы с обработкой и компиляцией.
Автор: ghosty
Дата сообщения: 22.04.2009 01:52
shch_vg

Цитата:
Т.к. я плохо понимаю в pdf, может посоветуете мне, как сохранять исходные серые сканы-развороты в 300dpi + цветные обложки в 150 dpi в PDF, чтобы при последующем извлечении можно было получить приемлемый djvu.
Не знаю, зачем это может понадобиться, но, ИМХО, оптимальный способ - выбрать JPEG2000 в кач-ве алгоритма сжатия для PDF.
Автор: bolega
Дата сообщения: 22.04.2009 07:44
shch_vg

Цитата:
Выложил "феномен" здесь.

"Данная страница не обнаружена на нашем сервере".
Если можно, положите на рапиду

Как правильно сказал ghosty, самое оптимальное - jpg2000. Да и гнаться за идеальным воспроизведением смысла не вижу. Неизвестно еще, что ближе к оригиналу - начальный скан, или после восстановления.
Автор: shch_vg
Дата сообщения: 22.04.2009 12:03
bolega

Цитата:
"Данная страница не обнаружена на нашем сервере".

Странно, у меня нормально качает.
Попробуйте тогда этот линк, если снова не получится, тогда выложу на рапиду. Качать soltis.rar.

Цитата:
самое оптимальное - jpg2000

Это теория, а мне бы практики.
У Вас при создании PDF по умолчания используется jpg2000?
Если нет, то как сделать в Вашей программе в jpg2000?

ghosty

Цитата:
Не знаю, зачем это может понадобиться

Так я вроде написал в конце сообщения.
Человек может сканировать, но не умеет обрабатывать и компилировать.
Он делает PDF желательно наименьшего размера и выкладывает его на обменник для дальнейшей обработки другими.
P.S. С шахматными книгами мы это проделывали неоднократно, даже сканирование в сером в 200dpi давало неплохие результаты. К сожалению, я, например, из vuescan'а не могу выбить 200dpi в raw.
Хочется минимизировать размер пересылаемого файла без заметной потери качества.
Автор: ghosty
Дата сообщения: 22.04.2009 13:24
shch_vg

Цитата:
Это теория, а мне бы практики.
У Вас при создании PDF по умолчания используется jpg2000?
Если нет, то как сделать в Вашей программе в jpg2000?
Подождите. СК - в первую очередь программа обработки. Если Вы не собираетесь обрабатывать, а хотите лишь сохранить сканы на будущее, то пользуйтесь другими программами. Понятно, что в СК нет jpg2000.

Цитата:
Так я вроде написал в конце сообщения.
Я не понял, зачем Вы настаиваете на PDF в качестве контейнера. Можно тогда уж сразу в jp2.
Если нужно обязательно в PDF, можете использовать CVista PDF Compressor.
Автор: chesskom
Дата сообщения: 22.04.2009 13:49
New Version
PDF2DjVu 0.5.4 (2009-04-18)

Download:
http://pdf2djvu.googlecode.com/files/pdf2djvu-win32_0.5.4.zip

INFO:
http://code.google.com/p/pdf2djvu/
Автор: shch_vg
Дата сообщения: 22.04.2009 14:49
ghosty

Цитата:
Понятно, что в СК нет jpg2000.

Эх, если бы мне это было понятно!
Я ведь писал, что в работе с PDF нахожусь на почти нулевом уровне.

Цитата:
Я не понял, зачем Вы настаиваете на PDF в качестве контейнера

Я знаком с DJVU, умею переводить PDF, созданный из тифов, в DJVU, поэтому и кручусь вокруг того, о чем имею хотя бы какое-то представление.
Насчет других программ, работающих с PDF, еще нужно понять, а дают ли они большее сжатие по сравнению с СканКромсатором. Я пытался сделать описанное выше действие с программой PDF OCR Compressor, пробовал и вариант jpg2000, но меньше 96 мб получить не смог (напомню, что СК дал 61 мб).
Вы уверены, что, например, CVista PDF Compressor может дать лучшие результаты?
Дело в том, что программ много, пробовать-не перепробовать, но мне кому-то легче советовать и объяснять, что делать, именно в программе СканКромсатор.
Был бы рад, если бы кто-то посоветовал программу, которая действительно показала бы лучшие результаты по сравнению с СК.

P.S. Поискал информацию о CVista PDF Compressor в инете и на форуме и понял, что это программа не для простых смертных, так и не нашел работающую версию.

Страницы: 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102

Предыдущая тема: мнение о Maxthon


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.