Ru-Board.club
← Вернуться в раздел «Программы»

» ScanKromsator СканКромсатор (Часть 3)

Автор: bolega
Дата сообщения: 06.03.2014 13:10
shch_vg
Проблема там на самом деле есть. Когда СК считает размеры, то наличие ландшафтных страниц приводит к завышенному размеру по ширине.
Раньше в СК в special была специальная опция, которая помечала ландшафтные страницы, и тогда для них СК считал размеры особо, т.е. за ширину брал высоту и наоборот. И все было как надо. Это опция и сейчас там есть, но она из всех расчетов убрана, причем лет 5 назад. Видимо, по той причине, что смесь ландшафта и портрета считается дурным тоном: лучше размеры страниц всегда использовать портретные, а текст там будет просто повернут по вертикали.
Если уж очень захочется, то в постобработке можно повернуть - там есть для этого две спец. кнопки.
Поэтому я бы рекомендовал так: обработать все страницы (т.е. полностью импортировать djvu) в портретном режиме. В постобработке нужные страницы развернуть. Создать out-задание, и в нем сделать pdf. Если нужно несколько pdf, то в out-задании (теперь работаем только с ним) выделять красным нужную группу, задавать имя Pdf, генерировать его (process selected). Потом убирать выделения, выделять следующую группу и т.д. Мне кажется, так быстрее, чем все время подгружать новую порцию импортированных страниц, долбаться с переключением размеров и т.п.
Автор: shch_vg
Дата сообщения: 06.03.2014 15:02
bolega
Достаточно много делаю pdf из сканов, причем попадаются сканы-развороты (как я понимаю, аналог ландшафтных?), но никаких проблем с этим я не имею.
Поэтому и уточнял процесс обработки в СК.
Я бы просто разобрал djvu в СК на сканы, в этом же задании пометил все сканы через правую из четырех кнопок слева внизу, если нужно, развернул бы повернутые страницы (для этого хватает параметра Potate angle на закладке Page), а потом без использования out-задания выделением нужных для конкретного pdf страниц, создавал бы их.
Если же после извлечения сканов из djvu нужно навести еще дополнительный марафет, то это тоже можно сделать в рамках этого же задания, но в этом случае уже можно использовать out-задание.
Автор: dvkkk
Дата сообщения: 06.03.2014 15:26
Добрый день, уважаемые форумчане.
Подскажите пож. какие настройки нужно выставить в СканКромсатор-е v 5.91
чтобы удалить серый фон для дальнейшего корректного распознавания текста?
Пример фото прилагаю:
http://rghost.ru/private/52860916/da7ac47729e41ecc4cd079076f9581f7
Заранее благодарен
Автор: Torino
Дата сообщения: 06.03.2014 15:48

Цитата:
Подскажите пож. какие настройки нужно выставить в СканКромсатор-е v 5.91

Gray enhance -> Background cleaner -> Enable
Автор: shch_vg
Дата сообщения: 06.03.2014 19:42
dvkkk
Для дальнейшего корректного распознавания текста в данном случае недостаточно удалить серый фон (т.е. бинаризовать скан). Гораздо сложнее будет исправить кривизну текста по бокам скана. В этом деле СК Вам не помощник.
Автор: bolega
Дата сообщения: 06.03.2014 19:59
shch_vg

Цитата:
причем попадаются сканы-развороты (как я понимаю, аналог ландшафтных

Нет, Вы не поняли. Речь идет о том, что человек хочет на _выходе_ оставить файлы в разной ориентации. Для книг так обычно никогда не делают, т.к. это смотрится неэстетично. Для всяких финансовых документов - наоборот, довольно распространенный случай. По себе знаю

Torino

Цитата:
Gray enhance -> Background cleaner -> Enable

Я бы рекомендовал Correct illumination, method=safe. Я кстати только им пользуюсь. Все остальные методы могут повреждать крупные черные буквы и прочие черные "жирные" иллюстрации (делают дырки)
Автор: shch_vg
Дата сообщения: 06.03.2014 20:20
bolega

Цитата:
Речь идет о том, что человек хочет на _выходе_ оставить файлы в разной ориентации.

Тогда я действительно не понимаю, в чем проблема.
Сделать импорт дежавю, пометить все сканы, выделить относящиеся к одному пдф, а потом создать его.
Или я опять что-то не понимаю?
Автор: bolega
Дата сообщения: 06.03.2014 20:28
shch_vg
Возьмем для простоты две страницы. После обработки 1-я имеет размер 100Х200 (портрет), 2-я - 200х100 (ландшафт). СК будет считать размер книги и получит 200х200, т.к. грубо говоря, придется складывать ширину с высотой. Раньше в СК была опция, которая предписывала ему при расчете размеров книги для ландшафтных (на выходе!) страниц размеры брать наоборот: использовать высоту вместо ширины и ширину вместо высоты. Тогда размер книги был бы правильный: 100х200.
Гы: продвинутая секретарша - сканирует в djvu. Где таких готовят?
У меня на работе секретарши делаю все проще: сканят сразу в pdf, потом нужные страницы переводят в ландшафт с помощью Acrobata Prof.
Автор: shch_vg
Дата сообщения: 06.03.2014 22:01
bolega
Это все понятно, но работает только при обработке в СК сканов в режиме automargins. Я же предлагаю перевод дежавю в сканы и сразу же сканы в пдф.
В этом случае размеры будут равны размерам в дежавю.
Или уже в дежавю они имеют кривые размеры?

Кстати, вроде бы есть возможность для развернутых страниц указать, чтобы они не участвовали в формировании размера страницы в варианте automargins.
Автор: bolega
Дата сообщения: 07.03.2014 06:12
shch_vg
Человек писал, что ему нужно равнять размеры страниц. Трудно судить, насколько это критично. Но если так, то все Ваши варианты не годятся. Исключить из формирования размера можно, но тогда и их размеры останутся неприведенными
Автор: Gazoved
Дата сообщения: 07.03.2014 10:50
Повторюсь.

Может кто-нибудь посоветовать как обработать такие сканы:

Оригинал скана - http://rusfolder.com/40013998

Проблема в том, что фоном идет картинки, которую хочется оставить.

bolega
И все-таки есть ли возможность из всех страниц скопом вырезать один и тот же элемент ну или как я писал выше "скопировать выделение Picture Zone на все страницы пакета"?

Еще вопрос, возможно ли при обработке сразу бороться и с черными спеклами и с белыми "дырками" Почему-то не получается приходится делать 2 задания, в одном бинаризовать и удалять черные спеклы, а во втором удалять белые "дырки".

Еще проблема при обработке. Берется изображение, инвертируется (инверсия цветов), далее бинаризуется и необходима обратно инвертировать, вопрос, возможно ли второе инвертирование сделать не правым кликом по странице special - Invert, а для всех страниц скопом?
Автор: shch_vg
Дата сообщения: 07.03.2014 13:51
Gazoved
Попробуйте обработать в цвете в 300dpi.
Для сохранения целостности фонового рисунка придется обрабатывать разворотами, что потребует более аккуратного сканирования.
Автор: daa2013
Дата сообщения: 07.03.2014 14:02
Gazoved

Ну, я бы как-то так делал. Это без СК. (ST+DEE+XnView+FSD)
http://rghost.ru/52884177
В СК тут надо будет вручную повозиться там, где в буквах перемычки пропадают.
В пдф это потом можно будет перегнать с помощью Adobe InDesign.

PS
Может, для спасения перемычек поможет в самом начале приподнять контрастность Фотошопом.
Но это надо экспериментировать, а мне некогда.
(Это лишь пример, если не сутки возиться, а за 5 минут по-быстренькому сделать. Идея только.)
Ну и всю книгу, конечно, надо видеть.
Автор: bolega
Дата сообщения: 07.03.2014 20:25
daa2013
В вашем примере не увидел вообще никакой обработки, эффект такой же, как просто загнали скан в djvu стандартным профилем: перемычки, краешки букв, да и не только, ушли в фон. Вторая страница обрезана справа

Gazoved

В СК можно как-то так: http://rusfolder.com/40057732
Если кратко, то для сохранения фона текста в СК используется такой метод: создается зона, в которой clear source area отключен. dpi зоны желательно сделать равным dpi самой страницы, т.е. 600. Понизить его нужно уже при создании djvu. После обработки переключиться в режим Zones и в контекстном меню зоны дать команду Get transparency mask from image. Потом Files->Create out-task, в out-task Tools->create djvu и т.д. Прочие обработки опускаю, это уже детали.
Описанный метод сохранения фона прокатывает, если фон - не яркий и при бинаризации исчезает. Если фон - темный, то так уже не получится.

Добавлено:
daa2013

Цитата:
В СК тут надо будет вручную повозиться там, где в буквах перемычки пропадают.

Это у вас в ST пропадают. В СК ничего не пропадает. Не пишите того, чего не знаете. Смешно слышать советы по СК от очередного адепта СТ. Вы случаем форум не перепутали?
Автор: daa2013
Дата сообщения: 08.03.2014 00:20
bolega
Ну, круто, чо.
Век живи, век учись.
Автор: shch_vg
Дата сообщения: 08.03.2014 11:49
bolega

Цитата:
В СК можно как-то так

Вот если бы не на словах, а в task.rar...
Автор: Gazoved
Дата сообщения: 08.03.2014 12:00
bolega, присоединяюсь к shch_vg, не могли бы приложить задание, чтобы можно было повторить. Спасибо за Ваши советы.
Автор: bolega
Дата сообщения: 08.03.2014 18:19
Задание http://rusfolder.com/40062441.
Сделано в новой версии, не знаю, откроется ли корректно в старой. И в старой нет некоторых фильтров, которые я использовал в новой (mean, autolevels в свойствах зоны). После обработки была небольшая постобработка в СК.
По сравнению с прежним вариантом добился некоторго улучшения и уменьшения размера.

Автор: Torino
Дата сообщения: 09.03.2014 12:32
bolega
Не помню говорил ли кто про эту ошибку:
При добавлении drag&drop djvu файла
после окна выбора настроек добавления
посвляется ошбка
"DJVUsed.exe!"
а после него
"List index out of bounds (0)"
И файл соответственно в задание не добавляется.
DjvuLibre естественно установлен
(DJVUsed.exe в системе присутсвует в путях по-умолчанию)
Автор: MrLAG
Дата сообщения: 10.03.2014 02:34
Что-то у меня какой-то глюк. Работал с глифами, панелька встала справа чётко под рамку окна. Удобно. Однако, сейчас у меня задача обработалась, уже совсем другая, открылся просмотр - панелька от глифов торчит, естественно пустая. И что самое противное, торчит слева и не желает никуда деватся. А как ее теперь убрать?
Автор: bolega
Дата сообщения: 10.03.2014 10:07
MrLAG
Там баг, в новой версии исправлен. Не паркуйте пока панель по краям!
Сейчас же сделайте так: откройте sk.ini и удалите строчки, начинающиеся с
DockG=
DockxG=
DockRowG=
FloatingG=
GDockPosx=
GDockPosy=
DockGW=
DockGH=

P.S. Просьба ко всем пока не выдвигать новых фич. Из-за них и так выпуск новой версии надолго откладывается.
Автор: butsefal
Дата сообщения: 10.03.2014 13:32
Подскажите, пожалуйста, как обработать эти 2 страницы.
http://rghost.ru/52955759/image.png
Хотелось бы сохранить выделенное голубым и синим цветами. Но страницы тонкие и на голубом фоне пропечатались буквы с другой страницы более тёмным цветом. С белого фона я их убрал, но убрать с голубого, сохранив цвет, не удаётся. Это реально подбором настроек вообще ? Хотелось бы сохранить таблицы, вычистив весь мусор и серый цвет с разворота после разрезания на две страницы.
И возможно ли скопировать голубые зоны с содержанием в нижних левом и правом углах на все страницы автоматически ? Текст в этих зонах может меняться.
А чем после обработки можно убрать искажения текста около разворота ?
Автор: Gazoved
Дата сообщения: 10.03.2014 16:20
butsefal
Выделение проще всего сохранить, как мне кажется, используя Picture Zone (Properties->Paint).


Цитата:
И возможно ли скопировать голубые зоны с содержанием в нижних левом и правом углах на все страницы автоматически ?

Пока нет, уже спрашивал у автора bolega


Цитата:
А чем после обработки можно убрать искажения текста около разворота ?

Полагаю, что лучше вначале убрать искажение, в book restorer, а уже потом делать все остальное.
Автор: bolega
Дата сообщения: 10.03.2014 18:14
butsefal
У Вас там реально 100dpi? Или это rghost ужал так? Если rghost, то потрудитесь нормальный пример выкладывать, а не иконки сканов
А из иконок примерно такое получается http://rusfolder.com/40072714
Автор: MrLAG
Дата сообщения: 10.03.2014 21:40

Цитата:
Там баг, в новой версии исправлен. Не паркуйте пока панель по краям!
Сейчас же сделайте так: откройте sk.ini и удалите строчки, начинающиеся с


Спасибо, разобрался. Можно и припарковать панель, главное перед выходом из программы ее закрыть, тогда вроде глюк не появляется. В общем не критично, просто сохранил почищенный .ini, в случае чего заменю. Глифы очень помогли. До сих пор нахожу в программе много нового. )
Автор: butsefal
Дата сообщения: 11.03.2014 14:38

Цитата:
У Вас там реально 100dpi? Или это rghost ужал так?


Не знаю, что произошло, файл был .pdf 300dpi. Выложил оригинал сейчас и проверил его
http://rusfolder.com/40082659

Но даже на пережатом файле результат впечатляет. Не могли бы вы выложить
задание или объяснить настройки. Было бы просто замечательно, если такого
можно достигнуть в автоматическом режиме без выделения таблиц как "picture zones".
А то отмечать их руками на ~ 1000 страниц довольно нетривиально.
Автор: igogo22
Дата сообщения: 11.03.2014 15:30
Подскажите тему по documenttodjvu.conf. Я уже долгое время пробую создать свои профили, удалось создать только scanned и bitonal с вменяемым результатом. На photo выходит конячий размер всегда да и на bitonal размер вроде завышен, хотя с качеством проблем нет.
Автор: VadimirTT
Дата сообщения: 11.03.2014 16:12
igogo22
Попробуй профиль от Melirius`а
Автор: igogo22
Дата сообщения: 12.03.2014 12:01

Цитата:
Попробуй профиль от Melirius`а


Посмотрел я профиль. Это scanned профиль. у меня с ним как рас нет проблем. Интересуют photo и bitonal.
Кстати, описание параметров я брал с стандартного конфиг файла. Но, насколько я вижу, там не все описаны и нет списка возможных значений. Где можно узнать описание таких как
bg-subsample=4
inversion-level=0
pix-filter-level=50
subsample-refine=true
shape-filter-level=100
threshold-level=20
aggressive=true
например?
Не могу найти как подключить вейвлет-преобразование, для заднего, переднего плана?
При случае, сразу спрошу, что за утилита CJB2 из пакета DjVuLibre и с чем ее едят? Ну и вообще библиотека DjVuLibre под лицензией GNU GPL? Реализованы ли там усе возможности формата и дает ли она результат не хуже чем DjVu Small? Стоит ли на нее переходить?
Автор: daa2013
Дата сообщения: 12.03.2014 13:14
igogo22

Конфигурационный файл - это просто строка параметров, которые подадутся на вход утилиты кодера.
Вот сейчас bolega опять будет ругаться, что это не про СК и другая ветка.
Ну вот для кого тексты и статьи пишутся ?????? Идем в профильную ветку
http://forum.ru-board.com/topic.cgi?forum=93&topic=3514&start=1440
и читаем в шапке мануал (статью) про настройки джву-кодирования в DocumentExpress.
(Хотя в общем всё, включая и примеры влияния параметров сегемнтирования, из справки к официальной программе взято было.)

bg-subsample - во сколько раз уменьшается задний план от исходного
Refine - включает сглаживание маски или фона
inversion - пороговое значение для разграничения между черно-белым и бело-черным текстом (порог для определения инвертированного текста)
pix-filter- штрафное значение для переходов фон-маска при сегментировании
shape-filter - куда идут сомнительные пиксели, в фон или в маску
threshold-level - третий параметр джву-сегментирования - баланс между пространством колебания (стандартного отклонения) яркости маски и яркости фона вокруг своих локально средних уровней.

Вейвлетами маска не кодируется, их там и не надо подключать.

Если уж вы решили из командной строки с джву-утилитами работать, то можно в ней к каждой справку вызывать и возможные значения посмотреть
[more]
Where options are:
--config=<filename> Use a non-standard configuration file.
--profile=<name> Use the options under 'name' profile.
--verbose Print verbose messages.
--filelist=<filename> Specify a text file containing a list of
input files.
--page-range=<range> Specify the ranges of pages to convert.
Ranges are specified like "1-5,10,11".
--help Print the usage instructions.
--version Display the build version number.
TRANSFORM:
--dpi=<25-1200> Dots (pixels) Per Inch.
--tobitonal[=<1-255>] Reduces to bitonal, optional threshold.
--togray If input is color, reduce to gray scale.
--hflip Horizontally flips the output.
--vflip Vertically flips the output.
--rotate=<angle> Rotate the output either 90, 180, or 270 clockwise.
--invert If bitonal, swap black and white.
--upsample=<factor> Upsample the image by the specified factor.
--subsample=<factor> Subsample the image by the specified factor.
SEGMENTER:
--background-floss Use background color in the small intervals
between characters.
--pix-filter-level=<0-100> Foreground pixel filter.
(0 is maximum foreground.)
--shape-filter-level=<0-100> Foreground shape filter.
(0 is maximum foreground.)
--threshold-level=<0-100> Foreground/background threshold.
(0 is maximum foreground.)
--inversion-level=<0-100> Foreground inversion (0 means no inversion).
--subsample-refine Add interpolation heuristics to subsample.
--fg-subsample=<1-12> Foreground image subsample ratio.
--bg-subsample=<1-6> Background image subsample ratio.
--mask-upsample=<1-3> Mask and target DjVu image upsample ratio.
--resolution-multiplier=<1,2> Use 1 unless input resolution is above 450dpi.
BACKGROUND:
--quality=<1-100> Photo/Background Quality (1 lowest, default is 75).
--crcbnormal Normal chrominance quality compression.
--crcbfull Full chrominance quality compression.
--crcbhalf Half resolution chrominance compression.
--crcbnone No chrominance will be used in the compression.
--crcbdelay=<1-32> The chrominance delay effects color blurring and size.
--gamma=<0.3-5.0> Gamma factor (default 2.2).
--sizes=#,#,... A list of the minimum size (in bytes) per chunk.
--decibels=#.#,#.#,... A list float decibel minimums per chunk.
--slices=#,#,... A list of the minimum # of slices per chunk.
TEXT:
--jb2-format=<B,C,N> Encode the JB2Layer as B="Bitonal JB2"
or C="Color JB2;" Use "N" for no JB2 layer.
--fg-quality=<1-100> Foreground quality (1 is lowest quality, 75 is default).
--conservative Use conservative compression.
--lossless Use lossless compression.
--quasilossless Use quasilossless compression.
--lossy Use lossy compression.
--aggressive Use aggressive compression.
--disable-halftone Disable halftone detection.
--matching-level=<0-100> Shape matching level (default 100).
--pages-per-dict=<value> Number of pages per shared dictionary (default 10).


ПАРАМЕТРЫ ДЛЯ ФОТО-ДЖВУ

--quality=<1-100> Photo/Background Quality (1 lowest, default is 75).
--crcbnormal Normal chrominance quality compression.
--crcbfull Full chrominance quality compression.
--crcbhalf Half resolution chrominance compression.
--crcbnone No chrominance will be used in the compression.
--crcbdelay=<1-32> The chrominance delay effects color blurring and size.
--gamma=<0.3-5.0> Gamma factor (default 2.2).
--jpeg Output pseudo DjVu. Input files must be JPEG.
--sizes=#,#,... A list of the minimum size (in bytes) per chunk.
--decibels=#.#,#.#,... A list float decibel minimums per chunk.
--slices=#,#,... A list of the minimum # of slices per chunk.
--dpi=<25-1200> Dots (pixels) Per Inch.
--hflip Horizontally flips the output.
--vflip Vertically flips the output.
--rotate=<angle> Rotate the output either 90, 180, or 270 clockwise.
--config=<filename> Use a non-standard configuration file.
--profile=<name> Use the options under 'name' profile.
--verbose Print verbose messages.
--filelist=<filename> Specify a text file containing a list of
input files.
--page-range=<range> Specify the ranges of pages to convert.
Ranges are specified like "1-5,10,11".
--help Print the usage instructions.
--version Display the build version number.



[/more]

Страницы: 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102

Предыдущая тема: мнение о Maxthon


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.