» ScanKromsator СканКромсатор (Часть 3)

Автор: bolega
Дата сообщения: 24.12.2010 11:44

LVitek
Еще раз поворяю для тех кто в танке - при создании pdf никаких красных полос СК не никогда не создавал. Во-вторых, разуйте глаза и при увеличении посмотрите на картинку, где видно, что полоса - это скан какой-то возможно липкой ленты или еще какой хрени

Автор: Onetai
Дата сообщения: 29.12.2010 14:31

Цитата:

что полоса - это скан какой-то возможно липкой ленты или еще какой хрени

Возможно, сканер умирает -- я такие серые полосы видел перед смертью одного сканера

Автор: kimserge
Дата сообщения: 29.12.2010 19:21

Уважаемый Болега,
не могли бы Вы подсказать, как сохранить цвет при обработки таких сканов.

Насколько я понимаю, для этого служит окно color в вкладке files, но по какой-то причине я не могу получить цветные тифы (lzw).
Спасибо!

Автор: bolega
Дата сообщения: 30.12.2010 10:39

kimserge
Я бы сделал через раскрашенные зоны (ч/б зоны с красной раскраской).
См. задание с результатом: http://ifile.it/khvi8rf/redzones.zip.
На качество внимание не обращайте, т.к. делалось из Вашего 100dpi jpg.

Автор: qazazel
Дата сообщения: 30.12.2010 10:49

Здравствуйте, подскажите настройки для обработки такого изображения - http://ifolder.ru/21092319 Хотел использовать настройки как в руководстве ScanAndShare 1.07, но буквы получаются очень жирными и размытыми. Пользуюсь версией кромсатора 5,93. Также в руководстве упоминалась вкладка Denoise, я ее не смог найти. Если она есть, то где ее искать. Спасибо.

Автор: bolega
Дата сообщения: 30.12.2010 11:16

Большая просьба ко всем: выкладывайте сначала свой вариант обработки, чтобы было видно, что не устраивает. Это сделать легко: становитесь на нужный файл задания, вызываете меню File->Create sub-task. Нажимаете ОК. В результате в папке со сканами создатся подпапка "test" (имя по умолчанию) с одним исх.файлом, его выходным файлом и заданием. Внутри задания (spt-файла) все пути к файлам относительные (чтобы не было видно структуры вашего диска). Архивируете папку test и выкладываете на обменник.

qazazel

Цитата:

но буквы получаются очень жирными

Вообще-то они и на скане жирные, таков уж шрифт.
Вот что у меня на скорую руку получается: http://www.onlinedisk.ru/file/581497/

Автор: qazazel
Дата сообщения: 30.12.2010 11:28

Спасибо, буду знать про sub-task. Действительно теперь выглядит лучше. А что стало со вкладкой denoise?

Автор: bolega
Дата сообщения: 30.12.2010 11:48

qazazel

Цитата:

А что стало со вкладкой denoise?

Нет ее больше...
Вместо нее можно использовать smart blur. Параметры sb по умолчанию "нежные". Если нужно большее сглаживание, нужно увеличивать радиус до 7-8, одновременно уменьшая порог threshold до 10-20 (чтобы не размыть края букв). Степень размытия также регулируется параметром Strength.
Кстати, smart blur прекрасно давит артефакты jpg.

Автор: ILHS
Дата сообщения: 31.12.2010 09:55

Как можно убрать засечки между букв? Вся книга в таком виде. Есть решение?

Автор: ghosty
Дата сообщения: 31.12.2010 12:07

ILHS
Кардинального решения до сих пор предложено не было, если правильно помню. В СК можно попробовать увеличить размер спекла (File->Options->Processing). В ходе обработки все засечки все равно удалить не удастся, поэтому на этапе постобработки в режиме Results View придется удалять в полуавтоматическом режиме Mouse-Up Despeckle. Параметры этого режима (размер спекла) можно изменить, вызвав контекстное меню и выбрав Clear Options. Также может помочь опция подсветки спеклов (Highlight speckles). (Можете посмотреть мои мультики о постобработке в СК из шапки).

Сейчас в нашем распоряжении появилась довольно мощная программка для обработки ЧБ сканов - ScanFix. В ней есть много разных методов очистки и способов задать размер и форму засечек. Например, в Вашем скане это в большинстве своем вертикальные линии, толщина которых меньше толщины символов. Можете поэкспериментировать.

P.S. Всех с Новым годом! Желаю, чтобы было больше хороших книг и времени на их чтение

Автор: LVitek
Дата сообщения: 01.01.2011 17:25

Цитата:

как убрать эти полосы?

Всем спасибо за помощ,все свободны.

Автор: ghosty
Дата сообщения: 01.01.2011 18:54

kimserge
Вручную выделять цветные зоны, наверное, будет довольно трудно. У Arcand'a, вроде, был неплохой кореловский скрипт для автоматической обработки текста с цветными словами. Спросите в топике по обработке.

bolega
А алгоритм автоматического выделения цветного текста в рамки очень сложен?

LVitek

Цитата:

Всем спасибо за помощ,все свободны.

Последствия бурного празднования? Вообще-то, здесь никто никому не обязан. Тем более никто не обязан скачивать 260-меговую книгу только для того, чтобы узнать, действительно ли на некоторых страницах получаются красные полосы. Что за издевательство?

Автор: BlackBerry
Дата сообщения: 18.01.2011 19:55

Как обработать ScanKromsator'ом файл

http://depositfiles.com/files/fb248g9od 62Mb

То что большие черные поля не главное. ScanKromsator определяет разрешение 72dpi ,хотя она выше.
Поэтому обработка ухудшает качество книги.

Автор: shch_vg
Дата сообщения: 19.01.2011 12:38

BlackBerry

Цитата:

ScanKromsator определяет разрешение 72dpi ,хотя она выше

СК указывает то, что стоит в файле.
Найдите djvu любой книги примерно такого же размера и посмотрите, какие в ней dpi и размеры в пикселях.
Возьмите размеры своей книги в пикселях (из СК) и с помощью пропорций вычислите примерно правильный dpi своей книги. Затем в СК через меню Tools->Correct DPI... проставьте это (или ближайшее красивое

) значение всем страницам.

P.S. Думаю, что желающих качать 62 мб нашлось мало, по крайней мере я этого не делал. Можно было выложить одну страницу после СК.

Автор: BlackBerry
Дата сообщения: 19.01.2011 15:17

shch_vg

Цитата:

Думаю, что желающих качать 62 мб нашлось мало, по крайней мере я этого не делал. Можно было выложить одну страницу после СК.

Выкладываю страницу до и после СК:

http://ifile.it/cag81un/SK_Problem.rar

ScanKromsator v5.93

Автор: shch_vg
Дата сообщения: 19.01.2011 17:13

BlackBerry
Каким образом получен скан Befor_SK.tif?
Вытащен из pdf в СК?
Или другим способом?

Автор: BlackBerry
Дата сообщения: 19.01.2011 18:32

shch_vg

Цитата:

Вытащен из pdf в СК?

Да. Загружен СК через импорт PDF и записан в каталог Tempsk.

Автор: shch_vg
Дата сообщения: 19.01.2011 20:53

BlackBerry
Сравнение выложенного Вами скана с аналогичными, но с правильным значением dpi, показывает, что Ваш был сделан, по-видимому, в 150dpi. Сканы с таким dpi обрабатываются довольно плохо, придется тщательно подбирать параметры обработки в СК, чтобы получить какой-нибудь мало-мальски читаемый вариант.
Так что меняйте у всех сканов dpi на 150 и пробуйте подобрать эти параметры, т.к. значения по умолчанию заведомо будут недостаточны.
Для начала попробуйте обработать один разворот, выбрав на закладке Binarization значение Auto, но потом его через значение Custom придется увеличивать. Есть и другие дополнительные методы улучшения, но это долго объяснять, да и у каждого они свои.
Судя по скану делался он с помощью фотоаппарата, отсюда такой dpi.
У букв тонкие перемычки, так что сохранить их будет довольно трудно.
Сделал примерную обработку этого скана, посмотреть результат можно здесь.

Автор: BlackBerry
Дата сообщения: 20.01.2011 17:44

shch_vg
Спасибо за внимание и потраченное время.

Автор: kalyambus
Дата сообщения: 22.01.2011 11:46

От каких параметров исходного изображения зависит скорость обработки ScanKromsator'ом? Мне нужно было переконвертировать несколько электронных книг. Были книги в форматах pdf, djvu, многостраничные tiff, разрешение от 150 до 600 dpi. Всё конвертировал в djvu 600 dpi для улучшения читаемости, кое где просто делал обрезку. Но попалась книга (исходник djvu 300 dpi) на которой кромсатор почти зависает, импорт с djvu происходит неимоверно долго, драфт около 30 сек на страницу, об обработке я вообще молчу. Странно то что книга, при 300 dpi имеет разрешение разворота примерно 6000х5000. Прикреплю несколько страниц книги, может кто поможет разобраться что за странный djvu?

Автор: NAATH
Дата сообщения: 22.01.2011 12:15

kalyambus
у меня вот так получилось (можно было еще подчистить):
Название: test.o.pdf
Размер: 86.67KB
http://multi-up.com/417289

сперва распечатал в PDF, потом в LuraDocument PDF Compressor Desktop - ужал в Ч/Б, потом почистил Кромсатором, - и снова ужал. Было 422Кб djvu, а стало 87Кб pdf.

Автор: bolega
Дата сообщения: 22.01.2011 12:31

Возню с созданием djvu из-под СК закончил. Больше всего хлопот доставили раскрашенные зоны. В итоге сделал так, что СК сам формирует raw-чанк FGbz. От использования djvulibre для этого отказался, т.к. в некоторых случаях он оказался бессилен, и главное, его результат был заранее непредсказуем. При обработке раскрашенных зон СК извлекает и декодирует sjbz чанк (полученный кодированием текста в DEE) и проверяет на возможность его (точнее, составляющих его блитов) правильной раскраски чанком FGbz. Зоны при этом могут быть любыми, включая непрямоугольные и перкрывающие друг друга (напр., когда одна раскрашенная зона лежит целиком внутри другой). Если в результате анализа СК выясняет, что раскраска с помощью FGbz невозможна (напр., блиты с разными цветами соприкасаются или вообще включены в разные зоны - такое как оказалось бывает!), она выполняется тогда с помощью чанка FG44. Все это естественно делается быстро и на полном автомате.

Решил также очень большую проблему, возникающую при кодировании зон методом подклейки фона, а именно, когда размеры страницы (tif-файла) не кратны соотношению dpi зоны и страницы (это соотношение обычно составляет 1..12) . Это довольно таки частая ситуация. В программе monday2000 в этом случае выдается сообщение о невозможности кодирования. Я нашел, как легко обойти эту проблему (без изменения размера файлов и без перекодирования переднего слоя): СК просто делает небольшую шаманскую модификацию sjbz-чанка. При этом перекодировать маску-передний план (в DEE) не требуется, также как и не требуется физическое изменение размеров тиф-файла. В идеале, конечно, размеры исходных тифов изначально должны быть кратны упомянутому соотношению, но это не всегда можно выполнить, тем более это соотношение не всегда заранее известно.

Кстати, в процессе отладки мне пришлось написать свой native-просмотрщик блитов словаря djvu.

Добавлено:
kalyambus

Цитата:

при 300 dpi имеет разрешение разворота примерно 6000х5000

Проблема в том, что это неправильное dpi. На самом деле это не 300, а 600 dpi. Поэтому и СК так долго у Вас работает и обрабатывает: ведь он удваивает разрешение (якобы 300) до реальных 1200! Чтобы решить проблему, после импорта на закладке Files задайте в поле Input dpi=300 и снимите там галку с "only for uknown dpi". В этом случае СК будет брать dpi отсюда, а не из файлов.

Добавлено:
Тут недавно обратили мое внимание на то, что в окне result view в режиме правки мышкой границ полезной области это происходит слишком медленно. Я исправил это.

Автор: kalyambus
Дата сообщения: 22.01.2011 13:29

NAATH, 87Кб это конечно показатель, только мне pdf в принципе не подходит. Нужно делать именно djvu 600 dpi

bolega

Цитата:

Проблема в том, что это неправильное dpi

Может оно и не правильное, но проблемы ведь не только в обработке. У меня и время импорта в 10 раз больше по сравнению с другими файлами.

Цитата:

Чтобы решить проблему, после импорта на закладке Files задайте в поле Input dpi=300 и снимите там галку с "only for uknown dpi".

На этом этапе SK "Не отвечает". Ув. bolega, если у Вас есть пару свободных минут, подскажите что с этим файлом не так кроме неправильного dpi, почему он такой тяжелый для SK?

Автор: shch_vg
Дата сообщения: 22.01.2011 16:14

kalyambus

Цитата:

почему он такой тяжелый для SK?

Здесь это уже обсуждалось.
По-видимому, djvu делалось с использованием компрессора JPG2000, а т.к. он доступен бесплатно только в сторону компрессии, то декомпрессия делается обычным декомпрессором, что и является причиной медленного импорта.
Можете проверить сами, если создадите в СК djvu с использованием компрессора JPG2000 (см. свойства СК, только версии 5.93), а затем попробуйте его импортировать.

Автор: bolega
Дата сообщения: 22.01.2011 16:42

kalyambus
Импортировал файл довольно быстро.

Цитата:

У меня и время импорта в 10 раз больше по сравнению с другими файлами.

Если сравнивать с ч/б файлами, то импорт 24-битного djvu безусловно будет происходить намного медленнее.
СК делает импорт djvu с помощью утилиты djvudecode, поэтому убыстрить процесс я никак не могу.

Цитата:

подскажите что с этим файлом не так кроме неправильного dpi, почему он такой тяжелый для SK?

Дело в том, что СК сам по себе обрабатывает 600dpi файлы (да еще и развороты) гораздо медленнее, чем 300dpi. А если к тому же не выставить правильное dpi а работать по сути с 1200dpi, то дела будут еще хуже. Поэтому первым делом нужно задать правильные 600dpi. Но обработка все равно будет медленной, особенно если оперативки не более 1Гб.

shch_vg

Цитата:

djvu делалось с использованием компрессора JPG2000

Я еще не видел такого чуда, чтобы djvu делался с помощью JPG2000 (хотя стандарт djvu это и позволяет).

Цитата:

СК djvu с использованием компрессора JPG2000

СК не создает djvu, тем более с помощью JPG2000. Не путайте с pdf.

Добавлено:
kalyambus
Вот djvu после обработки: http://www.onlinedisk.ru/file/595145/

Автор: shch_vg
Дата сообщения: 22.01.2011 17:47

bolega

Цитата:

Не путайте с pdf.

Действительно, я не прав

.
В последнее время настолько часто работаю с компрессией в pdf c помощью JPG2000, что у меня эти два варианта смешались, хотя перед тем, как написать я специально уточнял по сообщению, откуда производится импорт. Пора отдыхать

Автор: kalyambus
Дата сообщения: 23.01.2011 13:00

bolega, спасибо за исчерпывающее разъяснение. Мой файл после Вашей обработки именно то что мне нужно, буду изучать работу SK поглубже

К стати, может Вам попадался на глаза мануал по обработке "Создание электронных книг из сканов" by TWDragon? Если да, то все ли там правильно написано?

Автор: monday2000
Дата сообщения: 24.01.2011 18:33

bolega

Цитата:

Я нашел, как легко обойти эту проблему (без изменения размера файлов и без перекодирования переднего слоя): СК просто делает небольшую шаманскую модификацию sjbz-чанка.

Прописываете в INFO-чанк нужные размеры?

А не получатся ли потом неприятные побочные эффекты? Что если некоторые DjVu-вьюверы будут потом на таких DjVu вываливаться - кто знает?

Цитата:

В итоге сделал так, что СК сам формирует raw-чанк FGbz. От использования djvulibre для этого отказался, т.к. в некоторых случаях он оказался бессилен, и главное, его результат был заранее непредсказуем.

А как это "От использования djvulibre для этого отказался"? Насколько я знаю, FGbz-чанк обязан быть сжат архиватором bzz (который есть только в DjVuLibre) - перед вставкой в DjVu. Или оказалось возможным применять FGbz-чанк без сжатия? В принципе, можно, наверное, заставить сжимать в bzz самостоятельно приготовленный прототип FGbz-чанка уже внутри djvumake (путём модификации djvumake).

Цитата:

чтобы djvu делался с помощью JPG2000 (хотя стандарт djvu это и позволяет).

Что-то не увидел такой информации в спецификации DjVu. Откуда такие сведения? Можно простой JPEG помещать в DjVu - это да. Но вряд ли это кому нужно - качество гораздо хуже.

Автор: bolega
Дата сообщения: 25.01.2011 08:26

monday2000

Цитата:

Прописываете в INFO-чанк нужные размеры?

Ну, это слишком грубо и, наверное, приведет к ошибке (если изменять только его). Я же говорил, что изменения вносятся непосредственно в раскодированный sjbz-чанк.
При этом никаких побочных эффектов не возникнет. Чанк, как и структура страницы, остаются абсолютно правильными с точки зрения стандарта.
Если посмотреть на структуру sjbz-чанка, то он начинается с размеров канвы, на которую наносятся блиты. Теоретически, эта канва может быть любой, это всего лишь белая так сказать подложка. Вот ее размеры я слегка и изменяю (на 1-11 пикселей), чтобы достичь нужной кратности. Естесственно, такие же размеры нужно подставить и в INFO-чанк. При этом нужно помнить, что начало координат у блитов (как и у djvu-страницы) находится в левом нижнем углу, а не в верхнем. Поэтому зоны, помещаемые затем с помощью вашего метода МПФ, нужно соответствующим образом сдвигать вниз на столько же пикселей.

Цитата:

А как это "От использования djvulibre для этого отказался"?

Я имел ввиду от специального синтаксиса djvumake, введенного в последней версии djvulibre, когда раскраска задается последовательностью прямоугольников. Отказался по той причине, что блит в djvu как оказалось, не является связным черным компонентом, а может состоять из нескольких раздельных (на большое расстояние!)кусков. Может так оказаться (у меня такое встретилось), что эти куски одного блита могут принадлежать разным раскрашенным зонам. И здесь плохо не то, что такие зоны невозможно раскрасить как нужно, а то, что заранее нельзя определить этот факт, и в итоге юзер получит непредсказуемый результат (раскраску). Если вам интересно, могу привести пример такой ситуации.
Кстати, пока я это не понял, я разработал алгоритм автоматического формирования пересекающихся раскрашивающих прямоугольников. Ранее я ошибочно писал, что это невозможно. Но оказалось, что эту задачу можно изящно решить методом графов. Интересно, что если области невозможно было закрасить с помощью ряда прямоугольников, то это соответствовало тому, что в графе появлялись циклы. Но, вообщем, алгоритм я полностью реализовал, пока не понял, что он бесполезен, т.к. он полагался на связные "блиты" исходного тифа, а не на то, какими они становились после кодирования в DEE. Но это и к лучшему: теперь СК использует исключительно блиты после DEE, что гарантирует 100% правильность раскраски (или ее невозможность с помощью FGbz).

Кстати, как побочный эффект всего этого, я ввел в СК команду, которая открывает нужный djvu-файл, интерактивно позволяет расставить на страницах зоны раскраски, и по команде ввести эту раскраску в исходный djvu.

Цитата:

Откуда такие сведения? Можно простой JPEG помещать в DjVu - это да

Я это и имел ввиду. Т.е. jpg как бы становится чанком заднего фона.

Автор: monday2000
Дата сообщения: 25.01.2011 12:18

bolega

Цитата:

Если посмотреть на структуру sjbz-чанка, то он начинается с размеров канвы, на которую наносятся блиты.

Этого я не знал. В спецификации DjVu о структуре Sjbz-чанка пока увидел следующее:

Цитата:

11 Appendix 2: JB2 coding.
11.1 General considerations.
An Sjbz chunk contains a single arithmetically encoded data stream, coded using the Z'-
Coder (Appendix 3). All data, including headers and record types, is coded in this arithmetically coded string.

В Приложении 3 там говорится уже просто о Z-кодёре, и как он работает. Поищу ещё в спецификации.

Цитата:

блит в djvu как оказалось, не является связным черным компонентом, а может состоять из нескольких раздельных (на большое расстояние!)кусков.

Ничего себе!

Вы точно уверены? Я, разумеется, думал, что блит всегда связен. Если не связен - тогда вообще раскраска блитов теряет смысл. Тогда нужно бы в идеале перекодировать маску - до связных блитов.

Цитата:

Если вам интересно, могу привести пример такой ситуации.

Давайте, очень интересно.

Цитата:

Кстати, как побочный эффект всего этого, я ввел в СК команду, которая открывает нужный djvu-файл, интерактивно позволяет расставить на страницах зоны раскраски, и по команде ввести эту раскраску в исходный djvu.

Полезная вещь. У меня тоже есть аналогичная программа - DjVu Pal.

Цитата:

теперь СК использует исключительно блиты после DEE, что гарантирует 100% правильность раскраски (или ее невозможность с помощью FGbz).

Так а как СК может раскрасить блиты DjVu вообще без применения DjVuLibre API (как Вы написали)?

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102

Предыдущая тема: мнение о Maxthon

Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.