ScanKromsator СканКромсатор

Автор: Dracula
Дата сообщения: 11.02.2007 17:02

Arcand

Цитата:

Эти обработки делаю в Корел

Цитата:

Медиана: Эффекты->Шумы->Медиана;
Тоновая коррекция: Настройка->Увеличение контрастности.

Ничего не получается (не умею работать в Кореле я

) - может посмотрите мои примеры рисунков и дадите своё мнение обработки?

Автор: Varjag2
Дата сообщения: 11.02.2007 17:18

Уважаемые специалисты!
Подскажите, пожалуйста, с каким профилем нужно обрабатывать сканкромсатором старую (1935 года) книгу, бумага газетная, от времени сильно пожелтевшая, издательство ОНТИ "Главная редакция химической литературы", Москва. Попробовал с профилем, с которым перед этим обрабатывал книгу 1929 года, но размер полученного djvu-файла ужаснул: получилось более 26 кб на страницу, хотя в предыдущей - 1929 года получилось менее 20 кб, при том что книга была увеличенного формата.
Может быть нужно что-то изменить и при сканировании? Сканировал 600 дпи, в сером, контрастность и яркость по умолчанию, т.е. 50%.
С уважением.

Автор: Alexx S
Дата сообщения: 11.02.2007 17:23

Varjag2
Выложите, плз одну страницу или ее фрагмент. Похоже, ваш случай даже более характерный в плани интенсивности серого фона, чем мой. Вот на нем illumination и попробуем... При сканировании, имхо, ничего менять не надо. Да, кстати, кроме ужасного размера в 26кб, качество самого текста устраивает?

Автор: Dracula
Дата сообщения: 11.02.2007 17:36

Alexx S
Может посмотрите этот рисунок - как его обработать?
http://www.badongo.com/file/2212454
Заранее спасибо.

Автор: Alexx S
Дата сообщения: 11.02.2007 17:53

Dracula
Лично я бы его не стал обрабатывать вообще. Если очень хочется, то лучше всего Фотошоп или Корел. Но это уже выходит за рамки топика - обработка фотографий это отдельная тема, по ней книжки пишут и т.п. Автоматом убрать фон, если Вы это имеете в виду, точно не получится - надо каждую отдельно обрабатывать. Я бы делал в Фотошопе с помошью magic wand

Автор: Varjag2
Дата сообщения: 11.02.2007 17:59

Цитата:

Varjag2
Выложите, плз одну страницу или ее фрагмент. Похоже, ваш случай даже более характерный в плане интенсивности серого фона, чем мой. Вот на нем illumination и попробуем... При сканировании, имхо, ничего менять не надо. Да, кстати, кроме ужасного размера в 26кб, качество самого текста устраивает?

исходный, JPEG 95% (Irfanview), gray, 600 dpi. 4,53 mb
"Он же "обкромсанный", 600 дпи, ч/б, 89 kb

Автор: kimserge
Дата сообщения: 11.02.2007 21:59

ghosty

Цитата:

Я, к примеру, для Epson 1670 использую скрипт под AutoIt.

А где его взять? У меня Epson V10.

Никто так и не сказал, как насчет несжатых тифов для Кромсатора?

Автор: Kiljes
Дата сообщения: 11.02.2007 23:57

kimserge

Цитата:

А где его взять?

Может быть это.
http://labun.com/autoscan.zip

Автор: Arcand
Дата сообщения: 12.02.2007 04:14

Dracula
Какие сканы посмотреть? Сделайте в jpg приемлегого качества и учтите, я уже превысил свой месячный лимит.
Обсуждение давайте перенесем в топик по сканированию, здесь это офтоп.

Alexx S
Цитата:

Автоматом убрать фон, если Вы это имеете в виду, точно не получится - надо каждую отдельно обрабатывать. Я бы делал в Фотошопе с помошью magic wand

Автоматом убрать фон можно

, при условии, что тень не налезает на текст.

Добавлено:
Varjag2
А каким профилем Вы кодировали? Результат ИМХО по оригиналу, т.е. сделали хорошо. У меня после обработок в Кореле почти так же, может чуть меньше залитых "полостей" в буквах типа "е".

Автор: Varjag2
Дата сообщения: 12.02.2007 05:10

Цитата:

Добавлено:
Varjag2
А каким профилем Вы кодировали? Результат ИМХО по оригиналу, т.е. сделали хорошо. У меня после обработок в Кореле почти так же, может чуть меньше залитых "полостей" в буквах типа "е".

Deskew method = Interpolate
Resample filter = Bicubic
Despekle = Fine+Normal

Convert = Middle Dark

Smooth = 2
Blur = 2
Sharpen = 1

Пожалуй, всё.

Автор: Arcand
Дата сообщения: 12.02.2007 05:36

Varjag2
Я имел ввиду профиль DEE или в чем Вы кодировали

Автор: Varjag2
Дата сообщения: 12.02.2007 06:04

Цитата:

Varjag2
Я имел ввиду профиль DEE или в чем Вы кодировали

Кодировал в Document Express Editor 5.0 (bitonal, normal, 600dpi).

Автор: Dracula
Дата сообщения: 12.02.2007 07:19

Arcand

Цитата:

Обсуждение давайте перенесем в топик по сканированию

Написал там

Автор: Arcand
Дата сообщения: 12.02.2007 10:38

Varjag2
На размер дежавю влияют качество текста и размер словаря (последний можно установить в DEE). Если стоит качество текста отличное от агрессивный, установите. Большее из Эдитора не выжмешь.

Цитата:

bitonal, normal

это названия профилей. Если у вас на сканах есть картинки, то удобнее кодировать профилем normal. Сканы без рисунков (bw) при этом будут кодироваться как профилем bitonal.

Автор: Varjag2
Дата сообщения: 12.02.2007 13:51

Цитата:

Varjag2
На размер дежавю влияют качество текста и размер словаря (последний можно установить в DEE). Если стоит качество текста отличное от агрессивный, установите. Большее из Эдитора не выжмешь.

Агрессивный не применяю, поскольку иллюстрации становятся безобразными, да и выигыш в размере файла не столь уж велик.
Вот посмотрите что получается:

48 страниц, кодированы Document Express Editor 5.0 (по умолчанию 10 страниц на словарь, 600 дпи, Bitonal, normal - 1,36 mb
Те же 48 страниц, кодированы Document Express Enterprise 5.1, 6oo dpi,Bitonal, Pages Per Dictionary = 48 (остальные установки по умолчанию) - 1,58 mb

При кодировании материала с книг неважного полиграфского качества увеличение словаря только увеличивает размер дежавю-файла.
И ещё! Обратите внимание на 24 страницу книги (в файле она под №23), в которой иллюстрация была сделана как dither-зона, на ней (на фоне) при кодировании появились светлые участки произвольной формы.

Автор: Arcand
Дата сообщения: 12.02.2007 15:21

Varjag2[
Цитата:

Агрессивный не применяю, поскольку иллюстрации становятся безобразными

Эта установка имеет отношение к тексту а не к иллюстрациям.
В DEE Вы указали неправильный профиль кодирования. При Битонал картинки будут бинаризованы со всем вытекающим. Кодировать надо профилем Scanned600, тогда картинки будут закодированы как gray.

Цитата:

При кодировании материала с книг неважного полиграфского качества увеличение словаря только увеличивает размер дежавю-файла.

Неверно, размер немного уменьшается. Увеличивается время кодирования и при просмотре время стартовой загрузки. Одно правильно, особого смысла в большом словаре >100 стр. для плохих книг нет. В Вашем случае можно попробовать.

Автор: Varjag2
Дата сообщения: 12.02.2007 16:35

Цитата:

Неверно, размер немного уменьшается. Увеличивается время кодирования и при просмотре время стартовой загрузки. Одно правильно, особого смысла в большом словаре >100 стр. для плохих книг нет. В Вашем случае можно попробовать.

Тогда, как Вы объясните, что файл со словарём на все 48 страниц получился больше, нежели тот, в котором словарь установлен размером в 10 страниц?
Вы не обратили внимания на предыдущее моё сообщение?
Замечено, что увеличение словаря приводит к уменьшению дежавю файла только в случае, когда типографское качество хорошее, когда книга старая и напечатана на плохой бумаге, то, наоборот, увеличение словаря приводит к увеличению размера дежавю-файла.
Представленный материал, это, как раз, тот самый случай.
Видимо, это объясняется тем, что чем хуже исходный материал, тем менее "похожими" становятся буквы, что приводит к непомерному разрастанию самого словаря.
И ещё: книги кодированные с большим словарём, гораздо медленне "листаются", это хорошо заметно на старых компьютерах P-II, P-III.
Ежели будет охота поиграться с размерами словаря, то можете попробовать вот на этом материале:
Обработанные сканкромсатором 48 страниц, RAR-4,63 mb,

Автор: Arcand
Дата сообщения: 12.02.2007 17:00

Varjag2
Цитата:

Тогда, как Вы объясните, что файл со словарём на все 48 страниц получился больше, нежели тот, в котором словарь установлен размером в 10 страниц?

Сравнение некорректное. Кодировалось в разных прогах и с разными настройками. Укажите в DEE Most-loss и все встанет на место.
Цитата:

Ежели будет охота поиграться с размерами словаря,

Я в свое время наигрался

и понял, что к чему. А Вам по хорошему надо разобраться с профилями, что, каким и как кодировать.
Удачи.

Автор: bolega
Дата сообщения: 12.02.2007 17:10

Varjag2
Закодировал Ваши 48 страниц в DEE. Получил 1101435 байт
_http://ifolder.ru/1101093

Автор: Varjag2
Дата сообщения: 12.02.2007 17:17

Цитата:

Я в свое время наигрался и понял, что к чему. А Вам по хорошему надо разобраться с профилями, что, каким и как кодировать.

Я тоже в своё время с одним и тем же профилем, и в одной и той же программе, но с размерами словаря кодировал книгу. Она тоже была старая. И тогда получилось что с бОльшим словарём размер файла был больше.
Оставайтесь при своём мнении, а я останусь при своём.

Автор: Arcand
Дата сообщения: 12.02.2007 17:54

Varjag2
Цитата:

с бОльшим словарём размер файла был больше.

Теоретичски ИМХО такого быть не может. Что-то Вы упустили из виду. А вообще-то воля Ваша - оставайтесь при своем мнении

Автор: Varjag2
Дата сообщения: 12.02.2007 18:09

Цитата:

Теоретичски ИМХО такого быть не может. Что-то Вы упустили из виду. А вообще-то воля Ваша - оставайтесь при своем мнении .

Теоретически - далеко не всегда практически.
Привык доверять своим глазам.
Кодирование в DEE этих 48 страниц с раличными размерами словаря (от 1 до 50 страниц). размера файла практически не изменило.

Автор: Dracula
Дата сообщения: 13.02.2007 11:42

Всем привет!
Я отсканировал книгу "Эндокринология" - Дедов И.И. 2000 г.
В книге имеются рисунки (цветные, серые).
Вопрос: как редактировать их в ScanKromsatore - если можно подробнее?
Вот выложил пример в jpeg 4 рисунка (т.к. в tif получаются как Вы знаете по 25 мегабайт - 100 мегабайт - это слишком для скачивания и проверки

) ). Думаю, что jpeg подойдёт - это всё равно для примера же. Я сам конечно буду делать в tif.
Вот ссылка: http://www.badongo.com/file/2226811
Заранее спасибо.

Автор: ghosty
Дата сообщения: 13.02.2007 19:03

Ошибка при выделении области AutoClean:

Автор: ghosty
Дата сообщения: 14.02.2007 07:33

Почему-то невозможно выставить "Merge pages after split" только для одного разворота. Хорошо, ставлю эту галочку (у меня таблица разделена на две страницы на развороте, и ее нужно соединить), выбираю "Process current file", но при этом почему-то идет обработка сразу трех файлов (начиная с текущего). В результате правая страница первого разворота объединяется с левой второго

Автор: bolega
Дата сообщения: 14.02.2007 08:29

ghosty

Цитата:

Почему-то невозможно выставить "Merge pages after split" только для одного разворота

Merge pages after split работает только глобально! При этом объединение страниц выполняется нарастающим порядком, т.е. если есть смесь из разворотов и одиночных страниц, то новые объединенные развороты набираются последовательно, поэтому если к примеру перед вашим разворотом имеется нечетное кол-во одиночных страниц, то текущий исходный разворот разнесется по разным выходным объединенным разворотам. Именно поэтому в этом случае кромсатор при переобработке одного разворота переобрабатывает текущий и последующий (или предыдущий) скан. Надеюсь, объяснил понятно

Как я уже говорил, picture-зоны еще не поддерживаются для merged-режима, за исключением случая, описанного ниже.
Если же Вам нужно объединить разрезанное выборочно и именно так, чтобы текущий исходный разворот стал и на выходе объединенным, то для этого нужно использовать другую опцию - в окошке Exclusive page options поставить галку на Merged page. Тогда будет, как Вы хотите. В этом режиме picture-зоны поддерживаются.

Автор: ghosty
Дата сообщения: 14.02.2007 14:04

bolega

Цитата:

Надеюсь, объяснил понятно

Эммм

Цитата:

Если же Вам нужно объединить разрезанное выборочно и именно так, чтобы текущий исходный разворот стал и на выходе объединенным, то для этого нужно использовать другую опцию - в окошке Exclusive page options поставить галку на Merged page. Тогда будет, как Вы хотите. В этом режиме picture-зоны поддерживаются.

Спасибо, все получилось!

Автор: shch_vg
Дата сообщения: 16.02.2007 10:41

bolega
Столкнулся с непонятным:
обрабатывал книгу, затем прервался, сохранил результат промежуточной обработки в файле с расширением skt.
Сегодня при попытке продолжить обработку получаю окно с предупреждением:
Output file for input file №1 not exists!
Далее в круглых скобках приводится путь к якобы отсутствующему файлу, который на самом деле находится на месте!
После нажатия на кнопку Re-process file сообщение повторилось для следущего якобы отсутствующего файла и т.д.
В результате обработка началась с самого начала, что меня не могло никак устроить.
Единственная разница (на мой взгляд) с предыдущими возобновлениями обработки заключается в том, что нумерация исходных сканов начинается не с 01, а с 00.

Автор: terminat0r
Дата сообщения: 16.02.2007 15:00

bolega
Надеюсь Вы помните, я когда-то просил о пакетном кромсании?
Так вот, с каждым месяцем проблема становится все актуальнее

интересно, оно попало в Ваш TODO хотя бы?

Автор: bolega
Дата сообщения: 16.02.2007 15:48

terminat0r
Попало.
Сейчас нет времени на кромсатор. Последние 30 дней я к нему вообще не притрагивался

» ScanKromsator СканКромсатор