DjVu Small Mod
Программа DjVu Small Mod представляет из себя развитие оболочки "DjVu Small" от monday2000 на основе пакета "Document Express Pro" от LizardTech.
Предназначена для сжатия сканов в формат DjVu. Умеет также распаковывать файлы DjVu в графические форматы; конвертировать DjVu в PDF и сливать несколько DjVu файлов в один с автоматической нумерацией страниц.
Основные отличия от оригинальных утилит, не развивавшихся с 2006 года:
- Путём взлома исправлены ошибки, ограничивавшие работу некоторых параметров
- Путём взлома добавлены новые параметры, добавляющие новые возможности (например, ручная и полуавтоматическая сегментация)
- Дан доступ к скрытым и недокументированным функциям
- Расширена область значений старых параметров
- Добавлена поддержка Unicode и многоядерных процессоров
- Добавлены новые профили кодирования, созданные на основе многолетнего опыта обработки электронных книг
- Добавлена подробная документация, объясняющая влияние каждого параметра на результат
Версия 0.7.4:
http://www.спам.com/download/.../DjVu_Small_Mod_v0.7.4.7z
http://sendfile.su/1208677
Версия 0.7.7 alpha1:
Ссылка
[more]
Добавлено:
Рекламирую новую (с версии v0.7.0) фичу Djvu Small Mod. Полуавтоматическая сегментация.
Полуавтоматическая сегментация - это новый метод обработки сканов, совмещающий преимущества автоматической и ручной сегментации. Он позволяет достичь точности сегментации, сравнимой с ручной работой. Но при намного меньших трудозатратах. Суть метода заключается в том, чтобы разрешить автоматическую сегментацию только в определённых зонах изображения, и защитить от авто-сегментера другие зоны. Помимо этого, программа может выполнять другие операции в зонах, указанных пользователем. Например, удалять кляксы.
В общих чертах, это работает следующим образом. Рассмотрим один из наиболее сложных для сегментации случаев - случай, когда текст расположен прямо на иллюстрации.
Обычно такие изображения очень трудно сжать качественно. Отделить текст от фона обычными программами вроде ScanKromsator и ScanTailor - невозможно. Иногда можно подобрать настройки сегментера, чтобы разделить слои без особо заметных артефактов. Но чаще приходится разделять слои вручную (на что уходит много времени и труда). Либо идти на компромиссы по качеству или по размеру выходного файла.
А вот как эту задачу можно решить с помощью полуавтоматической сегментации. Первым делом, откроем изображение в программе DjVu Small Mod и нажмём кнопку автоматической расстановки зон. Эта операция займёт пару секунд, после чего появится следующее окно: (Цвета приглушаются, чтобы зоны были лучше видны).
Как видите, автоматический расстановщик зон справился на четвёрочку. Он корректно выделил весь текст, но создал пару лишних текстовых зон и проигнорировал картинку.
Потратим ещё несколько секунд на исправление зон вручную. Обратите внимание, что в левом верхнем углу в текстовую зону попадают куски нарисованной головы и плеча. Это нормально. Метод работает даже когда под текстом что-то нарисовано. И особая точность при расстановке зон, как правило, не требуется. Достаточно указать общие очертания.
После этого закроем окно с зонами, нажмём кнопку "Кодировать" - и получим идеальный DjVu файл без артефактов сегментации и без компромиссов по качеству и размеру.
Добавлено:
Методы ручной сегментации
DjVu Small Mod умеет обрабатывать сканы, сегментированные вручную. Это очень мощный метод, требующий больших трудозатрат, но дающий идеальные результаты. Вот краткая сводка методов, как это делать.
Для начала, постановка задачи.
Из оригинального изображения нам нужно получить:
1) Слой текста, очищенный от цветовых шумов, с минимальным количеством цветов.
2) Слой полутоновых иллюстраций (если есть), по возможности отчищенный от текста.
Итого, задача ручной обработки сводится к следующему:
1) Очистка текста от цветовых шумов и минимизация количества цветов в тексте.
2) Отделение текста от фона и вынесение текста в отдельное изображение.
3) Отделение фона от текста и вынесение фона в отдельное изображение.
Получив очищенные слои текста и иллюстраций, мы можем сжать их в DjVu-файл.
Этот процесс описан, в частности, в документации программы "Djvu Small Mod"
(Параграфы "Ручная сегментация" и "Малоцветное кодирование")
Такова постановка задачи, далее - трюки.
Трюк: использование "Save for Web" в Фотошопе.
Задача: Очистка текста от цветовых шумов и минимизация количества цветов в тексте.
Способ достаточно простой и быстрый, годится для простых случаев.
Грузим изображение в Фотошоп, выбираем в меню фичу "Save for Web".
В настройках следует выбрать:
Формат = Gif
Dither algorithm = No dither (важно!)
Задать выходное количество цветов (подсчитать вручную)
Поиграться с опцией "Color reduction algorithm"
После сохранения файла, имеет смысл опять открыть его и очистить от артефактов.
И убедиться, что белый фон имеет чисто-белый цвет RGB={255,255,255}.
Последнее важно, если предполагается подклеивать фон с иллюстрациями, т.к. только чисто-белый цвет считается прозрачным.
Трюк: Подборка видео-уроков от SilverKtulhu для малоцветного кодирования.
Задача: Очистка текста от цветовых шумов и минимизация количества цветов в тексте.
Урок 1. Обработка страниц через CMYK
Урок 2. Обработка малоцвета
Урок 3. Обработка малоцветных книг через CMYK и Adobe InDesign
Трюк: Подборка видео-уроков от SilverKtulhu для разделённых сканов.
Задача: Разделение слоёв.
1. InDesign. Метод разделённых сканов
2. Сборка страниц
Трюк: использование промежуточного DjVu для разделения слоёв.
Задача: Отделение текста от фона и вынесение текста в отдельное изображение.
Промежуточный DjVu-файл отличается тем, что может иметь запорченный фон и сколько угодно мусора в слое текста. В обычной ситуации это считалось бы браком, но для промежуточного DjVu это нормально.
Единственное требование к промежуточному DjVu - чтобы он содержал все нужные элементы текста. Вот пример такого промежуточного DjVu:
Промежуточный DjVu декодируется обратно в формат изображения, после чего чистится в Фотошопе. Чистить такое изображение намного легче, чем оригинальное. Отчищенное от мусора изображение очищается от цветовых шумов (как для малоцветного кодирования) и используется в качестве слоя текста.
Иногда может потребоваться не один, а несколько промежуточных DjVu-файлов. Например, если изображение содержит и чёрный и белый текст. Чёрный текст требует сжатия с параметром "Inversion level"<50, Белый текст - требует "Inversion level">50. Решение - сделать два промежуточных DjVu и соединить их в Фотошопе.
Типовые параметры для кодирования промежуточного DjVu:
Код: # Настройки фона:
Background cleaning: Make White (убить фон)
# Настройки текста: (максимальное качество)
Quality Preset = lossless
FG subsample = 1
FG quality = 100
# Основные настройки сегментера:
Shape filter level = Max foreground
Inversion level = ... (в зависимости от цвета текста)
# Дополнительные настройки сегментера (если потребуется):
Inhibit foreback level = 0 (усиливает чувствительность к контрасту)
Render size = 1 (усиливает чувствительность к контрасту)
Pix level filter = 25 (усиливает чувствительность к мелким деталям)
Threshold level = 25 (ужирняет тонкие линии)
Block size = 32 (ужирняет тонкие линии)
Threshold level = 90 (утончает жирные линии)
Block size = 8 (утончает жирные линии)