Ru-Board.club
← Вернуться в раздел «Программы»

» DjVu Small Mod

Автор: textsharik
Дата сообщения: 25.11.2015 17:21
DjVu Small Mod




Программа DjVu Small Mod представляет из себя развитие оболочки "DjVu Small" от monday2000 на основе пакета "Document Express Pro" от LizardTech.

Предназначена для сжатия сканов в формат DjVu. Умеет также распаковывать файлы DjVu в графические форматы; конвертировать DjVu в PDF и сливать несколько DjVu файлов в один с автоматической нумерацией страниц.

Основные отличия от оригинальных утилит, не развивавшихся с 2006 года:
- Путём взлома исправлены ошибки, ограничивавшие работу некоторых параметров
- Путём взлома добавлены новые параметры, добавляющие новые возможности (например, ручная и полуавтоматическая сегментация)
- Дан доступ к скрытым и недокументированным функциям
- Расширена область значений старых параметров
- Добавлена поддержка Unicode и многоядерных процессоров
- Добавлены новые профили кодирования, созданные на основе многолетнего опыта обработки электронных книг
- Добавлена подробная документация, объясняющая влияние каждого параметра на результат

Версия 0.7.4:
http://www.спам.com/download/.../DjVu_Small_Mod_v0.7.4.7z
http://sendfile.su/1208677

Версия 0.7.7 alpha1:
Ссылка

[more]
Добавлено:
Рекламирую новую (с версии v0.7.0) фичу Djvu Small Mod. Полуавтоматическая сегментация.

Полуавтоматическая сегментация - это новый метод обработки сканов, совмещающий преимущества автоматической и ручной сегментации. Он позволяет достичь точности сегментации, сравнимой с ручной работой. Но при намного меньших трудозатратах. Суть метода заключается в том, чтобы разрешить автоматическую сегментацию только в определённых зонах изображения, и защитить от авто-сегментера другие зоны. Помимо этого, программа может выполнять другие операции в зонах, указанных пользователем. Например, удалять кляксы.
В общих чертах, это работает следующим образом. Рассмотрим один из наиболее сложных для сегментации случаев - случай, когда текст расположен прямо на иллюстрации.

Обычно такие изображения очень трудно сжать качественно. Отделить текст от фона обычными программами вроде ScanKromsator и ScanTailor - невозможно. Иногда можно подобрать настройки сегментера, чтобы разделить слои без особо заметных артефактов. Но чаще приходится разделять слои вручную (на что уходит много времени и труда). Либо идти на компромиссы по качеству или по размеру выходного файла.
А вот как эту задачу можно решить с помощью полуавтоматической сегментации. Первым делом, откроем изображение в программе DjVu Small Mod и нажмём кнопку автоматической расстановки зон. Эта операция займёт пару секунд, после чего появится следующее окно: (Цвета приглушаются, чтобы зоны были лучше видны).

Как видите, автоматический расстановщик зон справился на четвёрочку. Он корректно выделил весь текст, но создал пару лишних текстовых зон и проигнорировал картинку.
Потратим ещё несколько секунд на исправление зон вручную. Обратите внимание, что в левом верхнем углу в текстовую зону попадают куски нарисованной головы и плеча. Это нормально. Метод работает даже когда под текстом что-то нарисовано. И особая точность при расстановке зон, как правило, не требуется. Достаточно указать общие очертания.

После этого закроем окно с зонами, нажмём кнопку "Кодировать" - и получим идеальный DjVu файл без артефактов сегментации и без компромиссов по качеству и размеру.

Добавлено:
Методы ручной сегментации

DjVu Small Mod умеет обрабатывать сканы, сегментированные вручную. Это очень мощный метод, требующий больших трудозатрат, но дающий идеальные результаты. Вот краткая сводка методов, как это делать.

Для начала, постановка задачи.
Из оригинального изображения нам нужно получить:
1) Слой текста, очищенный от цветовых шумов, с минимальным количеством цветов.
2) Слой полутоновых иллюстраций (если есть), по возможности отчищенный от текста.

Итого, задача ручной обработки сводится к следующему:
1) Очистка текста от цветовых шумов и минимизация количества цветов в тексте.
2) Отделение текста от фона и вынесение текста в отдельное изображение.
3) Отделение фона от текста и вынесение фона в отдельное изображение.



Получив очищенные слои текста и иллюстраций, мы можем сжать их в DjVu-файл.
Этот процесс описан, в частности, в документации программы "Djvu Small Mod"
(Параграфы "Ручная сегментация" и "Малоцветное кодирование")
Такова постановка задачи, далее - трюки.

Трюк: использование "Save for Web" в Фотошопе.
Задача: Очистка текста от цветовых шумов и минимизация количества цветов в тексте.
Способ достаточно простой и быстрый, годится для простых случаев.
Грузим изображение в Фотошоп, выбираем в меню фичу "Save for Web".
В настройках следует выбрать:
Формат = Gif
Dither algorithm = No dither (важно!)
Задать выходное количество цветов (подсчитать вручную)
Поиграться с опцией "Color reduction algorithm"
После сохранения файла, имеет смысл опять открыть его и очистить от артефактов.
И убедиться, что белый фон имеет чисто-белый цвет RGB={255,255,255}.
Последнее важно, если предполагается подклеивать фон с иллюстрациями, т.к. только чисто-белый цвет считается прозрачным.

Трюк: Подборка видео-уроков от SilverKtulhu для малоцветного кодирования.
Задача: Очистка текста от цветовых шумов и минимизация количества цветов в тексте.
Урок 1. Обработка страниц через CMYK
Урок 2. Обработка малоцвета
Урок 3. Обработка малоцветных книг через CMYK и Adobe InDesign

Трюк: Подборка видео-уроков от SilverKtulhu для разделённых сканов.
Задача: Разделение слоёв.
1. InDesign. Метод разделённых сканов
2. Сборка страниц

Трюк: использование промежуточного DjVu для разделения слоёв.
Задача: Отделение текста от фона и вынесение текста в отдельное изображение.
Промежуточный DjVu-файл отличается тем, что может иметь запорченный фон и сколько угодно мусора в слое текста. В обычной ситуации это считалось бы браком, но для промежуточного DjVu это нормально.
Единственное требование к промежуточному DjVu - чтобы он содержал все нужные элементы текста. Вот пример такого промежуточного DjVu:

Промежуточный DjVu декодируется обратно в формат изображения, после чего чистится в Фотошопе. Чистить такое изображение намного легче, чем оригинальное. Отчищенное от мусора изображение очищается от цветовых шумов (как для малоцветного кодирования) и используется в качестве слоя текста.
Иногда может потребоваться не один, а несколько промежуточных DjVu-файлов. Например, если изображение содержит и чёрный и белый текст. Чёрный текст требует сжатия с параметром "Inversion level"<50, Белый текст - требует "Inversion level">50. Решение - сделать два промежуточных DjVu и соединить их в Фотошопе.
Типовые параметры для кодирования промежуточного DjVu:

Код: # Настройки фона:
Background cleaning: Make White (убить фон)
# Настройки текста: (максимальное качество)
Quality Preset = lossless
FG subsample = 1
FG quality = 100
# Основные настройки сегментера:
Shape filter level = Max foreground
Inversion level = ... (в зависимости от цвета текста)
# Дополнительные настройки сегментера (если потребуется):
Inhibit foreback level = 0 (усиливает чувствительность к контрасту)
Render size = 1 (усиливает чувствительность к контрасту)
Pix level filter = 25 (усиливает чувствительность к мелким деталям)
Threshold level = 25 (ужирняет тонкие линии)
Block size = 32 (ужирняет тонкие линии)
Threshold level = 90 (утончает жирные линии)
Block size = 8 (утончает жирные линии)
Автор: ComboFZ
Дата сообщения: 28.02.2016 15:35
Обновил шапку и ссылку.
Похоже, что топик нужно переносить в Варезник.

textsharik
Просьба свои новые посты под тег more не прятать.
Автор: Hunter23071985
Дата сообщения: 13.03.2016 23:13
textsharik, здравствуйте!
Интересная программа, но при кодировании из Djvu с текстовым слоем в pdf, кириллица убивается: пример.
Можно ли это исправить? И не планируется ли добавить в программу функционал DjVuToy?
Автор: ComboFZ
Дата сообщения: 14.03.2016 10:30
Hunter23071985

Цитата:
...при кодировании из Djvu с текстовым слоем в pdf, кириллица убивается:

Видимо, это связано с тем, что та утилита из пакета Document Express Pro, которая за это отвечает, не поддерживает Unicode.

Цитата:
Можно ли это исправить?

Перераспознать полученный из DjVu Small Mod документ PDF заново в OCR-программах, которые не портят (не пересжимают) оигинальный растр (сканы) в pdf:
ABBYY PDF Transformer 12
Adobe Acrobat Pro 11 > Инструменты > Распознование текста > В этом файле > Изображение с поиском (точно)

ABBYY PDF Transformer 12 - предпочтительней.
Автор: Hunter23071985
Дата сообщения: 14.03.2016 10:34
ComboFZ
А ABBYY FineReader не прокатит? Там есть настройка изображения - высокое качество (разрешение исходника).
Не знаете, какие-то новые функции в DjVu Small Mod будут? Из DjVuToy, например.
Автор: ComboFZ
Дата сообщения: 14.03.2016 10:37
Hunter23071985
Родственный ему (Трансформеру) ABBYY FineReader 12 - не пойдёт, т.к. пересжимает оригинальный растр в PDF.
Автор: VidelSamogO
Дата сообщения: 01.04.2016 14:58
К сожалению при ручной сегментации получились артефакты. Может быть для кодированя нужно использовать какой-то конкретный профиль, а не страндартный? Если бы автор или кто то, у кого получилось, выложил скрин-видео, как он делал... Пока что продолжаем пользоваться методом разделнных сканов. Кто бы его автоматизировал...

P.S. Нашёл в чём загвоздка. Как говорил Гаутама - "всё зависит от того какой избран ПУТЬ"!


Основной форум программы. http://www.djvu-scan.ru/forum/index.php?topic=1099.0
Автор: karl_karlsson
Дата сообщения: 05.05.2016 14:51
VidelSamogO
Ну расскажите подробнее.



Теперь DjVu Small Mod находится вот сюда.
Вышла версия 0.7.6.
Автор: VidelSamogO
Дата сообщения: 06.05.2016 19:18

Цитата:
Ну расскажите подробнее.

Рассказываю. Работаю в XP. При склейке путей с русскими символами и пробелами не понимает. Переходит на режим дефолного автосегментирования DJVU.
Автор: sergiokapone
Дата сообщения: 04.06.2016 13:41
Утилита djvutopdf.exe из сабжа не правильно переносит OCR слой из Djvu в PDF.

Страницы: 1

Предыдущая тема: Дубль


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.