Извиняюсь, предыдущий тест был некорректен, ибо файнридер пихает картинки в бекграунд, если сохранять без текста (я не сразу заметил), потому они размывались из-за сильного пережатия.
Теперь корректный тест и анализ результатов, на этот раз с djvu:
Сырой исходник (300DPI) Исходное обработаное изображение, из которого создавались результаты (600 DPI) Исходное обработаное изображение для визуального сравнения с результатами (300 DPI) Результаты (все - 300 DPI):
Растровый PDF JPEG -
475 КБ - качество сжатия* - JPEG 50%.
Растровый PDF JPEG2000 -
481 КБ - качество сжатия* - JPEG2000 25%, размер частей - 1024.
Adobe ClearScan -
219 КБ - качество сжатия* картинок -
JPEG 50%, текст векторизован.
FineReader PDF MRC -
335 КБ - качество сжатия* картинок - JPEG2000 25%, бинарная маска - 600 DPI.
DjVu -
195 КБ - качество сжатия* картинок в IW44 примерно равно 82 по шкале LizardTech или 34 по шкале DjVu Libre, бинарная маска - 600 DPI.
* У JPEG, JPEG2000, IW44 - разные шкалы качества, ибо это разные алгоритмы. Например JPEG2000 50% будет намного превосходить по качеству и размеру JPEG 50%. Я подобрал параметры так, чтоб размер JPEG и JPEG2000 был одинаков.
Явный победитель по параметру качество/размер с большим отрывом -
DjVu.
По порядку качества:
1)
Djvu,
FineReader PDF MRC - примерно равны по качеству. Лучшее качество из всех.
При просмотре текст и линие четкие, гладкие. Символы (буквы) точно соответсвуют исходнику - засечки букв не повреждены и не укорочены, толщина деталей символов точна.
Картинки в хорошем качестве, качество сжатия можно регулировать. (хоть без потерь вывести, в PDF - JPEG2000 - lossless, в DjVu - IW44 - качество бэкграунда 100 (LizardTech)).
Сегментирование регулироемое. (В PDF FR - анализ и коррекция областей в самом FR, В DjVu - метод раздельных сканов. Но FR лучше, он позволяет сегментировать и текст на самих картинках. Для DjVu очень ограничено - недостаток инструментов, хотя с соответсвующим инструментом возможно.)
2)
Растровый PDF JPEG2000. При просмотре текст и линие гладкие, но уже не такие четкие, но достаточно хорошие. В местах с текстом вокруг символов есть еле заметные артефакты сжатия на фоне, но они столь незначительны, что не влияют на восприятие. Картинки в хорошем качестве.
Сегментация не требуется.
3)
Adobe ClearScan.
При просмотре текст и линие четкие и гладкие. Но! Символы
не соответсвуют исходнику - засечки букв повреждены и укорочены, толщина деталей букв неточна, есть ужирнения в некоторых местах букв, символы заметно искажены и потеряли детали из-за сильной аппроксимации (приближения, по-другому сглаживания), необходимой для векторизации. Символы кажутся расплытыми, у всех символов с округлыми границами ("О", "C" и т.п.) видны острые грани, на крупных символах это особенно критично и заметно даже при 100% масштабе!
Картинки в среднем качестве, заметны артефакты сжатия JPEG (квадратики),
настроить качество сжатия и выбрать более лучший JPEG2000 нельзя.
Сегментирование полностью
нерегулироемое. Это означает, что надежда полностью на автоматический сегментатор от Adobe. Т. к. сегментирование задача еще нерешенная и сложная, автомат дает много искажений.
Простые картинки вроде графиков, диаграм, геометрических фигур, стрелок, даже элементов в формулах и т. п. очень часто повреждаются до неузнаваемости. Нераспознаные сегментатором картинки идут в фон, где сильно даунсэмплится и сжимаются, становясь размытыми, полностью теряя качество. В дополнение картинки и формулы вообще могут
пропасть (уйти за границу страницы), правда это можно откорректировать вручную, если заметить. Если фон предварительно не почистить, то даже небольшой мусор в бекграунде расплывается до больших размеров и становится заметным. Отдельно в этом режиме нельзя отключить автоматическую геометрическую коррекцию и поворот, которая иногда полностью искажает правильную страницу. И на примере видно, что тире в самом начале текста забрало в бекграунд и размыло - то есть потеря качества текста.
4)
Растровый PDF JPEG. При просмотре текст и линии
размыты из-за сильных артефактов сжатия. В местах с текстом вокруг символов есть заметные артефакты сжатия на фоне, фон поврежден и замусорен. Картинки в среднем качестве, заметны артефакты сжатия JPEG.
Сегментация не требуется.
Как видно, оптимальный размер дает только DjVu и PDF ClearScan. Когда задача сегментации сложна или вообще ручной труд не рационален (временные документы), подходит и PDF JPEG2000 или однослойный (Photo или псевдо) DjVu (IW44), но не PDF с JPEG, который все до сих пор юзают по неграмотности, делая большую ошибку.
ClearScan интересная технология, но на данный момент для практического использования не доработана. Нужна возможность ручной сегментации, настройки качества сжатия и даунсемпла изображений и бекграунда, возможность отключать автоматическую коррекцию геометрии и исправления багов вроде переноса элементов за границы страницы.
Максимум она годится для исправления исправления сильно деградированых документов или старых книг, с последующим экспортом в картинки в 600 DPI и ручным исправлением всех возникших косяков графическим редактором (их обычно очень много на научной литературе, проверено много раз).
Так что DjVu с нормальными ручными настройками (без даунсемпла бекраунда или даунсемплом его только до 300 DPI, предварительной обработкой исходника и апсемплом до 600DPI интерполяцией, чтобы текст был гладкий (бинарная маска должна быть 600DPI)) и метод раздельных сканов - лучшее, что есть на сегодня.
papaVlad Цитата: ПДФ умеет находить одинаковую информацию и объединять её, снижая размер полного файла
Глупость. Никакой одинаковой информации никто не ищет. На вашем примере:
Цитата: Кому скучно, предложу ещё один эксперимент - нужна лишь одна страница в пдф и/или дежавю, теперь сделайте её копию десяток раз, далее весь десяток объединяйте в общий файл, результат всегда будет такой - общий пдф чуть-чуть увеличится от размера одной страницы
А теперь попробуйте изменить в каждом одинаковом N-ом изображении хотябы один пиксел, и получите в N раз больший PDF. Это происходит только потому, что один и тот же объект Adobe не копирует. Но стоит изменить хоть пиксел, вроде бы одинаковые изображения будут восприниматься как абсолютно разные, хотя отличаются только одним пикселом.
Получается, что мы имеем 99.9999% одинаковой информации, но она не "находится".
Поэтому даже если вы идеально
отсканируете одну и туже страницу и запакуете в PDF (
не ClearScan), размер будет в 2 раза больше. Даже если части абсолютно одинаковы, никакого объединения нет, ибо как я еще раз повторю, стоит изображениям отличиться хотябы пикселом.
И не стоит путать растровый PDF с PDF после ClearScan - последний уже не растровый PDF, а со сложными объектами и структурой. Цитата: ПДФ умеет находить одинаковую информацию и объединять её, снижая размер полного файла, и именно на клеарскане это явление особо сильно заметно
ClearScan (Editable text and Images, редактируемые текст и изображения) - это закрытая технология Adobe для сканов, к PDF отношение имеет косвенное, по большей части это технология работы именно с изображением. Суть в том, что сегментатором на растровом изображении ищутся символы - апроксимируются - векторизуются - похожие символы идут в словарь как один. Поэтому здесь действительно будет выигрыш размера на страницу, но точно такой же, как и в DjVu, потому что в DjVu уже давно похожие символы объединяются в словари c помощью JB2. То есть выигрыша перед DjVu в размере все равно не будет. И это верно только для символов, на похожие изображения это не действует. Тем более это не ключевой фактор,
сжатие в обоих случаях идет именно за счет сегментации, а словари лишь вспомогательный фактор.
Поэтому сравнение одной страницы полностью корректно. По сути ClearScan по принципу действия в точности такой же как DjVu и PDF MRC с той лишь разницей, что вместо деления на слои и использования эффективных алгоритмов сжатия для каждого слоя у него используются векторные объекты.
Цитата: не умею я хорошо готовить из тормознутого jpeg2000, потому не использую
Очень глупое высказывание. JPEG2000 просто алгоритм сжатия изображений, более совершенный чем JPEG, чего тут надо уметь? При том же размере
всегда дает лучшее по качеству изображение. Загуглите, узнаете много нового.
Вот тестовая площадка, выберете JPEG и JPEG2000 и сравните картинки:
http://xooyoozoo.github.io/yolo-octo-bugfixes/#fruits&jpg=s&jp2=s Цитата: но убитая под стиль дежавю картинка
Зря вы так. В DjVu можно настроить любое качество картинок, хоть исходное без потерь, вот хоть на мой пример взгляньте, явно лучше чем ваш любимый ClearScan, у которого при приближении на изображениях видны только квадратики вместо деталей. Просто все стандартные профили DjVu, которые юзает большинство неопытных пользователей, почему то норовят сжать картинки до 100 DPI в паршивом качестве, наверное потому что ПО устарело, раньше может это и был результат
, но не сейчас. Поэтому мы и видим размытое гавно, но это не относится к DjVu, а к кодировщикам, не умеющим пользоваться инструментом. Достаточно самому все настроить, и DjVu будут прекрасного качества при равном или меньшем, чем у PDF размере.
Цитата: к примеру мне понравились буквы на Вашем примере "ABBYY FR MRC PDF
Цитата: а вот картинка с корабликом сильно пострадала, о ней и речь.
Изображение вообще можно сохранить в исходном качестве, как я написал выше, просто я не заметил странность FR, что если сохранять без текстового слоя, то FR портит картинки, суя их в фон. Я исправился, посмотрите теперь, ясно видно, что детальность теперь высокая. И на ClearScan посмотрите, у которого из-за артефактов JPEG (квадратиков) при приближении ничего не разлядишь.
Способ для PDF MRC:
Пусть есть исходники 300 DPI.
1) Обрабатываем исходники.
2) Апсемплим изображение до 600DPI бикубической интерполяцией (можно прям из ST, выбрать режим Color [Цветной]).
PDF:
3) Суем в FR. Распознаем.
Здесь важно! Сохраняем с параметрами:
PDF - текст под изображением - галочка на MRC - Качество изображений: Выборочное - отключть даунсеплинг и выбрать - потеря качества не разрешена. 4) Получим большой PDF 600DPI без потерь. Теперь дожимаем и даунсемплим в Adobe Acrobat изображения до 300 DPI.
Выбираем сжатие для цвета и серого ZIP - даунсемпл 300ppi, если больше 300ppi
Для ЧБ - JBIG2 без потерь. Даунсемплинг выключен.
Получим PDF 300DPI без потерь с бинарной маской 600DPI.
Теперь опять переходим к сжатию:
Выбираем сжатие для цвета и серого JPEG2000 - качество по желанию, размер частей (tile size) - 1024.
Для ЧБ - JBIG2 без потерь. Даунсемплинг выключен.
*Почему нельзя сразу в JPEG2000 за один раз: дело в том, что Adobe ничего не делает с изображениями, если они уже в JPEG2000, то есть они не сожмутся без промежуточного шага в ZIP (почему ZIP? Чтоб не потерять качество, он без потерь).
Для DjVu нужна настройка соответсвующих утилит. Для DjVu много настроек, самое главное - сабсемплинг фона - 2 (600DPI / 2 = 300 DPI), качество фона - 80 (LizardTech, DjVu Small, Caminova) или 32 для Djvu Libre (DjVu Image и др.). Остальное по своему усмотрению, только никаких трансформаций (они должны быть до), естественно сабсемплинг фореграунда >=2 (лучше 12). Главное, что бинарная маска должна получаться 600 DPI, Background - 300 DPI. Получим качественный DjVu с цветным текстом и гладкими буквами, и хорошими картинками.
Есть способ с mask upsample 2 из сканов 300 DPI, тогда бинарная маска тоже будет 600DPI, но текст будет менее качественным и более зубристым, не рекомендую.