» Scan Tailor: Часть 2

Автор: papaVlad
Дата сообщения: 13.05.2016 19:33

ikea999, копия ответа с рутрекера

Цитата:

Использую ST Enhanced 14-02-2014, каждый раз после открытия проекта (primer1.ScanTailor) в правой колонке отображаются сканы с вопросительными знаками. Пропускаю общий Output, тогда - нормально.

Проверил, ну да, есть такое, как-то ранее не обращал внимания.

Цитата:

Но это оч. долго (ок. 300 стр.).

Начинайте делать следующую книгу, просто запускаете второй раз ScanTailor, откроется второе окно, время потратьте на следующий проект.

Цитата:

Как сохранить проект или что сделать, чтобы каждый раз не требовалось запускать общий Output?

Похоже конкретно с ST Enhanced никак, просто глюк программы.

Цитата:

Киньте ссылку на инструкцию по русификации плз. Или посоветуйте как это сделать.

Я не программист, но думаю, что ScanTailor сам выбирает при установке программы нужный язык из своего списка, то есть какой Windows, такой и язык автоматом будет в ScanTailor, а если у Вас не русский Windows, то попробуйте обмануть так, зайдите в C:\Program Files (x86)\Scan Tailor\translations и удалите все файлы, кроме scantailor_ru.qm, при следующем запуске ST возможно будет именно русский, т.к. выбора уже нет.
Надеюсь, Вы устанавливали программу отсюда https://sourceforge.net/projects/scantailor/files/scantailor-devel/enhanced/ , именно об этом установочном пакете пишу.

Автор: 4lex4
Дата сообщения: 14.05.2016 18:06

Цитата:

(от papaVlad)

Ну не знаю, буду ли я сидеть и специально выделять картинки и текст на сложных страницах, чтоб потом разделять на папки, сжимать отдельно и заново объединять, всё лишь ради правильного сохранения цвета текста и отдельных картинок. Технология ClearScan в Acrobat достаточно грамотно это делает, конечно есть косяки, и качество сохранения картинок часто хочется повыше, а не среднее, неизменяемое. Но в целом, без выделения картинок и текста в ST под бинаризацию, экономия времени на оцифровку ощутимая, только графическая коррекция.
Для примера, о чём речь
CS 300dpi http://pixs.ru/showimage/03png_2094638_20605611.png
оригинал http://pixs.ru/showimage/04jpg_8994771_20605634.jpg
сырой скан http://pixs.ru/showimage/05jpg_1230519_20605792.jpg

Кстати, создал гораздо более качественный PDF меньшего размера (стоит посмотреть на картинки фона, тонкие линии, символы), чем ClearScan через FineReader (перезалил оригинал, ибо старые ссылки не работают):
Оригинальное изображение
Оригинальное изображение с очищенным фоном
Adobe ClearScan (300 DPI) PDF - 215 KB
ABBYY FR MRC PDF - 181.5 KB при намного лучшем качестве, плюс символы в точности как в оригинале, а не округленные, как в CS.

Способ опишу позже в другой ветке и ссылку дам сюда, он нетривиальный, но и не трудозатратный (почти все на автомате).

Автор: papaVlad
Дата сообщения: 14.05.2016 22:56

4lex4
Цитата:

создал гораздо более качественный PDF меньшего размера...
...Способ опишу позже в другой ветке и ссылку дам сюда

Я бы тут не со всем согласился, но лучше это обсуждать в другом топике, подожду перенаправление обсуждения, да и мне самому интересен и такой подход, возможно выцеплю какие-то полезные моменты.

Автор: ikea999
Дата сообщения: 15.05.2016 14:30

papaVlad

Цитата:

Похоже конкретно с ST Enhanced никак, просто глюк программы.

Спасибо за ответ. Эта версия, вроде, новейшая. Дайте, плз, ссылку на версию СТ в которой нет этого глюка или можно его как-то обойти.

Автор: papaVlad
Дата сообщения: 15.05.2016 15:36

ikea999
Учитывая Ваше последнее сообщение на рутрекере, по планам обработки страниц с искажениями строк, посоветую остаться на этой версии, она не даёт белых полос по краям страницы. А если имеете 64-х битную машину, то ещё есть вариант Scan Tailor experimental, по ссылке https://github.com/Tulon/scantailor/releases
Остальные версии СТ пока косячат, ждём обновления Advanced.

Обнаруженный Вами глюк ни на что не влияет, сделали вчера 100 страниц, сохранили проект, сегодня открыли проект на сотой странице и продолжили, сделали ещё сотню, завтра с двухсотой доделаете книгу, в папке out всё сохраняется как Вы сделали, ничего не исчезнет.

Автор: ikea999
Дата сообщения: 15.05.2016 17:31

papaVlad

Цитата:

Обнаруженный Вами глюк ни на что не влияет, сделали вчера 100 страниц, сохранили проект, сегодня открыли проект на сотой странице и продолжили, сделали ещё сотню, завтра с двухсотой доделаете книгу, в папке out всё сохраняется как Вы сделали, ничего не исчезнет.

В общем, да. На качество не влияет, только на скорость. Правлю на двух компах, дома и на работе. Иногда бывают перерывы на неделю и больше. Чтобы посмотреть на результат, уточнить, иногда требуется увидеть ранее сделанное.

Автор: Dmb_2007
Дата сообщения: 07.06.2016 00:34

Господа-товарищи, чем дело кончилось с новой версией СканТэйлора и обсуждением использования ФайнРидера, на которое хотели дать ссылку?

Автор: 4lex4
Дата сообщения: 07.06.2016 09:18

C pdf и FineReaderом дело кончилось тем, что лучше djvu для сканов нет ничего, pdf на данный момент никогда не сможет превзойти djvu по коэффициэнту качество/размер даже с делением на слои, плюс pdf еще и тормозной по сравнению c djvu. С СТ пока еще ничего не закончено, терпение. В этом году новых сборок ждать не стоит.

Автор: Dmb_2007
Дата сообщения: 07.06.2016 19:58

4lex4

Цитата:

C pdf и FineReaderом дело кончилось тем, что лучше djvu для сканов нет ничего, pdf на данный момент никогда не сможет превзойти djvu по коэффициэнту качество/размер даже с делением на слои, плюс pdf еще и тормозной по сравнению c djvu.

В целом согласен, но, к сожалению, часто PDF`у нет альтернативы.
А вопрос мой касался ссылки -
Цитата:

Способ опишу позже в другой ветке и ссылку дам сюда, он нетривиальный, но и не трудозатратный (почти все на автомате).

отсюда http://forum.ru-board.com/topic.cgi?forum=5&topic=32945&start=1760#19

Цитата:

С СТ пока еще ничего не закончено, терпение. В этом году новых сборок ждать не стоит.

Ок, понял. В нынешней сборке меня напрягают элементы управления, прячущиеся за "край" боковой панели.
Ну и расцветка

Успехов!

Автор: papaVlad
Дата сообщения: 08.06.2016 12:23

Много текста для 4lex4. Другим читать можно, возмущаться нет, просто примите к сведению.
[spoiler]Эх, Алёха (имя взял из ника), расстроили Вы меня этой фразой "В этом году новых сборок ждать не стоит.", чувствую закинули этот проект на самую дальнюю полку и всё из-за того, что фанаты дежавю переубедили Вас и убили энтузиазм.

Я хоть перед Вашими знаниями о пдф и программировании чувствую себя дошкольником, всё-же постараюсь провести некий тренинг и вернуть желание продолжить этот неблагодарный труд.
Ничего не читал из профессорских докладов, при этом ранее имел личный опыт и с дежавю и сейчас с пдф, вот на основе этого опыта, плюс вижу, что выкладывается в сеть, скажу своё мнение.

Итак, то что Вы назвали "коэффициентом качество/размер", я бы назвал "коэффициентом размытие/размер", ориентироваться на такой "ABBYY FR MRC PDF - 181.5 KB" результат нельзя. Скорее всего кто-то из дежавюшников собрал эту страницу, тем самым задал типа нормы, как-будто именно это и есть качество в маленьком размере. Ориентироваться на такое может только новичок в оцифровке, но не мы. Кстати, предложенный вариант обработки букв действительно заслуживает похвалы, надеюсь не только я это отметил, а вот картинка с корабликом сильно пострадала, о ней и речь.
Что же тогда есть качество, как оно выглядит, где тот предел сжатия, до которого можно опуститься? Отвечу так, чем меньше искажений от оригинала, тем качественнее сделан файл. Не позволяйте задавать стандарты фанатам дежавю, покажите как это выглядит в пдф и объявите это эталоном, пусть дежавюшники подстраиваются под пдф, а не наоборот.
4lex4, а помните Никулина?, над которым тогда посмеялись (к сожалению pixs.ru убил все заливки), так вот .zip]этот файл, думаю гуру дежавю насчитают тут очень хороший коэффициент качество/размер, а вот pdf, который никогда не сможет превзойти, потому что с плохим коэффициентом.

Если мы не можем победить по правилам, давайте их изменим.
Вот ссылка на пдф, и я говорю, что это качественный файл. Теперь ожидаем нападки со стороны дежавюшников, мол соберут не хуже и размером меньше, да ради Бога, пусть сидят и парятся, раскладывают на картинки и текст, потом раскрашивают цветные буквы и т.д. Теперь посчитаем времязатраты и это будет для кого-то новостью, что на создание такого пдф нужно лишь полчаса от окончания сканирования, ну да ещё нужно иметь некие методики, навык и достаточно удачные исходники. Скажу так, на данном примере просто повезло с крупным шрифтом, поленился даже поднимать до 600 dpi, хотя при 600 качество шрифта было бы ровнее, кто работает с клеарсканом, тот понимает разницу. Специально для неверующих записал на видео оцифровку другой книги, чуть потолще и чуть подольше, там исходные сканы похуже и результат менее приятный и всё же именно в таком виде файл пойдёт в сеть, претензии не ко мне, а к сканировщику, я бы таких затемнений у корешка не допустил, например как правильно сканирую я.
Конечно, если у оцифровщика времени навалом, то можно неделями вылизывать сканы и пытаться сэкономить байты, но я предпочту за это время собрать десяток-другой подобных книг/журналов, пользы для интернета гораздо больше, чем появление лишь одной качественной книги/журнала.
Эти файлы, на самом деле, не могут быть идеальным образцом и можно поковыряться подольше и сделать ещё лучше, но не было такой цели, на мой взгляд это очень хорошие и качественно-собранные пдф.

Теперь на том же отклеарсканенном файле кому-то открою глаза на ещё одно явление.
Ранее 4lex4 показал два файла, обратив внимание на меньший размер из ФР
Adobe ClearScan (300 DPI) PDF - 215 KB
ABBYY FR MRC PDF - 181.5 KB
По одной странице сравнивать некорректно. Разберите корабли на отдельные страницы в pdf (помогу тем, кто не умеет - ссылка), теперь сравните размер полного пдф (чуть больше 9 МБ) и общий размер постраничных файлов (около 15 МБ). ПДФ умеет находить одинаковую информацию и объединять её, снижая размер полного файла, и именно на клеарскане это явление особо сильно заметно, а вот на пдф, собранных обычным способом эффект малозаметен, а на дежавю вообще ни байта выгоды. Кому скучно, предложу ещё один эксперимент - нужна лишь одна страница в пдф и/или дежавю, теперь сделайте её копию десяток раз, далее весь десяток объединяйте в общий файл, результат всегда будет такой - общий пдф чуть-чуть увеличится от размера одной страницы (допустим одна страница=100 КБ, общий пдф=123 КБ), а дежавю станет ровно в десять раз тяжелее (допустим одна страница=100 КБ, общий дежавю=1000 КБ).

К чему всё это пишу, не всё так плохо у пдф, есть к чему стремиться, есть чему учиться. Напомню про адаптивное сжатие, допустим в Акробате, которым толком не научился пользоваться, каждый раз дело случая, повезёт, не повезёт (ссылка на пример с достаточно приличным результатом адаптивного сжатия, смысл в том, что вокруг букв нет артефактов, это при наличии на странице картинки). Также напомню про векторные пдф, это же просто песня, вот куда надо смотреть, для примера такой файл, и качество картинок может быть гораздо лучше, соответственно увеличивая вес, ещё пример векторного.
Вот если бы научить СТ делать не только бинаризацию, а и векторизацию, думаю выиграли бы все, и для дежавю тоже польза. Но я в этом не бум-бум, просто хочу верить, что вдруг и это возможно.
4lex4, мне показалось, что именно в этом направлении и были Ваши задумки, делить на разные зоны, цвета текста и типа того, что было бы очень похоже на результат клеарскана.

Про технологию обработки MRC в ФР ничего писать не стану, не умею я хорошо готовить из тормознутого jpeg2000, потому не использую, либо ради эксперимента очень редко могу вставить страницу-другую, но не полный файл пдф. Если увижу впечатляющий результат, то скорее всего возьму на вооружение для каких-то случаев, к примеру мне понравились буквы на Вашем примере "ABBYY FR MRC PDF - 181.5 KB", но убитая под стиль дежавю картинка вызывает отторжение, вот не было бы на странице никакой фотки, то согласился.
4lex4, расписали бы схему получения символов в точности как в оригинале, интересно же.

Я не надеюсь, что Вы прямо сейчас засядите и быстро доделаете свою сборку, далее решение за Вами, мы люди взрослые, должны сами разбираться, кто на нас давит и зачем, соответственно и реагировать адекватно создавшемуся случаю.

Пояснение к тексту: я не против djvu, я к нему с некоторых пор стал равнодушен, считаю что и этот формат должен жить, спрос на него есть и будет есть, и я одинаково уважаю всех оцифровщиков, даже тех кто откровенно косячит в любом формате, они научатся, я в них верю.[/spoiler]

p.s. Есть ещё пожелание в режиме распрямления строк увидеть дополнительные точки редактирования на вертикальных сторонах, было бы очень полезно при обработке фотоснимков книг, коих в последнее время появляется всё больше, как бы не вытеснили сканеры ))

Автор: hogu77
Дата сообщения: 08.06.2016 18:44

Много текста для papaVlad. Другим читать можно, а возмущаться адресату - нет)
Пойми, больше всего мне не хочется переводить наш диалог в русло взаимных обвинений в глупости, выбирая стиль разговора при котором меряются тем чем обычно меряются в бане но твой формат подачи материала требует зеркальности. Постараюсь много не рассусоливать, быть предельно кратким и при желании с твоей или иной стороны - ответить более детально. И последнее, это не апология формата DjVu.

Цитата:

<...> чувствую закинули этот проект на самую дальнюю полку и всё из-за того, что фанаты дежавю переубедили Вас и убили энтузиазм.

Я ничего не в ком не убивал, просто снова всплыл извечный вопрос со времён Tulon'а и его СТ - нахрена в программе функция получения фото- и текст-слоя если эта программа сама не разделят тиффы которые по логике самой программы должны быть разделены? Это из той серии если я например сделаю звуковой редактор уровня Аудишена или Саундфорджа только звуковой формат будет исключительно мой, а это уже ваша печаль как переводить из моего формата в ту же вавку, где то так.
И вот, со слов 4lex4 оказывается что разделение на субсканы вещь полезная и для PDF формата!
Так что, ... мы ничего не убивали.

Цитата:

Если мы не можем победить по правилам, давайте их изменим.

Значит ли это что PDF'щик никогда не любили играть по правилам?

Цитата:

Теперь ожидаем нападки со стороны дежавюшников, мол соберут не хуже и размером меньше, да ради Бога, пусть сидят и парятся, раскладывают на картинки и текст, потом раскрашивают цветные буквы и т.д.

«Нападки» не заставили себя ждать.
Думал будет что-то аховое, оказалось - нет. Был убран персиковый фон в автомате и загружены полученные страницы в коробку PDF, однокнопочным нажатием - изменены. В итоге, покорёженный шрифт букв и подозреваю, убитое качество картинок. Между тем, ничего не мешало прогнать субсканы-фото через ту же Саттву (убрав растр) и/или другие «улучшайзеры» если необходимо. В наиболее важных случаях вместо саттвы использую изменённый Descreen в GIMP'е. Фиг с ним с текстом, хоть фотки и чертежи в наилучшем качестве ироды оставьте!!
Второе, малоцвет тоже можно автоматизировать без уменьшения качества и разрисовывания буковок. Хотя единой схемы и нет, надо в каждом случае выбирать приемлемое соотношение качества-времени.

Цитата:

<...> я одинаково уважаю всех оцифровщиков, даже тех кто откровенно косячит в любом формате, они научатся, я в них верю.

Ага, научаться, держи карман шире. Не задавал себе вопрос почему существует несколько тем посвященных качественной оцифровке на том же рутрекере а народ туда не спешит? Что, все такие профи? Походи по книжно-журнальным раздачам на том же ресурсе и многое станет понятно.

Автор: papaVlad
Дата сообщения: 09.06.2016 01:03

hogu77

Цитата:

Значит ли это что PDF'щик никогда не любили играть по правилам?

За всех не скажу, но меня "правило маленького файла" никогда не устраивало, даже в эпоху дежавьюирования постоянно пытался использовать "профиль фото".

Цитата:

Думал будет что-то аховое, оказалось - нет.

Временем не располагаю, зато есть огроменная очередь на оцифровку. Хотя иногда меня заносит и интересное издание могу вылизывать неделю-две, потом бывает жалею потраченное время.

Цитата:

Между тем, ничего не мешало прогнать субсканы-фото через ту же Саттву (убрав растр) и/или другие «улучшайзеры»...

Ну вот, опять пытаетесь навязать свои правила.
Отвечу так - именно эти изменения, которые маскируются под фразу "убрать растр, муар", я и считаю бедой, это просто размытие, пусть и умное/подконтрольное, о всех произведённых изменениях знаете только Вы, как оно действительно было в оригинале/скане приходится просто догадываться. Лично я никогда не поверю, что не замылилась какая-то полезная деталь, потому пытаюсь сохранить всё так, как увидел сканер, а далее, при обработке на меня начинают воздействовать "правила", типа фон должен быть отбелен, шрифт достаточно контрастным и размер итоговый не превышать среднестатистический, вот и выходят неаховые файлы в маленьком размере. Частенько я плюю на правила и ничего не изменяю, оставляю и фактуру бумаги, и в пдф при минимальном сжатии без каких-либо клеарсканов. Также иногда делаю полезные коррекции сканов, но то для других, поверьте, всё красиво, а если у меня есть сомнения, мол могут возникнуть проблемы при обработке, то отправляю ещё вариант сырого скана, пока жалоб нет.

Цитата:

Что, все такие профи?

Зря Вы так на них, народ делает полезное дело, каждый в меру своих возможностей, если мне есть что посоветовать, то я пишу в личку, но только действительно нужные, простые и понятные подсказки.

Автор: hogu77
Дата сообщения: 09.06.2016 18:50

Цитата:

papaVlad
Временем не располагаю, зато есть огроменная очередь на оцифровку.

А обратиться сюда или попросить помощи в личном сообщении не хочешь по религиозным соображениям?)

Цитата:

Ну вот, опять пытаетесь навязать свои правила.

Боже упаси! С каких это пор правила хорошего тона стали исключительно моими?!

Цитата:

Отвечу так - именно эти изменения, которые маскируются под фразу "убрать растр, муар", я и считаю бедой, это просто размытие, пусть и умное/подконтрольное, <...>

Под размытием, подозреваю, ты понимаешь действие гауссовского блюра. Забегая вперёд хочу сказать что даже после него, при выборе НОРМАЛЬНОГО значения размытия есть возможность восстановления казалось бы утраченной «решётчатой структуры» (растра) при помощи различных деблюрингов. Так что потерю деталей после гаусса можно считать далеко не тотальной и окончательной. Это раз.
Два. Блюрить растр тебе никто не навязывает, можно восстановить детали при помощи FFT. «Фурье», назовём его так для краткости, весьма хорошо зарекомендовал себя при убирании последовательно-равномерного шума. Немного погуглив можно найти примеры убирания тиснения («пупырчатости») на старых фотографиях довольно быстро и качественно, использовать при это только «штамп» и/или «лечащую кисть» никаких сил и времени не хватит. Для типографского цветного он тоже подходит.
По сути о размазывании растра речь не идёт, речь идёт о методе реконструкции, примерно так же если бы ты восстанавливал старую фотографию залатывая кляксы и белые «молнии» - сгибы. Понимаю, для тебя это всего лишь слова так что поговорим более предметно, с примерами.
Так как, после прочтений по ссылкам, ты уже немного вник в суть вопроса, (я про замазывание мелких звёздочек вокруг центральной) то серия примеров из одной и той же картинки будет «больше тысячи слов»:
Оригинал

После Gaussian Blur 2.1 (блюрил по минимуму что бы только избавиться от сетки)

Sattva Descreen по дефолту (75 - 133 - 88)

В завершение, тоже по дефолту (72) немного видоизменённый мною код Descreen для GIMP (в нём как и в предыдущем тоже всё автоматизировано, ничего красить не надо)

Цитата:

<...> о всех произведённых изменениях знаете только Вы, как оно действительно было в оригинале/скане приходится просто догадываться.

Ёпта, да-к никто же мешает задать вопрос и получить ответ!

P.S. Обращаюсь к модераторам данной темы. Не убирайте и не переносите мой ответ к papaVlad'у некоторое время. Я в полной мере понимаю что моё сообщение должно быть не в этой теме а то и вообще в личке.
P.P.S. Да, согласен, возможно надо оставлять фото из книг и журналов в таком виде

но мне больше нравиться так

и без всякого блюринга. Возможно я не прав.

Автор: papaVlad
Дата сообщения: 10.06.2016 01:51

hogu77

Цитата:

А обратиться сюда или попросить помощи

Ту хрень и объёмы, которые делаю, никому не нужны, потому сам как-нибудь, что-то нормальное скидываю по знакомым.

Цитата:

Под размытием, подозреваю, ты понимаешь действие гауссовского блюра.

У меня свой личный термин, поймёте из известной песни:

Я леплю из пластилина,
Пластилин нежней, чем глина,
Я леплю из пластилина
Кукол, клоунов, собак.
Если кукла выйдет плохо
Назову ее - "Дуреха",
Если клоун выйдет плохо
Назову его - "Дурак".

Подошли ко мне два брата,
Подошли и говорят:
Разве кукла виновата?
Разве клоун виноват?
Ты их лепишь плоховато,
Ты их любишь маловато,
Ты сама и виновата,
А никто не виноват.

Помните те детские времена, чтоб прям блестело, нужно ещё палец послюнявить и разгладить.

Цитата:

даже после него, при выборе НОРМАЛЬНОГО значения размытия есть возможность восстановления казалось бы утраченной «решётчатой структуры» (растра) при помощи различных деблюрингов

Я не знаю, вот этот файл с НОРМАЛЬНЫМ значением или нет, пробуйте https://yadi.sk/d/5jfG84KgsPTFg (в сообщении выше ссылка нерабочая получилась), мне результат показывать не нужно, у меня есть качественный файл в пдф.

Цитата:

Так как, после прочтений по ссылкам, ты уже немного вник в суть вопроса

Увидел слово фотошоп, а не пользуюсь, и точно никогда не осилю все премудрости, которыми Вы обладаете, но смысл я уловил, всё-таки требуется умное размытие, ладно уговорили, попробовал, но только чтоб в пакетную обработку просто добавить несколько ползунков.
Тест получился таким https://yadi.sk/d/6y3KHpEWsPST8 , ещё сильнее размыть не могу, религия не позволяет, я же "PDF'щик". Обязуюсь в дальнейшем использовать,... может быть.

Цитата:

Не убирайте и не переносите мой ответ к papaVlad'у некоторое время

Вопрос решён, ситуация разгладилась, шрамы тоже уже можно удалить.

Цитата:

но мне больше нравиться так

Ваше право, но я бы не отступал от оригинала.

p.s. домашнее задание: hogu77, жутко интересно, как это будет в дежавю, в качестве, в Вашем исполнении https://yadi.sk/d/AkgUdq8gsPV72 (не ищите подвоха, просто скан, отнеситесь также с юмором).

p.p.s. Зачем на этом форуме при ответе постоянно выскакивает сообщение?, да ещё с чужим IP.
"Вам запрещен вход на этот сайт.
Ваш IP адрес 141.0.12.140
Если это ошибка, то пишите письма на support@ru-board.com и не забудьте сообщить IP адрес который Вы видите выше, а тaкже, если Bы зарегистрированы на форуме, то Ваш ник.
Посмотрите пока немножко рекламы, если вас не затруднит. "

Автор: hogu77
Дата сообщения: 10.06.2016 12:14

Цитата:

papaVlad
<...> как это будет в дежавю, в качестве, <...>

Примерно так: https://yadi.sk/d/c2kKAlIgsPvqa
(«не искал подвоха, отнёсся с юмором»).

Автор: papaVlad
Дата сообщения: 10.06.2016 14:23

Улыбнуло ))

А дежавю совсем без потерь умеет?, а то ради 8,5 КБ получить кучу изменённых пикселей, фу-у-у ((
http://s33.radikal.ru/tempfiles/e9ab9693b4184d64b9388f635231c7c9/-88693455.png
https://yadi.sk/d/weQy6eSpsQ9np

Автор: hogu77
Дата сообщения: 10.06.2016 19:28

Цитата:

papaVlad
А дежавю совсем без потерь умеет?

DjVu Small Mod: Профиль кодирования (Псевдо-Djvu).

Автор: 4lex4
Дата сообщения: 14.06.2016 19:09

Извиняюсь, предыдущий тест был некорректен, ибо файнридер пихает картинки в бекграунд, если сохранять без текста (я не сразу заметил), потому они размывались из-за сильного пережатия.

Теперь корректный тест и анализ результатов, на этот раз с djvu:
Сырой исходник (300DPI)
Исходное обработаное изображение, из которого создавались результаты (600 DPI)
Исходное обработаное изображение для визуального сравнения с результатами (300 DPI)

Результаты (все - 300 DPI):
Растровый PDF JPEG - 475 КБ - качество сжатия* - JPEG 50%.

Растровый PDF JPEG2000 - 481 КБ - качество сжатия* - JPEG2000 25%, размер частей - 1024.

Adobe ClearScan - 219 КБ - качество сжатия* картинок - JPEG 50%, текст векторизован.

FineReader PDF MRC - 335 КБ - качество сжатия* картинок - JPEG2000 25%, бинарная маска - 600 DPI.

DjVu - 195 КБ - качество сжатия* картинок в IW44 примерно равно 82 по шкале LizardTech или 34 по шкале DjVu Libre, бинарная маска - 600 DPI.

* У JPEG, JPEG2000, IW44 - разные шкалы качества, ибо это разные алгоритмы. Например JPEG2000 50% будет намного превосходить по качеству и размеру JPEG 50%. Я подобрал параметры так, чтоб размер JPEG и JPEG2000 был одинаков.

Явный победитель по параметру качество/размер с большим отрывом - DjVu.

По порядку качества:
1) Djvu, FineReader PDF MRC - примерно равны по качеству. Лучшее качество из всех.
При просмотре текст и линие четкие, гладкие. Символы (буквы) точно соответсвуют исходнику - засечки букв не повреждены и не укорочены, толщина деталей символов точна.
Картинки в хорошем качестве, качество сжатия можно регулировать. (хоть без потерь вывести, в PDF - JPEG2000 - lossless, в DjVu - IW44 - качество бэкграунда 100 (LizardTech)).
Сегментирование регулироемое. (В PDF FR - анализ и коррекция областей в самом FR, В DjVu - метод раздельных сканов. Но FR лучше, он позволяет сегментировать и текст на самих картинках. Для DjVu очень ограничено - недостаток инструментов, хотя с соответсвующим инструментом возможно.)

2) Растровый PDF JPEG2000. При просмотре текст и линие гладкие, но уже не такие четкие, но достаточно хорошие. В местах с текстом вокруг символов есть еле заметные артефакты сжатия на фоне, но они столь незначительны, что не влияют на восприятие. Картинки в хорошем качестве.
Сегментация не требуется.

3) Adobe ClearScan.
При просмотре текст и линие четкие и гладкие. Но! Символы не соответсвуют исходнику - засечки букв повреждены и укорочены, толщина деталей букв неточна, есть ужирнения в некоторых местах букв, символы заметно искажены и потеряли детали из-за сильной аппроксимации (приближения, по-другому сглаживания), необходимой для векторизации. Символы кажутся расплытыми, у всех символов с округлыми границами ("О", "C" и т.п.) видны острые грани, на крупных символах это особенно критично и заметно даже при 100% масштабе!

Картинки в среднем качестве, заметны артефакты сжатия JPEG (квадратики), настроить качество сжатия и выбрать более лучший JPEG2000 нельзя.

Сегментирование полностью нерегулироемое. Это означает, что надежда полностью на автоматический сегментатор от Adobe. Т. к. сегментирование задача еще нерешенная и сложная, автомат дает много искажений. Простые картинки вроде графиков, диаграм, геометрических фигур, стрелок, даже элементов в формулах и т. п. очень часто повреждаются до неузнаваемости. Нераспознаные сегментатором картинки идут в фон, где сильно даунсэмплится и сжимаются, становясь размытыми, полностью теряя качество. В дополнение картинки и формулы вообще могут пропасть (уйти за границу страницы), правда это можно откорректировать вручную, если заметить. Если фон предварительно не почистить, то даже небольшой мусор в бекграунде расплывается до больших размеров и становится заметным. Отдельно в этом режиме нельзя отключить автоматическую геометрическую коррекцию и поворот, которая иногда полностью искажает правильную страницу. И на примере видно, что тире в самом начале текста забрало в бекграунд и размыло - то есть потеря качества текста.

4) Растровый PDF JPEG. При просмотре текст и линии размыты из-за сильных артефактов сжатия. В местах с текстом вокруг символов есть заметные артефакты сжатия на фоне, фон поврежден и замусорен. Картинки в среднем качестве, заметны артефакты сжатия JPEG.
Сегментация не требуется.

Как видно, оптимальный размер дает только DjVu и PDF ClearScan. Когда задача сегментации сложна или вообще ручной труд не рационален (временные документы), подходит и PDF JPEG2000 или однослойный (Photo или псевдо) DjVu (IW44), но не PDF с JPEG, который все до сих пор юзают по неграмотности, делая большую ошибку.

ClearScan интересная технология, но на данный момент для практического использования не доработана. Нужна возможность ручной сегментации, настройки качества сжатия и даунсемпла изображений и бекграунда, возможность отключать автоматическую коррекцию геометрии и исправления багов вроде переноса элементов за границы страницы.
Максимум она годится для исправления исправления сильно деградированых документов или старых книг, с последующим экспортом в картинки в 600 DPI и ручным исправлением всех возникших косяков графическим редактором (их обычно очень много на научной литературе, проверено много раз).

Так что DjVu с нормальными ручными настройками (без даунсемпла бекраунда или даунсемплом его только до 300 DPI, предварительной обработкой исходника и апсемплом до 600DPI интерполяцией, чтобы текст был гладкий (бинарная маска должна быть 600DPI)) и метод раздельных сканов - лучшее, что есть на сегодня.

papaVlad

Цитата:

ПДФ умеет находить одинаковую информацию и объединять её, снижая размер полного файла

Глупость. Никакой одинаковой информации никто не ищет. На вашем примере:

Цитата:

Кому скучно, предложу ещё один эксперимент - нужна лишь одна страница в пдф и/или дежавю, теперь сделайте её копию десяток раз, далее весь десяток объединяйте в общий файл, результат всегда будет такой - общий пдф чуть-чуть увеличится от размера одной страницы

А теперь попробуйте изменить в каждом одинаковом N-ом изображении хотябы один пиксел, и получите в N раз больший PDF. Это происходит только потому, что один и тот же объект Adobe не копирует. Но стоит изменить хоть пиксел, вроде бы одинаковые изображения будут восприниматься как абсолютно разные, хотя отличаются только одним пикселом.
Получается, что мы имеем 99.9999% одинаковой информации, но она не "находится".

Поэтому даже если вы идеально отсканируете одну и туже страницу и запакуете в PDF (не ClearScan), размер будет в 2 раза больше. Даже если части абсолютно одинаковы, никакого объединения нет, ибо как я еще раз повторю, стоит изображениям отличиться хотябы пикселом.

И не стоит путать растровый PDF с PDF после ClearScan - последний уже не растровый PDF, а со сложными объектами и структурой.

Цитата:

ПДФ умеет находить одинаковую информацию и объединять её, снижая размер полного файла, и именно на клеарскане это явление особо сильно заметно

ClearScan (Editable text and Images, редактируемые текст и изображения) - это закрытая технология Adobe для сканов, к PDF отношение имеет косвенное, по большей части это технология работы именно с изображением. Суть в том, что сегментатором на растровом изображении ищутся символы - апроксимируются - векторизуются - похожие символы идут в словарь как один. Поэтому здесь действительно будет выигрыш размера на страницу, но точно такой же, как и в DjVu, потому что в DjVu уже давно похожие символы объединяются в словари c помощью JB2. То есть выигрыша перед DjVu в размере все равно не будет. И это верно только для символов, на похожие изображения это не действует. Тем более это не ключевой фактор, сжатие в обоих случаях идет именно за счет сегментации, а словари лишь вспомогательный фактор.
Поэтому сравнение одной страницы полностью корректно.

По сути ClearScan по принципу действия в точности такой же как DjVu и PDF MRC с той лишь разницей, что вместо деления на слои и использования эффективных алгоритмов сжатия для каждого слоя у него используются векторные объекты.

Цитата:

не умею я хорошо готовить из тормознутого jpeg2000, потому не использую

Очень глупое высказывание. JPEG2000 просто алгоритм сжатия изображений, более совершенный чем JPEG, чего тут надо уметь? При том же размере всегда дает лучшее по качеству изображение. Загуглите, узнаете много нового.
Вот тестовая площадка, выберете JPEG и JPEG2000 и сравните картинки:
http://xooyoozoo.github.io/yolo-octo-bugfixes/#fruits&jpg=s&jp2=s

Цитата:

но убитая под стиль дежавю картинка

Зря вы так. В DjVu можно настроить любое качество картинок, хоть исходное без потерь, вот хоть на мой пример взгляньте, явно лучше чем ваш любимый ClearScan, у которого при приближении на изображениях видны только квадратики вместо деталей. Просто все стандартные профили DjVu, которые юзает большинство неопытных пользователей, почему то норовят сжать картинки до 100 DPI в паршивом качестве, наверное потому что ПО устарело, раньше может это и был результат

, но не сейчас. Поэтому мы и видим размытое гавно, но это не относится к DjVu, а к кодировщикам, не умеющим пользоваться инструментом. Достаточно самому все настроить, и DjVu будут прекрасного качества при равном или меньшем, чем у PDF размере.

Цитата:

к примеру мне понравились буквы на Вашем примере "ABBYY FR MRC PDF

Цитата:

а вот картинка с корабликом сильно пострадала, о ней и речь.

Изображение вообще можно сохранить в исходном качестве, как я написал выше, просто я не заметил странность FR, что если сохранять без текстового слоя, то FR портит картинки, суя их в фон. Я исправился, посмотрите теперь, ясно видно, что детальность теперь высокая. И на ClearScan посмотрите, у которого из-за артефактов JPEG (квадратиков) при приближении ничего не разлядишь.

Способ для PDF MRC:

Пусть есть исходники 300 DPI.
1) Обрабатываем исходники.
2) Апсемплим изображение до 600DPI бикубической интерполяцией (можно прям из ST, выбрать режим Color [Цветной]).
PDF:
3) Суем в FR. Распознаем. Здесь важно! Сохраняем с параметрами: PDF - текст под изображением - галочка на MRC - Качество изображений: Выборочное - отключть даунсеплинг и выбрать - потеря качества не разрешена.
4) Получим большой PDF 600DPI без потерь. Теперь дожимаем и даунсемплим в Adobe Acrobat изображения до 300 DPI.
Выбираем сжатие для цвета и серого ZIP - даунсемпл 300ppi, если больше 300ppi
Для ЧБ - JBIG2 без потерь. Даунсемплинг выключен.
Получим PDF 300DPI без потерь с бинарной маской 600DPI.
Теперь опять переходим к сжатию:
Выбираем сжатие для цвета и серого JPEG2000 - качество по желанию, размер частей (tile size) - 1024.
Для ЧБ - JBIG2 без потерь. Даунсемплинг выключен.

*Почему нельзя сразу в JPEG2000 за один раз: дело в том, что Adobe ничего не делает с изображениями, если они уже в JPEG2000, то есть они не сожмутся без промежуточного шага в ZIP (почему ZIP? Чтоб не потерять качество, он без потерь).

Для DjVu нужна настройка соответсвующих утилит. Для DjVu много настроек, самое главное - сабсемплинг фона - 2 (600DPI / 2 = 300 DPI), качество фона - 80 (LizardTech, DjVu Small, Caminova) или 32 для Djvu Libre (DjVu Image и др.). Остальное по своему усмотрению, только никаких трансформаций (они должны быть до), естественно сабсемплинг фореграунда >=2 (лучше 12). Главное, что бинарная маска должна получаться 600 DPI, Background - 300 DPI. Получим качественный DjVu с цветным текстом и гладкими буквами, и хорошими картинками.
Есть способ с mask upsample 2 из сканов 300 DPI, тогда бинарная маска тоже будет 600DPI, но текст будет менее качественным и более зубристым, не рекомендую.

Автор: papaVlad
Дата сообщения: 15.06.2016 02:45

4lex4, ну, Вы сейчас основательно подготовились, многие будут благодарны за эти тесты, есть что почитать.

К сожалению, нет много времени, чтобы всё перепроверить, да и не понимаю некоторые термины, надеюсь они будут полезны другим оцифровщикам. Я лишь поверхностно пробежал по тексту, не вникая в то, чем не занимаюсь, а остановился на некоторых фразах, где могу сделать уточнения.

4lex4, смотрите какие ошибки бросились в глаза по клеарскану.
1. Ваш клеарскан собран частично неправильно:
- верно - подняли исходный тиф до 600 и его скормили Акробату,
- неверно - Акробат съел исходник, наложив установленное в настройках сжатие, а надо было выставить в настройках "ZIP",
- верно - наложили клеарскан с понижением до 300,
- неверно - получили неудачный результат с двойным сжатием,
- правильный вариант будет такой https://yadi.sk/i/aiVagI74sVJ2y
2. Сравнение опять было некорректным, понял по фразе """у всех символов с округлыми границами ("О", "C" и т.п.) видны острые грани""", не буду спрашивать примеры, понимаю, что вытащили тиф из клеарскановского пдф на 300 dpi, вот правильный тиф https://yadi.sk/d/qmvGL3lUsVJgK , сравнивайте на нём с файлами из ФР и дежавю, которые на 600, хотя возможно из ФР у Вас на автомате тоже вылез на 300 dpi, не знаю.
3. Про клеарскан Вам удалось собрать всю негативную информацию, не написав ничего хорошего, соглашусь со многими фразами и откорректирую в положительную сторону:
- """настроить качество и выбрать более лучший JPEG2000 нельзя""", тут просто JPEG, без 2000, и при большом желании картинки можно заменить вручную хоть на ZIP,
- графики, диаграммы и прочее никто не заставляет клеарсканить, если неудача, то пробуем другие методы сжатия, либо меняем конкретно этот график на странице. Вообще, на технических книгах с формулами не советую использовать КС, также категорически не пригоден для жирного слипшегося шрифта,
- косячные искажения поворотов тоже лечатся, можно тупо в Акробате повернуть правильно, либо чуть по-другому подготовить страницу-исходник, если будет пример, то покажу способы лечения,
- """тире в самом начале текста забрало в бекграунд и размыло""" - ещё две вертикальные палочки добавьте, ну да случается, вон в ФР целое слово также выглядит, ищите синим шрифтом 1945 "года", ну так мы никак специально не готовили картинку, как для дежавю, кстати в пдф тоже можно шрифт раскрашивать, сделать сначала в СТ бинаризацию, а потом раскрасить, работает это правильно через раз, но работает же,
- добавлю в плюс, что заливка на всём шрифте равномерная, чего нет более нигде, в ФР плавные тона, а у дежавю симпатичные квадраты,
- время на изготовление этого пдф не замеряли случайно? Запишу заранее в плюс клеарскану, против ФР и дежавю,
- по кораблику, то есть про картинку - пока не могу привыкнуть к умному лёгкому размытию, но с подачи hogu77 начинаю использовать, по такому небольшому опыту из трёх файлов выделю ФР.

---

Цитата:

Глупость. Никакой одинаковой информации никто не ищет.

То есть 9 и 15 МБ практически неразличимы? Я там приложил конкретный пример, напомню ссылки
https://yadi.sk/i/8_aVoS4vsLAtp
https://yadi.sk/d/kwZqoe93sLDu2
Может это как по-другому называется, не объединение информации, а каким-то умным термином, не столь важно, собственно есть какой-то эффект и лишь на это обратил внимание. Возможно Вы правы, это несущественно в сравнении с возможностями дежавю, ну тогда просто остановим это обсуждение.

Цитата:

А теперь попробуйте изменить в каждом одинаковом N-ом изображении хотябы один пиксел

Речь шла именно об одинаковых страницах, ведь Вы попробовали?, получилось?, дежавю увеличился в 10 раз? Я тогда хотел дописать, как это использовать на практике, но то ли мысль потерял, то ли отвлёкся, поспешил далее.
Простой пример - у книг есть форзацы, очень часто одинаковыми могут быть все 4 страницы, многие оцифровщики их выкидывают, а можно сделать одну и по ней скопировать ещё три. Копия - это когда все пиксели одинаковые. Чувствую дохловатый пример, на премию не тянет, да и ладно, обойдусь, главное что сам пользуюсь этим способом.

Кроме Акробата и ФР есть же ещё мощные программы, верстающие качественные пдф, они что, действительно все завязаны на тщательном распознавании текста?, или есть возможность векторизации не только изображений, но и шрифта? Вспомнились Пионеры https://yadi.sk/i/geHlTcwdh3e5t

Кроме обычной сборки в пдф помню писали про что-то типа метода разделённых сканов, и даже пару книг собрал с какими-то отдельными слоями, но всё так замудрёно и неотлажено, что не привлекло.

Ладно, пока что имеем, тем и пользуемся, почаще делитесь секретами, делайте полезные/правильные тесты и продвигайте СТ в массы, надеюсь он когда-нибудь станет однокнопочным, ну или двухкнопочным: DJVU и PDF

Всем бодрости духа!

p.s.
4lex4, я не успеваю за Вами, опять что-то добавили/изменили в прежнем сообщении, завтра внимательно почитаю, а пока такое неполное послание, это всё для поднятия настроения в создании обновлённого СТ.

Автор: 4lex4
Дата сообщения: 15.06.2016 12:39

papaVlad

Цитата:

- верно - подняли исходный тиф до 600 и его скормили Акробату,
- неверно - Акробат съел исходник, наложив установленное в настройках сжатие, а надо было выставить в настройках "ZIP",
- верно - наложили клеарскан с понижением до 300,
- неверно - получили неудачный результат с двойным сжатием,
- правильный вариант будет такой https://yadi.sk/i/aiVagI74sVJ2y

Не угадали. Мой ClearScan сжат один раз.
В настройках при импорте изображений у меня стоит JPEG2000 lossless (без потерь), можно и ZIP, но JPEG2000 лучше. Так что сжимал только ClearScan и один раз.

Цитата:

Сравнение опять было некорректным, понял по фразе """у всех символов с округлыми границами ("О", "C" и т.п.) видны острые грани""", не буду спрашивать примеры, понимаю, что вытащили тиф из клеарскановского пдф на 300 dpi, вот правильный

Снова нет. Написано же, при просмотре, то есть прям в pdf. И в тифе это тоже заметно. Вот:
Скрин

Цитата:

добавлю в плюс, что заливка на всём шрифте равномерная, чего нет более нигде

Вы просто еще не сталкивались с буквами, зачеркнутыми цветной линией, а в DjVu это давно есть. Вот пожайлуста:
DjVu с однородными цветами букв

А вот теперь о чем я говорил. Сожмем эту страницу в ClearScan:
Получим результат.
А теперь внимательно смотрим на текст, зачеркнутый зеленой линией. Что же мы видим на ClearScan'e?

Плюс в дополнение всплыли еще недостатки ClearScan. Посмотрите что он сделал с рисунками, и главное - с точками. ClearScan просто делает непригодный в данном случае результат.

Поэтому не стоит говорить

Цитата:

Про клеарскан Вам удалось собрать всю негативную информацию

То что есть, то и написал. Отрицать факты бессмысленно.

Цитата:

Речь шла именно об одинаковых страницах, ведь Вы попробовали?, получилось?, дежавю увеличился в 10 раз? Я тогда хотел дописать, как это использовать на практике, но то ли мысль потерял, то ли отвлёкся, поспешил далее.
Простой пример - у книг есть форзацы, очень часто одинаковыми могут быть все 4 страницы, многие оцифровщики их выкидывают, а можно сделать одну и по ней скопировать ещё три. Копия - это когда все пиксели одинаковые. Чувствую дохловатый пример, на премию не тянет, да и ладно, обойдусь, главное что сам пользуюсь этим способом.

Это работает только с копиями. В обычной ситуации практической пользы от этого нет. Только если в самом источнике есть копии, чего я не встречал, тогда можно взять одну из таких страниц и использовать копирование, но вряд ли выигрыш будет значительный перед DjVu или ClearScan.

Цитата:

То есть 9 и 15 МБ практически неразличимы? Я там приложил конкретный пример, напомню ссылки
https://yadi.sk/i/8_aVoS4vsLAtp
https://yadi.sk/d/kwZqoe93sLDu2
Может это как по-другому называется, не объединение информации, а каким-то умным термином, не столь важно, собственно есть какой-то эффект и лишь на это обратил внимание. Возможно Вы правы, это несущественно в сравнении с возможностями дежавю, ну тогда просто остановим это обсуждение.

Я вам уже ответил. То что вы мне показываете - это ClearScan, а не обычный PDF. Вы путаете технологию ClearScan и свойства формата PDF. Читайте внимательно предыдущее сообщение, где я описал работу ClearScan.

Вывод: papaVlad, как видно, все ваши 3 домысла по поводу некорректности моего ClearScan опровергнуты.
В дополнение я привел вам еще пример, с которым ClearScan вообще не справляется, есть над чем поразмыслить.

Автор: papaVlad
Дата сообщения: 15.06.2016 16:38

4lex4
Цитата:

вот хоть на мой пример взгляньте, явно лучше чем ваш любимый ClearScan

Стоп, стоп, он никогда не был любимым, использую лишь под конкретные случаи. И прошлый ответ был посвящён только клеарскану, а можно далее обсудить и остальные способы сжатия, но я остановлюсь, т.к. наша беседа становится похожа на борьбу с ветряными мельницами, Вы меняете на ходу правила и файлы, почему-то сравниваете качество из просмотрщика, а я по-прежнему вижу разницу между Вашим и моим клеарсканом в свою пользу. Это всё бессмысленно получается, я останусь при своём мнении, Вы при своём.
Зачёркнутая страница для КС непригодна, это факт, и таких разнообразных страниц масса, кто понимает последствия работы клеарскана, тот откажется от него.
Дежавю умеет-таки равномерно заливать шрифт - это отлично, вот этому и научите тех, кто не умеет, но желает.
Если нет для Вас пользы от копий страниц, то я и не навязываю.

Вернёмся на чуть ранее
4lex4
Цитата:

В DjVu можно настроить любое качество картинок, хоть исходное без потерь,

Согласен, hogu77 показал, но в жизни никто не будет это использовать, т.к. борьба за наименьший размер, Вы мне даже пример http://xooyoozoo.github.io/yolo-octo-bugfixes/#fruits&jpg=s&jp2=s дали на низкое качество для сравнения, но так никто и никогда не делает, обычно среднее или высокое, но тогда разницы в просмотрщике не заметно, а задача на унижение JPEG и показ квадратов для невооружённого глаза. Хорошо, пусть так, я тоже начинаю перестраиваться и делать предварительное умное размытие (это не размытие как таковое), пример из ранее-показанного https://yadi.sk/d/6y3KHpEWsPST8 , и возможно я когда-то и смогу перейти на JPEG2000, но пока не готов, т.к. по Вашей инструкции """Способ для PDF MRC: """ удалось приготовить только тормознутый пдф https://yadi.sk/i/juuD1fgSsWJ7g , а значит для оцифровки похожих страниц остаюсь на квадратах, для просмотра с экрана это гораздо комфортнее, чем так https://yadi.sk/i/APTN0U5osWKFx

Цитата:

есть над чем поразмыслить

Пойду лучше что-то полезное сделаю, чего и всем желаю!

Автор: 4lex4
Дата сообщения: 15.06.2016 17:19

papaVlad, поменьше эмоций.

Цитата:

т.к. наша беседа становится похожа на борьбу с ветряными мельницами, Вы меняете на ходу правила и файлы, почему-то сравниваете качество из просмотрщика, а я по-прежнему вижу разницу между Вашим и моим клеарсканом в свою пользу.

Свойства из моего сообщения:
Отправлено: 19:09 14-06-2016 | Исправлено: 4lex4, 01:52 15-06-2016

Ну и какие же файлы изменены, если сообщение больше не редактировалось?

Цитата:

Согласен, hogu77 показал, но в жизни никто не будет это использовать, т.к. борьба за наименьший размер

А я где то написал, что надо юзать исходное? Любое же написано, это означает - какое хотите.

Вы все время обвиняли формат DjVu в том, что он портит изображения, но на самом деле это не так, что вам и показали.

Цитата:

Вы мне даже пример http://xooyoozoo.github.io/yolo-octo-bugfixes/#fruits&jpg=s&jp2=s дали на низкое качество для сравнения, но так никто и никогда не делает, обычно среднее или высокое, но тогда разницы в просмотрщике не заметно, а задача на унижение JPEG

Вы даже не удосужились как следует посмотреть, что качество настраиваемое и сравниваются просто качество алгоритмов сжатия при одном размере файла, тут нет никакой предвзятости, это научный источник. А у вас эмоции.

Цитата:

Дежавю умеет-таки равномерно заливать шрифт - это отлично, вот этому и научите тех, кто не умеет, но желает.

Информации по созданию и настроке программ для DjVu полно, достаточно самому поискать и почитать.

Цитата:

по Вашей инструкции """Способ для PDF MRC: """ удалось приготовить только тормознутый пдф https://yadi.sk/i/juuD1fgSsWJ7g , а значит для оцифровки похожих страниц остаюсь на квадратах, для просмотра с экрана это гораздо комфортнее, чем так https://yadi.sk/i/APTN0U5osWKFx

Вы написали полную глупость.

Вот посмотрите:
Чтоб изготовить PDF JPEG, нужно просто взять изображение, перевести в PDF и сжать JPEG. Все.
Чтоб изготовить PDF JPEG2000, нужно просто взять изображение, перевести в PDF и сжать JPEG2000. Все.

Неужели все так сложно?

Это первые два PDF в тесте, самые простые. Причем тут мой способ PDF MRC? Это вообще другое.

Цитата:

"""Способ для PDF MRC: """ удалось приготовить только тормознутый пдф

Именно поэтому для сканов лучше DjVu ничего нет. PDF MRC и DjVu работают по одному принципу и имеют одно качество, но DjVu работает в разы быстрее тормозного PDF MRC и весит меньше при том же качестве. Поэтому по параметру качество/вес DjVu впереди планеты всей.

Цитата:

Вы меняете на ходу правила и файлы, почему-то сравниваете качество из просмотрщика, а я по-прежнему вижу разницу между Вашим и моим клеарсканом в свою пользу. Это всё бессмысленно получается, я останусь при своём мнении, Вы при своём.

Я сделал тест. В этом тесте одно исходное изображени, и пять результирующих файлов из этого изображения для сравнения. Вы мне предъявили необоснованые претензии, что я неправильно изготовил ClearScan, я их опроверг. Возьмите исходное изображение по ссылке и сделайте свой ClearScan, расскажите что делали. Редактировать и менять исходник нельзя, иначе сравнение будет некорректным, нужно будет переделывать и остальные результаты.

Сам тест полностью объективен, я никого не убеждаю, никаких мнений и нет, только ваши глаза, файлы и технические характеристики. Берете файлы, сравниваете, смотрите. Далее я написал анализ чтоб вам было легче все заметить. Там тоже использованы только факты.

В конце теста я подвожу итоги, уже используя свое мнение, и там уже все субъективно.
Мое мнение слушать необязательно, но отрицать факты глупо.

Если вы считаете, что я что-то непрасильно сделал, выкладывайте свой файл, подробно объясните, как вы изготовили ваш файл из исходника, чтоб я сам мог сам получить его, и я поправлю его и в тесте, если не нарушены правила.

Автор: papaVlad
Дата сообщения: 15.06.2016 21:45

4lex4
Цитата:

Возьмите исходное изображение по ссылке и сделайте свой ClearScan, расскажите что делали.

видеоответ + заказанный pdf.

Автор: 4lex4
Дата сообщения: 15.06.2016 23:03

papaVlad, ваш ClearScan хуже, и это не ваша вина. Объясняю. Вы использовали бикубический апсемпл (СТ) с 300 до 600 DPI - изображение было изменено 2 раза. Я выложил исходник 300DPI как демонстрацию, он сам был получен из 600DPI.

То есть получается:
Ваше грязное изображение в JPEG (реальный исходник, 300 DPI) -> очищенный, обрезаный и повернутый исходник из СТ (600DPI) - из этого все делалось -> даунсемпленный исходник для сравнения (300DPI) -> и ваше преобразование над исходником (600DPI).

Поэтому у вас оно и размыто - качество потеряно. Вот источник 600DPI сразу после СТ, из которого все делалось, из него и делайте PDF: очищенный, обрезаный и повернутый исходник из СТ (600DPI) - правила те же - редактировать нельзя.

Изначально я не думал, что тут будут споры, поэтому выложил уменьшенный исходник для корректного сравнения (чтоб все было 300 DPI), выглядят они одинакого с 600DPI и для визуального сравнения подходит. Поправлю пост с тестом, добавлю исходник без даунсемпла.

Сравнивать для оценки качества по прежнему следует именно с демонстрационным исходником в 300 DPI, так как все результаты в 300 DPI.

Второе, гладкость букв в растровом формате (DjVu, обычные PDF) на масштабе 800% сравнивать с векторным (в ClearScan) не имеет смысла, естественно в первом на таком масштабе будет виден растр. Мы смотрим, как они выглядят при чтении. Главное, чтобы при чтении они были гладкие и как на исходнике - не теряли засечек, не меняли форму и толщину, ибо последние факторы влияют на восприятие на 100% масштабе.
При чтении и при адекватном масштабе (до 400%) буквы в моих примерах как в DjVu, так в обычном PDF MRC гладкие.

PS. И да, учите матчасть, загуглите, что такое сжатие изображений без потерь, если вы не знали, ZIP тоже lossless - то есть сжатие без потерь. Сохранять тифы несжатыми глупо - они просто дольше будут открываться. Используйте LZW, ZIP, CCITT. Некоторые алгоритмы имеют два режима - JPEG2000, JBIG2 - с потерями и без потерь. JPEG, например, сжимает только с потерями.

Сжатие без потерь обозначает то, что изображение пиксел в пиксел одинаковое с несжатым (как будто мы сжали изображение в обычный архив), а весить может меньше.

Вот вам для справки: ZIP = JPEG2000 lossless = LZW = Deflate = НЕСЖАТОЕ изображение.

Автор: papaVlad
Дата сообщения: 16.06.2016 01:14

4lex4, последний ответ так напомнил сценку Винокура "тут играем, это не играем, а здесь рыбу заворачивали"

Отдельная благодарность за слово "повернутый", а то иногда не понимают, что малейшее изменение наклона даёт размытие, потому если вижу в СТ маленькие значения поворота, то правлю на нули.

Цитата:

что тут будут споры

какие споры, делимся информацией, пусть читают.
Слушайте, я первый раз вот так в живую наконец увидел правильную обработку скана от другого человека, признайтесь, с моих советов взяли способ затемнять по светлым тонам, чтоб края и перемычки букв затемнить? Вы же фотошопом пользуетесь, а я только на ACDSee показываю, можете в ввиде помощи голодающим записать видео, как в фотошопе это делается. Это было бы самое ценное видео, которым бы смог делиться. Кроме шуток, очень надо, сплошные фотошоперы вокруг, а я им не пользуюсь. И ещё, это ссылка на тиф будет жить или самоудаляемая? Хотя могу и перезалить, если что.

Бог с ними, с правилами, с буквами, гладкие или толстые, увеличивать или нет, про комфортно читать и т.д., Вы мне лучше скажите откуда такая инфа """Сохранять тифы несжатыми глупо - они просто дольше будут открываться.""", есть какие доказательства? А то я по-прежнему советую обратное, и есть видеотесты, где ни разу не победил LZW-тиф, хотите ещё нашлёпаю на разной мощности машинах. Я-то эту инфу мимо ушей пропущу, а ведь ещё и народ читает, вдруг поверят.

И замените в последнем предложении "НЕСЖАТОЕ" на "СЖАТОЕ БЕЗ ПОТЕРЬ", так правильнее и легче понять смысл фразы.

До завтра!

Автор: hogu77
Дата сообщения: 16.06.2016 12:42

Цитата:

4lex4
Способ для PDF MRC: <...>

Спасибо, буду пробовать.

Цитата:

Для DjVu нужна настройка соответсвующих утилит. Для DjVu много настроек, самое главное - сабсемплинг фона - 2 (600DPI / 2 = 300 DPI), качество фона - 80 (LizardTech, DjVu Small, Caminova) или 32 для Djvu Libre (DjVu Image и др.). Остальное по своему усмотрению, только никаких трансформаций (они должны быть до), естественно сабсемплинг фореграунда >=2 (лучше 12). Главное, что бинарная маска должна получаться 600 DPI, Background - 300 DPI. Получим качественный DjVu с цветным текстом и гладкими буквами, и хорошими картинками.
Есть способ с mask upsample 2 из сканов 300 DPI, тогда бинарная маска тоже будет 600DPI, но текст будет менее качественным и более зубристым, не рекомендую.

Интересно. А можно в виде пикч в настройках DjVu Small Mod'а, для наглядности?)

Цитата:

papaVlad
<...> иногда не понимают, что малейшее изменение наклона даёт размытие, потому если вижу в СТ маленькие значения поворота, то правлю на нули.

В конце прошлого века, знакомясь с учебником по Фотошопу, я вычитал что при повороте (впрочем не только при повороте) изображение деформируеться. Математически - да, а визуально оказалось что «не так страшен чёрт ...». Вот читают твоё сообщение неофиты и у них совершенно отпадает желание использовать Тэйлор по причине корёженья первоисточника. Если подходить к вопросу так как артикулируешь ты то правды ради надо выбросить и ACDsee, по причине «корёженья» первоисточников.
Аккуратнее надо со словами быть. Обращаюсь не только к тебе.

Цитата:

<...> можете в ввиде помощи голодающим записать видео, как в фотошопе это делается.

Боже, только не говори что сразу же после этого засядешь за фотошоп!

Автор: NME
Дата сообщения: 16.06.2016 12:51

ну и наоффтопили))
раз пошла такая пьянка, выскажусь и я..

Цитата:

В DjVu можно настроить любое качество картинок, хоть исходное без потерь

согласно спецификации в djvu можно вставить jpg (чанки BGjp и FGjp), что и было продемонстрировано на картинке с хлопцами.. в том, что jpg просто вставлен в djvu можно убедиться так - удалить начальные байты djvu, включая BGjp + 4 байта, изменить расширение файла на jpg и открыть в любом просмотрщике картинок.. но т.к. jpg по определению с потерями, то про "без потерь" говорить некорректно, можно сказать, что djvu способен "не испортить испорченное еще сильнее".. есть, конечно, инструменты, способные jpeg2000 в djvu загнать (чанки BG2k и FG2k), вот только ни один просмотрщик не отображает сие и судя по динамике развития формата - этого не произойдет никогда.. что очень печально..

Цитата:

In addition, the chunk names #"BG2k"# and #"FG2k"# have been reserved for
encoding the background color image and the foreground color image using
the forthcoming JPEG-2000 standard. This capability is not implemented at
the moment. The JPEG-2000 standard may even become the preferred encoding
method for color images in DjVu.

Цитата:

Сохранять тифы несжатыми глупо - они просто дольше будут открываться.

это произойдет в том случае, если скорость чтения данных с носителя меньше скорости "распаковки" сжатого изображения.. имхо.. всё зависит от железа..

Цитата:

фанаты дежавю переубедили Вас и убили энтузиазм

мне не очень понятен этот батл djvu vs pdf.. СТ предназначен для обработки изображений под последующее изготовление книги - так почему же не делать и pdf, и djvu? у каждого из форматов есть свои преимущества - djvu более шустрый, pdf более универсальный.. я, например, для тех или иных случаев конвертирую как pdf в djvu, так и наоборот.. и, если на выходе сабжа будет материал, из которого можно без особых усилий сделать КАЧЕСТВЕННУЮ книгу как в одном, так и в другом формате - то и не стОит ломать голову над выбором - надо делать и то, и другое! имхо, идеальным бы было создание данных книг из самой программы (как в СК, но чуть попроще)..
з.ы. возможно, всё уже в программе есть, я не знаю, т.к. СТ не пользуюсь, просто высказал свою точку зрения..

Автор: 4lex4
Дата сообщения: 16.06.2016 13:57

NME, все верно.

Но прошли те врена ностальгии по JPEG2000 как замене JPEG. Вот смотрите:
http://xooyoozoo.github.io/yolo-octo-bugfixes/#fruits&jpg=s&jp2=s

При том же размере BPG дает более качественное изображение, чем даже JPEG2000, и уж тем более устаревшего JPEG. Сравните качество BPG, WebP, JPEG2000 и JPEG при разных степенях сжатия.

У JPEG2000 преимущество - у него есть режим сжатия без потерь, у IW44 нет, но в данном случае (для сохранения книг и документов) оно в принципе и не нужно.
Но разговор был о том, что DjVu обвинялся в порче и размытии изображений - а это неверно, при том же размере IW44 дает почти то же качество, что и PDF с JPEG2000, и лучшее, чем PDF с JPEG. Не нужно юзать стандартные профили DjVu, как делают неопытные пользователи - они устарели, современные мониторы требуют картинок в 300 DPI и с более высоким качеством сжатия - для качественных изданий и документов (для некачественных книг можно и 150), а не 100 DPI, как лет 10 назад.
Размер для книг в 5Мб уже не имеет такого принципиального значения, как 10 лет назад, сейчас и 30 нормально.

DjVu следует использовать исключительно для сохранения книг и документов в растровом формате, тут он обычно эффективнее, а PDF во всем остальном, ибо второй универсален, а первый нет.
И не надо юзать JPEG, если есть лучший JPEG2000. Например, многие сохраняют журналы в обычный PDF, сжимая JPEG, получаем размытый текст и замусоренный фон из-за артефактов. Ведь можно сделать то же самое и с JPEG2000, который не дает таких артефактов, а при том же размере качество выше.

Цитата:

это произойдет в том случае, если скорость чтения данных с носителя меньше скорости "распаковки" сжатого изображения.. имхо.. всё зависит от железа..

Все верно, но не только. От скорости алгоритма распаковки тоже зависит.

Вообще имеет смысл сжимать не только изображения, но даже исполняемые файлы. Операция считывания с жесткого диска занимает в разы больше времени, чем распаковка более менее современным процессором в памяти.

Вот цитата из вики про UPX:

Цитата:

Самое весомое и неоспоримое преимущество — ускорение считывания и запуск сжатых файлов с носителей информации, а также высвобождение дополнительного свободного пространства на внешних накопителях. К сожалению, на сегодняшний день все внешние накопители информации по-прежнему остаются самыми медленными узлами современных вычислительных систем, «тормозящими» быстродействие системы в целом, как и на заре вычислительных технологий. Поэтому нельзя не оценить эффект, возникающий при системном применении упаковщиков исполняемых файлов, таких как UPX. Вычислительная система затрачивает значительно меньше времени на считывание и распаковку сжатого файла в оперативной памяти, нежели на простое считывание этого же неупакованного файла (при считывании с внешнего накопителя время, затрачиваемое на операцию, исчисляется миллисекундами, а время на обработку данных в оперативной памяти — микро- и наносекундами).

Я лично проверял работу несжатых и сжатых LZW цветных тиффах 600 DPI. (HDD, мобильный Core i5)
Пакетная обработка (одно и тоже простое действие, одни и те же изображения) в фотошопе несжатых изображений заняла более 2х часов, а сжатых LZW 20 минут. Именно операция простого открытия замедляла работу в первом случае, и жесткий диск вертело практически непрерывно.

Вы легко можете это проверить. Берете цветной скан 300DPI - апсемплите допустим до 1200 DPI, один сохраняете несжатым, другой сжимаете LZW или ZIP. И смотрите, сколько времени будет открываться первый и второй. Можно накопировать каждый по 10 копий, и открывать разом, чтоб увеличить эффект и снизить погрешность измерений.

Это незаметно, если файл маленький, допустим 300 DPI. Но при пакетной обработке, когда таких файлов много, разница в скорости открытия станет заметна и тут.
Не забывать, что все зависит от железа: на очень старых процессорах разницы может и не быть, а то и наоборот.

Автор: 4lex4
Дата сообщения: 16.06.2016 19:58

papaVlad, вообще ничего не понял. Объясните понятно и подробно.
hogu77, сделаю и кину сам профиль, пойдет? Главное не забывать апсемплить до 600 дпи перед подачей в инкодер, чтоб буквы были гладкие и ровные.

Автор: hogu77
Дата сообщения: 16.06.2016 22:03

Цитата:

4lex4
<...> сделаю и кину сам профиль, пойдет?

Спасибо.

Цитата:

Главное не забывать апсемплить до 600 дпи перед подачей в инкодер, чтоб буквы были гладкие и ровные.

Разрешение 600 dpi должно быть в свойствах файлов-сканов идущих в кодирование или так же с учётом какого то «среднего» значения ширины/высоты картинки? Пример.
Т.е. были в оригинале такие значения:

... должны быть такие?

Оригинальный файл:

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61

Предыдущая тема: CmCkA v4

Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.