Ru-Board.club
← Вернуться в раздел «Программы»

» ScanKromsator СканКромсатор (Часть 2)

Автор: kontiky
Дата сообщения: 06.08.2008 19:33
Arcand
ghosty
ALL

Цитата:
Предлагаю компромисс - хорошо делать книги в 600 дпи, и нет проблемс

Предлагаю небольшое соревнование - кто сделает лучше и компактнее

Вот два моих типичных - оптикбуковских - скана 300dpi gray (около 5Мб в архиве).
А вот что у меня получается после их обработки в sk (эти же картинки после обработки в 600dpi bw + djvu файл).

Вот команда, что применялась для получения djvu:
Код: documenttodjvu --jb2-format=bitonal --aggressive --threshold-level=100 --shape-filter-level=100 --pix-filter-level=100 --inversion-level=0 --pages-per-dict=5 --filelist=fl.txt result.djvu
Автор: monday2000
Дата сообщения: 07.08.2008 07:57
Arcand

Цитата:
исходник программы pnmtodjvurle

Большое спасибо! А чем он отличается от оригинала? И как регулировать количество цветов на выходе? (т.е. от 0 до 4080 - допустим, я хочу получить 256 цветов на выходе, а может быть, и 512 - и так до 4080 любое число на выбор - как этого достичь?)

Кстати, на Вашем сайте (в корне) многие ссылки - битые.
Автор: bolega
Дата сообщения: 07.08.2008 07:59
kontiky

Цитата:
Предлагаю небольшое соревнование

Два скана абсолютно ни о чем не скажут, т.к. djvu-словарь (а в нем вся соль хорошего сжатия) еще не работает на полную силу. Да и pages-per-dict=5 - слабовато
Автор: monday2000
Дата сообщения: 07.08.2008 08:06
Сделал зеркало:

http://www.djvu-soft.narod.ru/scan/pnmtodjvurle_src.rar

Обе эти ссылки (на исходник) теперь доступны со страницы http://www.djvu-soft.narod.ru/scan/ в группе "Информация от Arcand".

Добавлено:
trigliff

Цитата:
Это догадка или факт? Если факт, то пожалуйста пример на обозрение.

Вот пример 400 - 600 (300 у меня нет, а сделать пока не могу из-за сломанного сканера).

http://rapidshare.com/files/135454323/400_600.rar.html (1,31 МБ)

Добавлено:
Я предлагаю ввести новый термин:

SAS-апсемплинг - т.е. "ScanAndShare upsampling", sas-upsample и т.п.

Пусть под этим термином понимается следующее:

"Повышающий ресемплинг в СканКромсаторе с 300 dpi grey до 600 dpi grey с одновременным применением Blur + Sharpen". (Т.е. в точности так, как описано в ScanAndShare).

Я опять возвращаюсь к тому же вопросу: хорошо, согласимся с тем, что на выходе всегда и везде нужно иметь 600 dpi, а не 300. Сейчас это достигается только и исключительно при помощи sas-апсемплинга. Но результирующий DjVu-файл возрастает примерно в 2 раза.

Вопрос: чем ещё именно, какими обработками и в какой программе нужно дополнить sas-апсемплинг, чтобы снизить размер результирующего DjVu-файла? Может быть, делать перед sas-апсемплингом какое-нибудь размытие в Corel PHOTO-PAINT? Или что-то иное? Нужна новая методика - в дополнение к sas-апсемплингу (т.е. применяемая перед ним, по-видимому). У кого-нибудь есть конкретные идеи? Пусть для начала хотя бы даже с применением Corel PHOTO-PAINT (несмотря на его явную малопопулярность). Или же на Матлабе тоже неплохо (потому что оттуда можно выдрать исходники нужных функций).

Увеличение размера в 2 раза - это же ни в какие ворота. Надо бы снизить хотя бы с 2 раз до 1,5 раз. Что же делать с этой проблемой?
Автор: kontiky
Дата сообщения: 07.08.2008 08:42
bolega

Цитата:
Да и pages-per-dict=5 - слабовато

Это для примера. Обычно я ставлю 1000

Добавлено:
monday2000

Цитата:
Увеличение размера в 2 раза - это же ни в какие ворота.

Ну вот мой исходный вопрос именно как раз про это. Возможно, нужный результат даст правильная настройка параметров sk на складке Quality. Вот здесь интересная методика от Arcand. К сожалению, она достаточно трудоемкая.
Автор: VadimirTT
Дата сообщения: 07.08.2008 08:58
Блин, откройте доступ для monday2000 в топик по сканированию!

По моему, никакой даунсемплинг не поможет получить удобоваримые результаты, для этого можно повторить эксперимент с преобразованием векторного пдф (т.е. абстрагируемся от "искусства" обработки сканов), если выгнать его в тифы в 600, то в результате получим неотличимый от оригинала результат, если пытаться сделать из него 300, то результат сразу же не радует, по крайне мере после того как я это сделал (на предыдущих страницах выкладывал), может кто сможет сделать это более качествеенно, а уж если нет, то и споров должно стать меньше.
Автор: kontiky
Дата сообщения: 07.08.2008 09:18
VadimirTT
Небольшая просьба к вам: сделайте в Pdf варианте вашего руководства, в начальном разделе оглавления, так, что бы при клике мышкой на номер страницы можно было бы сразу перейти на нужный раздел ScanAndShare, а не долго и нудно пролистывать, как это происходит сейчас.
Автор: VadimirTT
Дата сообщения: 07.08.2008 09:24
kontiky
да я и не знаю, если честно, как в пдф оглавление делать, я уже выкладывал пару раз "исходник" инструкции, так что можно довести до ума, кстати, был сделан перевод на английский, так вот там are сделал всё просто замечательно.
Автор: monday2000
Дата сообщения: 07.08.2008 09:29
VadimirTT

Цитата:
как в пдф оглавление делать

http://www.djvu-soft.narod.ru/scan/ebook_navigation_how_to.rar
Автор: Arcand
Дата сообщения: 07.08.2008 09:45
kontiky
Уже и так хорошо. Могу сделать поменьше размером. К сожалению, более гладкий и чуть более жирненький вариант (который мне больше по вкусу) по размеру получается больше Вашего.

monday2000

Цитата:
А чем он отличается от оригинала?
В netpbm утилиты с названием pnmtodjvurle вроде бы нет. Есть pbmtodjvurle (bw), pgmtodjvurle (gray), ppmtodjvurle (color) и pаmtodjvurle (любой?, не помню). pnmtodjvurle (any) - взял за основу pаmtodjvurle от manfred (которая работает только с color), добавил восможность работы с gray и bw.

Цитата:
допустим, я хочу получить 256 цветов на выходе, а может быть, и 512 - и так до 4080 любое число на выбор - как этого достичь?
В netpbm есть соответствующая утилита, но я ей не пользуюсь. Сканы при необходимости преобразую в Корел в палитры с нужным количеством цветов и подходящим методом преобразования, потом обратно в RGB 24bit (все можно сделать в пакетном режиме).

Цитата:
Кстати, на Вашем сайте (в корне) многие ссылки - битые.
Это игры почты.ру. Не дает качать архивы. Если изменить zip->ZIP (rar->RAR) все будет качаться. Я поправил расширения.

По поводу сглаживания.
Надо иметь ввиду, что одинаковые по сути фильтры в разных программах имеют отличия в результате. Поэтому, о сглаживании приходится говорить отдельно для каждой проги.
Для Корел сказано в CorelScan.
В СК, насколько я понимаю, сглаживание делает Blur + Sharpen. Хотя, можно попробовать и другие комбинации (и интенсивности).
Если говорить в общем смысле, то сглаживание я делаю так (названия фильтров условные). После ресемплинга и возможно тоновой коррекции применяется сглаживание. Это размытие, но в большей степени вдоль контура (поперек интенсивность размытия должна быть меньше). Потом контурная резкость - резкость контуров должна повышаться больше, чем в малоконтрастных областях. И в заключение, сглаживание - позволяет при последующей бинаризации изменять жирность и гладкость.
Автор: monday2000
Дата сообщения: 07.08.2008 09:52
kontiky

Цитата:
Вот здесь интересная методика от Arcand.

Спасибо. Я уже успел забыть, что эта методика у меня же записана тут:

http://www.djvu-soft.narod.ru/scan/scan_sovety.htm

Кстати, методика, изложенная в том посте, что Вы мне привели - уже устарела - т.к.она использует Растерид. А Arcand ведь уже давно отказался от Растерид в пользу Corel PHOTO-PAINT (ради лучшего качества). И эта обновлённая методика (без Растерид) и изложена у меня на http://www.djvu-soft.narod.ru/scan/scan_sovety.htm . Кстати, она здорово напоминает изложенное в http://abab.front.ru/CorelScan.RAR - не пойму - это одно и то же или нет?

Arcand, разъясните, пожалуйста, где есть что (в этих Ваших материалах). Нельзя ли как-то соединить воедино всё, о чём было сказано в этом посте, в http://www.djvu-soft.narod.ru/scan/scan_sovety.htm и в http://abab.front.ru/CorelScan.RAR ?

Т.е. не могли бы Вы немного расширить http://abab.front.ru/CorelScan.RAR пояснениями-комментариями, взятыми из Ваших старых постов? Чтобы получилось некое мини-ScanAndShare-2 из всех этих Ваших материалов.
Автор: Arcand
Дата сообщения: 07.08.2008 10:09
monday2000

Цитата:
это одно и то же или нет?
Не совсем. Я постоянно диффундирую Последняя это CorelScan. Вот и сейчас, я увидел некоторые негативные (для сжатия дежавю) последствия применения Автокоррекции. Буду думать

Цитата:
Т.е. не могли бы Вы немного расширить
Э... надеюсь сделать, когда все белее менее устаканится и будет время
Автор: monday2000
Дата сообщения: 07.08.2008 10:12
Arcand

Цитата:
Для Корел сказано в CorelScan.
В СК, насколько я понимаю, сглаживание делает Blur + Sharpen. Хотя, можно попробовать и другие комбинации (и интенсивности).

Получается, что Ваша методика исключает sas-апсемплинг, не так ли? И, как я понимаю, даёт лучше результат? Интересно было бы сравнить на одних и тех же сканах CorelScan и sas-апсемплинг - посмотреть на качество и размер результирующих 600dpi ЧБ DjVu-файлов.
Автор: kontiky
Дата сообщения: 07.08.2008 10:23
monday2000

Цитата:
sas-апсемплинг

Я бы под этим термином подразумевал такой апсамплинг, который удаеться сделать только силами sk, а не просто
Цитата:
...с 300 dpi grey до 600 dpi grey с одновременным применением Blur + Sharpen.

Можно же еще играться параметрами Quality->Gray enhance...
Автор: Arcand
Дата сообщения: 07.08.2008 10:34
monday2000
У меня уже начинает ехать крыша , что-то я не понимаю Ваших мыслей . Зачем выдумывать термин sas-апсемплинг? По моему представлению, в СК ресемплинг, Blur и Sharpen выполняются последовательно. В какой именно, могу только догадываться.
Автор: monday2000
Дата сообщения: 07.08.2008 10:49
kontiky

Цитата:
Я бы под этим термином подразумевал такой апсамплинг, который удаеться сделать только силами sk,

Да-да, совершенно верно, я именно это и имею в виду.
Arcand

Цитата:
что-то я не понимаю Ваших мыслей

Я хотел сказать следующее: если обрабатывать книги по ScanAndShare - или же по СorelScan - то что лучше? В смысле, какой из этих 2 методов даёт наименьший размер результирующих 600dpi ЧБ DjVu-файлов? ScanAndShare и СorelScan - это взаимоисключающие методики в плане улучшения grey-сканов (что и определяет размер итогового DjVu-600) или же их можно в этом отношении сочетать как-то воедино? (Как я понял - взаимоисключающие (именно в этом отношении)).

Цитата:
Зачем выдумывать термин sas-апсемплинг?

Просто для удобства - чтобы не повторять каждый раз фразу: "тот апсемплинг, который делается посредством sk - с 300 dpi grey до 600 dpi grey с одновременным применением (сканкромсаторных) Blur + Sharpen - о чём подробно рассказано в ScanAndShare." Ведь об этом апсемплинге говорится в ScanAndShare - потому-то он для нас так важен, что ему для удобства можно дать свой термин. Наверняка ведь многие люди делают книги по ScanAndShare.

Добавлено:
Есть ли возможность делать в СК 5.91 такие же обработки по улучшению grey-сканов, о которых говорится в СorelScan? Или же sas-апсемплинг - потолок того, что можно выжать из СК 5.91 в плане улучшения grey-сканов (исключительно ради снижения размеров итогового DjVu-600 - но не в ущерб качеству, естественно).
Автор: Olive77
Дата сообщения: 07.08.2008 12:33
ghosty

Цитата:
Добавьте в documenttodjvu.conf следующие профили:Подробнее... [?]
Попробуйте использовать профиль "600 with images" ("Cover" используется для обложек). Если и в этом случае качество фоток не будет устраивать, то придется осваивать метод раздельного кодирования.


а можно ли это также в Editore (Light Edition) использовать?

Простое копирование в documenttodjvu.conf ни к чему не приводит.
Автор: ghosty
Дата сообщения: 07.08.2008 12:42
Olive77

Цитата:
а можно ли это также в Editore (Light Edition) использовать?
Не знаю, никогда не пробовал использовать профили в едиторе.

Давайте все же оффтоп плавно перенесить в соседнюю ветку
Автор: Diode2003
Дата сообщения: 07.08.2008 14:20
ghosty
All


Цитата:
В общем, еще раз:
В 95% случаев рекомендуется 300 Grey -> 600 BW
Есть случаи, когда приходится делать 600 Grey -> 600 BW
И есть случаи, когда вполне хватает 300 Grey -> 300 BW


Раз уж здесь небольшой офтоп прошел, то рискну спросить авторитетного мнения: в каком разрешении лучше сканировать (если нет никаких ограничивающих соображений, в т.ч. качество оригинала): 300 Grey ИЛИ 600 B&W?

(Вопрос связан с тем, что на работе поставили копир с автоподачей, который умеет шустро сканировать в CCIT4 TIF. 600 дпи ч/б его не замедляет совсем, а серый режим он не знает - только полный цвет с jpeg компрессией.) Не вполне офтоп, т.к. это относится к обработке в СК (особенно на предмет deskew - ему вроде с серыми страницами полегче?). Ну, и само собой - к последующему перегону в djvu. Вопрос задан в предположении, что на выходе СК после всего кромсания и чистки файлы конвертируются в 600 B&W.

ghosty
P.S. Инструкция отличная! Мне кажется, можно смело ставить в шапку.
Автор: ghosty
Дата сообщения: 07.08.2008 14:58
Diode2003

Цитата:
300 Grey ИЛИ 600 B&W?
Однозначно 300 Grey лучше 600BW - проверено! До 90% всей обработки изображения производится в полутоновом режиме.
Т.е. если брать СК, то в случае обработки BW-изображений он будет выполнять роль только кромсатора (с маленькой буквы ).

Какой бы пример привести... Ну вот представьте себе, что у Вас есть чертеж сложной детали в трех проекциях - представьте ее себе в ACADе. А потом Вы зачем-то берете, и делаете некое сечение просто от фонаря и это сечение сохраняете как чертеж. При этом Вы считаете, что человек, для которого этот чертеж предназначен, вполне способен по сечению восстановить всю деталь (возможно Вы преследуете цель "сжатия информации"). Иногда это действительно будет возможно, но чаще всего (особенно если деталь сложная) бОльшая часть информации будет утеряна.
То же самое и со сканированием в режиме BW. Ведь в этом случае либо Вы сами выставляете порог бинаризации - один для всей сканируемой книги (спрашивается, а как Вы могли его определить, если не видели сканов всех страниц), либо в особо продвинутых случаях он выставляется автоматически. Но в обоих случаях мы получаем все то же "сечение": часть элементов символов, которые были значительно бледнее остальных будут просто отфильтрованы, т.е. пропадут; а вот мусор, различные пятна которые по яркости отличались от основного текста, и которые в полутоновом режиме можно было бы запросто отфильтровать, наоборот станут черными.
Вот, надеюсь, доходчиво объяснил
Автор: Diode2003
Дата сообщения: 07.08.2008 15:19
ghosty
ЗдОрово, спасибо большое! Объяснение действительно доходчивое. Придется теперь думать есть ли какой-то толк от нового скоростного сканера на работе. Можно сканировать в цвете, а потом перегонять в серый, но помимо огромных размеров файлов - довольно ощутимы артефакты
jpeg компрессии. Не доработали ребята в Xerox'e.
Автор: VadimirTT
Дата сообщения: 07.08.2008 16:12
Diode2003

Цитата:
копир с автоподачей

это подразумевает, что книга разодранна, т.е. грязи у разворота не будет, так что, скорее всего, по моему, можно смело гнать в 600 ч/б, впрочем, эксперимент покажет, а так, как по мне, качество самих букв, примерно не зависит от пути к 600 (но я не эстетствую как ghosty или Arcand), просто сканирование в сером позволяет избавляться от грязи автоматом.
Автор: ghosty
Дата сообщения: 07.08.2008 16:45
VadimirTT
Я не эстетствую, а утверждаю на основании опыта, который у меня был. 5 томов энциклопедии были расшиты и скормлены именно такому сканеру в 600dpi BW. Получилась полная фигня, пришлось пересканировать в 300dpi Grey
И дело не в наличии/отсутствии тени возле корешка, а в пропадании элементов символов (перемычек) на одних страницах и проявлении большого кол-ва мусора на других...

Опять-таки все зависит от оригинала: если очень крупный шрифт на мелованной бумаге без переплета (в расшитом виде) - хоть в 300BW можно сканировать.

Добавлено:
Обновил "сборку", добавив еще один профиль - теперь для старых книг. От профиля по умолчанию он отличается тем, что увеличена сила коррекции освещенности (Ill.Corr.). Это связано с тем, что в старых книгах довольно много проблем, связанных с неравномерностью фона (мятая, покоробленная бумага, пятна и т.п.). Завышенный параметр компенсируется, с одной стороны, включенной автокоррекцией, а, с другой, - отключением стандартных фильтров Blur/Sharpen и включением более щадящих и аккуратных Gauss Blur/Enhance Contour.

В этом профиле уже 2 основных параметра, с которых можно начать настройку при работе со старой книгой:
1. Порог бинаризации (о котором уже говорилось);
2. Коррекция освещенности (Quality->Grey Enhance->Illumination). Очень хороший метод отделения текста от неравномерного фона. Но использовать его нужно осторожно. Начинать лучше с метода Normal. К примеру, метод Safe, несмотря на названия, позволяет сохранять больше мелких деталей символов, но может оказаться довольно "коварным" - если блок текста примыкает к краю страницы (часто случается на OpticBook), то часть текста близко от края может исчезнуть (т.н. "краевой эффект").

Профиль опробован мной на большом количестве старых книг. И не так давно bolega говорил, что для старых книг использует подобный набор опций, поэтому я спокоен
Не стоит забывать, однако, что старые книги требуют индивидуального подхода, и профиль - лишь общее "руководство к действию". Начнете с двух параметров, в конце концов, разберетесь со всеми

Собственно "сборка": http://rapidshare.com/files/135566411/Kromsator_ghosty.rar.html
Автор: shch_vg
Дата сообщения: 07.08.2008 20:29
ghosty
Два вопроса по Вашим сборкам:
1. Есть ли смысл каждый раз выкладывать полную сборку, изменив в ней несколько байтов(килобайтов)?
2. Нашел в первой сборке файл Zones.txt, а в нем такие слова "Загрузите задание _test_2.spt", и теперь думаю, как это сделать - где его взять?
Автор: ghosty
Дата сообщения: 07.08.2008 21:47
shch_vg

Цитата:
1. Есть ли смысл каждый раз выкладывать полную сборку, изменив в ней несколько байтов(килобайтов)?
Да не так уж часто я буду что-либо в ней менять...

Цитата:
2. Нашел в первой сборке файл Zones.txt, а в нем такие слова "Загрузите задание _test_2.spt", и теперь думаю, как это сделать - где его взять?
Я тоже думаю, где взять Офсайт приказал долго жить...
Автор: VadimirTT
Дата сообщения: 08.08.2008 08:29
о5 25 или 300 vs 600
на том что у меня завалялось (из сырых сканов) провел эксперимент, в целом, получилось что 300 меньше 600 примерно в 2,5 раза, это без учета ОЦР, с текстовым слоем как раз и получается среднестатистическое отличие в 2 раза.
статистика тут
[more]
101 вопрос, который задала бы ваша кошка своему ветеринару, если бы умела говорить
(плохая бумага, много контурных рисунков)
240 с.
1 020 324 (300 дпи)
3 116 255 (600 дпи)
отношение 3,1

Гидропривод и гидропневмоавтоматика
(обычная техкнига, но получилась хреново, слишком большой размер, широкоформатная)
320 с.
3 364 538
7 606 631
2,26

Марсианский проект С.П. Королёва
(отличная печать, вариант без цветных фото, широкий формат)
200 с.
1 210 453
2 842 390
2,35

Плоский живот за 15 минут в день
(фиговая бумага, много ч/б фото)
112 с.
583 826
1 398 196
2,4

Ракеты-носители и космодромы
(отличное качество, много цветных фото, широкий формат)
216 с.
3 355 776
28 871 958
8,6
Гы! Понедельник прав, ну его нафиг этот 600 дпи .

Скульптурирующий массаж
(фиговая бумага, много ч/б фото)
224 с.
1 423 018
3 384 921
2,38

Справочник Китаиста
(фиговая бумага, китайский язык )
221 с.
1 073 748
2 397 983
2,23

Теория авиационных и газовых турбин
(книга, просто книга)
216 с.
1 503 502
3 489 635
2,32

Термодинамические и теплофизические свойства продуктов сгорания. Том 1.
(широкий формат, мелкий текст, 1971 г.)
267 стр.
3 235 927
6 321 327
1,95

Частотные методы идентификации летательных аппаратов
(книга, просто книга)
184 с
1 366 969
2 993 804
2,19

[/more]
Автор: kontiky
Дата сообщения: 08.08.2008 08:36
VadimirTT
У меня, кстати, на чисто текстовых сканах получаеться примерно похожая цифра.
Свои же текущие 600 дпишные djvu по 4Мб я думаю переделать ухудшив качество обложки и страниц с фотографиями - на этом думаю сэкономить минимум 500Кб на книжку.
Автор: bolega
Дата сообщения: 08.08.2008 09:13
kontiky

Цитата:
ухудшив качество

Делаете ведь и для себя тоже? Тогда это называется мазохизм, "пусть мне будет хуже", зато на 10 книгах выиграю аж 5 мегабайт. И ничего, что фотографии будут выглядеть как будто на них смотрит человек со зрением +5, забывший надеть очки

Добавлено:
Убедительная просьба, перенести обсуждения преимущества 300dpi в другой топик.

VadimirTT,monday2000
Убедили, пошел выкидывать из кромсатора из списка dpi значения 600 и twice
Автор: VovIK
Дата сообщения: 08.08.2008 09:40
kontiky

Цитата:
думаю сэкономить минимум 500Кб на книжку
и не ломает Вас переделывать книгу из-за каких-то мизерных 500 Кб


это уже даже не смешно, а грусно
Автор: kontiky
Дата сообщения: 08.08.2008 10:38
bolega

Цитата:
Делаете ведь и для себя тоже? Тогда это называется мазохизм, "пусть мне будет хуже", зато на 10 книгах выиграю аж 5 мегабайт.

Речь не идет о том, что вы имеете ввиду. Я говорю не о занижении качества изображния, а об усиление степени сжатия, до появления видимых артефактов
VovIK

Цитата:
и не ломает Вас переделывать книгу из-за каких-то мизерных 500 Кб

"А десять старушек - уже рубль"
Нет, не ломает, т.к. у меня сборка книг сделана скриптом - достаточно только поменять одну цифру и запустить скрипт - вот и вся работа. Так что не грустите

Страницы: 12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758596061626364656667686970

Предыдущая тема: MoleskinSoft Clone Remover


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.