» ScanKromsator СканКромсатор (Часть 2)

Автор: Torino
Дата сообщения: 12.10.2008 09:19

Можно: на вкладке Files нужно выставить Output format любой полноцветный, Color = Original. На вкладке Quality снять галочку Enhance image.

Автор: LoonyK
Дата сообщения: 12.10.2008 10:00

Большое спасибо за отличную программу и совет!
Все получилось

Автор: shch_vg
Дата сообщения: 12.10.2008 20:21

Melirius

Цитата:

Можете попробовать мою систему

А где ее можно найти?

Автор: vitaly1
Дата сообщения: 12.10.2008 22:51

shch_vg
http://forum.ru-board.com:9000/topic.cgi?forum=93&topic=1624&start=1280#17

Автор: monday2000
Дата сообщения: 13.10.2008 11:25

Я написал инструкцию:

Использование DjVu Sep

http://www.djvu-soft.narod.ru/scan/djvu_sep.htm

Линк на статью добавлен в http://www.djvu-soft.narod.ru/scan/123.htm и в http://www.djvu-soft.narod.ru/basic.htm .

Ссылка на DjVu Sep v1.0 добавлена в http://www.djvu-soft.narod.ru/basic.htm .

Автор: DmitryKz
Дата сообщения: 13.10.2008 11:56

monday2000
У Вас здесь теперь What's new Вашего сайта располагается?

Автор: Torino
Дата сообщения: 13.10.2008 12:15

bolega

Подскажите пожалуйста можно ли в SK отрегуриловать точность позиционирования курсора над резаками?
Поясню: для того, чтобы резак оказался "в фокусе" курсора, курсор необходимо достаточно точно позиционировать над резаком.
Есть ли возможность указать в SK, что резак оказался в фокусе, при подведении курсора на 10 px (20, 30 и т.д.) ?

Автор: monday2000
Дата сообщения: 13.10.2008 16:06

DmitryKz

Цитата:

У Вас здесь теперь What's new Вашего сайта располагается?

Там, где надо, там и располагается.

Автор: monday2000
Дата сообщения: 17.10.2008 14:08

bolega
В СК есть PDF-импорт. Сейчас попробовал это - из векторного PDF-файла надёргались картинки и загрузились в СК.
Интересно, можно ли сделать в СК полноценную конверсию PDF->Tif? Или это слижком уж тяжко? А то, как ни странно, нет такого простейшего, бесплатного, и работающего под Win98 инструмента для такой цели.

Автор: Torino
Дата сообщения: 17.10.2008 16:17

Цитата:

можно ли сделать в СК полноценную конверсию PDF->Tif

Раньше писали, что SK не работает с векторными PDF.

Можно Acrobat Professional'om сохранить в tiff и открывать SK.

Автор: monday2000
Дата сообщения: 20.10.2008 08:32

Torino

Цитата:

Можно Acrobat Professional'om сохранить в tiff и открывать SK.

Всё, я уже нашёл: Irfan View 4.20 + Irfan View Postscript plugin + AFPL GhostScript 8.54

Автор: monday2000
Дата сообщения: 21.10.2008 16:55

bolega
Никто не может мне ответить на следующее:
1. Содержит ли PDF-файл информацию о своём DPI?
2. Содержит ли PDF-файл информацию о своей глубине цвета?

Я знаю, что, например, в TIF-файле, всё это сидит в заголовке. А в PDF-файле (в общем случае)?

И как же тогда программы-декодировщики автоматически определяют DPI и глубину цвета при декодировании PDF-> TIF?

Автор: bolega
Дата сообщения: 21.10.2008 17:09

Цитата:

Содержит ли PDF-файл информацию о своём DPI?

Нет, т.к. она ему не нужна

Цитата:

Содержит ли PDF-файл информацию о своей глубине цвета?

Да, явно указывается.

Автор: shch_vg
Дата сообщения: 21.10.2008 22:27

bolega

Цитата:

Цитата:Содержит ли PDF-файл информацию о своём DPI?
Нет, т.к. она ему не нужна

А как тогда Ваша программа определяет DPI отдельных сканов, по линейным размерам скана?

Автор: monday2000
Дата сообщения: 22.10.2008 08:45

bolega
Спасибо, очень полезно. Я вот специально посмотрел в Adobe Acrobat 5 - там стоит автоопределение и глубины цвета, и DPI тоже. Как же он может вычислять DPI? Я какой-то вeкторный pdf декодировал - Акробат проставил 144 DPI в тифе.

Добавлено:

Цитата:

А как тогда Ваша программа определяет DPI отдельных сканов, по линейным размерам скана?

Наверное, нужно спросить - а есть ли вообще хоть какой-то способ определения реального DPI (скажем, в TIF-файле)? И вообще - не слишком-то понятно - зачем любой программе по работе с растровой графикой нужно значение DPI, что она с ним делает? Алгоритмы работают ведь напрямую с пикселями - они же не затрагивают никак DPI.

Как я себе представляю, DPI используется для вычисления абстракции, именуемой "линейные размеры скана". Вероятно, это нужно, чтобы определить, сколько реальных пикселей нужно втиснуть в один мониторный пиксель (то же самое при сканировании). В СК разнобойные DPI порождают "четвертушечные" сканы (хотя мне вот неясен детальный механизм этой проблемы).

Т.е. DPI - это абстрактный параметр любого скана, реальные параметры - это размеры в пикселях и глубина цвета.

Автор: shch_vg
Дата сообщения: 22.10.2008 10:28

Не вдаваясь в терминологические споры, хочу сказать следующее:
в ScanKromsator'е установки делаются по DPI, а после разбора PDF-файла в SK по каждому скану сообщается его DPI. В связи с этим и был мой вопрос - если в PDF нет информации по DPI, то значит в SK она определяется через какие-то параметры, я предположил, что через линейные размеры скана.
Мою догадку подтверждает тот факт, что программа разборки PDF-файлов, которой я пользуюсь в случае, если SK не может обработать PDF-файл, и которая называется Ap PDF to TIFF, вообще не заморачивается определением DPI, а предлагает установить нужное DPI в настройках программы перед ее запуском на разборку.
Минус такого подхода очевиден: если я потом хочу обработать эти сканы в SK, то все равно должен по линейным размерам сканов узнать DPI для простановки его в SK.
И последнее: определение DPI по линейным размерам скана - вещь ненадежная, т.к. у каждой книги свои размеры, и как быть в случае работы с миникнигой?

Автор: bolega
Дата сообщения: 22.10.2008 11:54

monday2000

Цитата:

DPI - это абстрактный параметр любого скана

На самом деле dpi - это очень важный параметр.
Представьте, что делаете pdf из сканов с разными dpi. Возьмем такой случай: заказчик потребовал, чтобы страницы pdf были одного размера (логично), пусть A4. Вы таким образом знаете размеры страницы в дюймах (в верстке нет понятия точек, они как раз ни о чем не говорят). Как будете располагать сканы на странице A4? У вас только ширина сканов в точках, а книга меряется в мм. Как сопоставить скан и страницу pdf? Разместить его, растянув по всей странице? А может в четверть? А что правильнее? Наверное, правильно так, когда физические размеры в pdf и в оригинале книги одинаковы (т.е. если распечатать страницу и положитьее на книгу-оригинал, то содержимое должно совпасть). Вот тут и нужен dpi, который позволит расчитать размеры скана в настоящих мм и правильно поместить его на страницу (т.е. покрыть сканом определенную область страницы, а не как попало), обеспечив тем самым пропорцию отображения 1:1. Т.е. dpi описывает не только качество скана, но и его метрику.

shch_vg

Цитата:

Мою догадку подтверждает тот факт

Я ведь как-то описывал, как SK определяет dpi из pdf.

Цитата:

и которая называется Ap PDF to TIFF, вообще не заморачивается определением DPI, а предлагает установить нужное DPI в настройках программы перед ее запуском на разборку

Все программы потрошения pdf делятся на 2 категории: те, которые извлекают из него изображения в исходном виде, и те, которые просто рисуют их. В последнем случае нет никаких отличий между программой и самим Acrobat, кроме того, что первые рисуют на канву и потом сохраняют ее в файл, а Acrobat рисует на экран или на принтер. В любом случае чтобы нарисовать нужно знать с каким качеством это сделать, т.е. как перенести страницу pdf (или ее графическую часть), для которой известны только размеры в дюймах, на канву, для которой, наоборот, могут быть заданы только размеры в пикселях. Причем, чем больше задать размеры, тем выше будет качество отрисовки. Именно поэтому программы и спрашивают у пользователя dpi, кот. выступает просто коэффициентом для такого мапирования. С таким же успехом можно вместо dpi спрашивать непосредственные размеры в пикселях, но это не очень удобно. Acrobat не спрашивает, т.к. dpi того, куда рисуется (т.е. dpi экрана и принтера), и так известно. Т.е. то dpi, которое спрашивает у Вас Ap PDF to TIFF, никакого отношения к реальному скану не имеет, если Вы ответите к примеру, 20000 dpi, то он действительно сделает рисунок с таким dpi, просто это будет что-то огромное и интерполированное. Отсюда следует вывод: если Вы неправильно ответите, то получите resample или наоборот downsample-картинку (возможно, с искажениями, вызванными этими алгоритмами) вместо истинного скана. Это все справедливо, если Ap PDF to TIFF относится ко 2-му типу.
Надеюсь, теперь понятно.

Автор: shch_vg
Дата сообщения: 22.10.2008 12:33

bolega

Цитата:

Я ведь как-то описывал, как SK определяет dpi из pdf.

Это искать в этой теме или в теме по сканированию?

Цитата:

Надеюсь, теперь понятно

В общих чертах понятно, но непонятно, что делать в конкретном случае.
Имею pdf, который хочу переделать в djvu, для этого его надо разобрать на тифы.
Запускаю импорт pdf в SK, если он проходит, все понятно. Но если Ваша программа отказывается разбирать pdf, то здесь и появляется большой вопрос - какое dpi указывать в программе Ap PDF to TIFF? Могу ли я быть уверен, что, указав 600 dpi и обработав в SK по дефолту, я получу примерно тот же результат по качеству, который я получил бы, отсканировав эту книгу в 300 dpi и обработав в SK с ресемплингом до 600 dpi?

Автор: bolega
Дата сообщения: 22.10.2008 13:44

shch_vg

Цитата:

Могу ли я быть уверен, что, указав 600 dpi и обработав в SK по дефолту, я получу примерно тот же результат по качеству

Это я не знаю, все зависит от качества ресэмплинга и того, используете ли Вы филтры в SK. Кроме того, если скан -b/w, то после извлечения его из pdf методом рисования он станет серым, при последующей конвертации в b/w качество может сильно ухудшиться.

Цитата:

Это искать в этой теме или в теме по сканированию?

Писал здесь, но когда - не помню.
Повторю еще раз. Самы простой случай: размер страницы в pdf задан равным размеру скана (это делается при создании pdf). Тогда dpi скана определяется делением ширины скана (в точках) на ширину страницы в дюймах (она показывается Acrobatom в левом нижнем углу). Оттягчающие обстоятельства: скан занимает только область pdf-страницы, скан слегка повернут (так делают многие МФУ с функцие сканирования в pdf), страница pdf имеет логический crop, т.е. обрезана. Все эти "тягости" сильно усложняют расчет dpi. Например, если скан занимает только часть страницы, то нужно определить какую. PDF к сожалению не содержит координат вершин своих изображений. Т.е. нельзя явно найти в нем, что, мол, верхний левый угол скана имеет коор-ту такую-то, а нижний правый - такую-то. Вместо этого есть матрица афинного преобразования (возможно даже, что их несколько, разбросанных в разных местах pdf, и их нужно все собрать в цепочку и перемножить, мне такие попадались), которая преобразует логические координаты изображения (они всегда равны 1.0 Х 1.0, т.е. единичный квадрат) в координаты pdf-страницы. Интересно, что ширина и высота изображения нигде явно не фигурирует, вместо этого используются zoom-составляющие упомянутой мною матрицы, которые и растягивают единичный квадрат в нужный прямоугольник на странице.

Автор: shch_vg
Дата сообщения: 22.10.2008 14:25

bolega

Цитата:

Это я не знаю, все зависит от качества ресэмплинга и того, используете ли Вы филтры в SK

Понятно, что возможны нюансы. Меня же интересует конкретный пример, с которым я столкнулся сегодня - книга Александера. SK 5.91 отказался его разбирать, в Ap PDF to TIFF я поставил DPI=300 и получил сканы 2615х2355, что чуть меньше, чем получалось у меня при сканировании в 300dpi книги стандартного формата.
Вправе я при обработке в SK поставить исходное DPI=300 и обрабатывать с ресемплингом в 600 или в качестве исходного лучше ставить какое-то другое?
Эта книга из серии "Penguin Books", т.е. возможно размеры книги несколько отличаются от стандартных.
Как Вы посоветуете поступать в таких случаях, тем более что формат книги как правило неизвестен, м.б. она исходно сделана в каком-либо миниформате?

Автор: bolega
Дата сообщения: 22.10.2008 14:40

Цитата:

Меня же интересует конкретный пример

Импортировал ее новым SK, все нормально. SK показывает 150dpi, что судя по всему, верно

Автор: monday2000
Дата сообщения: 22.10.2008 14:48

bolega

Цитата:

Все программы потрошения pdf делятся на 2 категории: те, которые извлекают из него изображения в исходном виде, и те, которые просто рисуют их.

Это непонятно. А СК к какому типу относится? Это же СК "извлекает изображения в исходном виде" - т.е., например, из ScanAndShare СК надёргает иллюстрации (ненужно) - а нужно ведь изображение каждой векторной PDF-страницы растеризовать и вывести в тиф.

Это только из чисто растрового PDF СК может надёргать сканы - и это будет то, что нужно.

Цитата:

Acrobat не спрашивает, т.к. dpi того, куда рисуется (т.е. dpi экрана и принтера), и так известно.

Но когда растеризованные изображения векторных PDF-страниц выводится в TIF-файлы - то Acrobat тоже DPI не спрашивает.

Автор: bolega
Дата сообщения: 22.10.2008 15:04

monday2000

Цитата:

А СК к какому типу относится?

К 1-му.

Цитата:

Но когда растеризованные изображения векторных PDF-страниц выводится в TIF-файлы - то Acrobat тоже DPI не спрашивает

Я знаю, и это плохо. Он не спрашивает, потому что использует какое-то значение по-умолчанию, и как мне кажется это или 150 или 200dpi. Точно не скажу, но когда пробовал, качество тифов мне очень не понравилось.

Кстати, я заметил одну вещь в Acrobate. В версии до 6.0 Acrobat извлекал битмапы (по клманде batch processing->extract images) по 1-му методу. Например, если на странице было 2 слоя, то извоекалось 2 файла с разными суффиксами. При этом, если на странице был текст, он игнорировался. Команда оправдывала свое название. 2-й метод тоже поддерживался, но по команде Save as... Наличие двух вариантов было очень удобно. Начиная с 7-й версии он по обоим командам стал извлекать только по 2-му методу, т.е. при наличии нескольких изображений на странице он их объединял в одно, и под размер своей страницы. Текст тоже рендерился. Т.е. исходные оригинальные версии изображений извлечь теперь с помощью него невозможно. Или я не прав?

Добавлено:
Кстати, для многих файлов (скан-pdf) единственным приемлимым вариантом является именно рисование. Обычно это файлы с многослойными jpg2000, и сделанные какими-то Canon-ми или похожими комбайнами. Там несколько слоев, по типу djvu-расслоения на маску и фон, но расслоение чудовищно кривое и жалкое. Sk хоть и извлекает их как зоны, но использовать их практически невозможно, т.к. там какая-то дикая смесь размыленных участков, кусков масок прозрачности и переднего слоя. Иногда черный текст вместо обычного jbig2 кодируются как инвертированная маска с заливкой, т.е. полная вывернутая ж.. Как так умудряются кодировать, я ума не приложу.

Автор: monday2000
Дата сообщения: 22.10.2008 15:45

bolega

Цитата:

качество тифов мне очень не понравилось.

Вот это да! Кто бы мог ожидать подобное от "родного" производителя...

Конечно, интересно декодирование именно 2 типа ("рисование").

По крайней мере, какое DPI лучше указывать при декодировании 2 типа - побольше или поменьше? Можно задавать какое-нибудь такое DPI (какое?), чтобы декодировать PDF с максимальным качеством - а потом пересемплировать в нужное DPI? Есть ли хоть какие-то ориентиры/рекомендации по выбору DPI? Предлагаю ставить всегда 300 DPI - чтобы голову себе не морочить.

Автор: bolega
Дата сообщения: 22.10.2008 15:53

Если файл векторный, то 600dpi будет смотреться идеально. Тут еще зависит от шрифтов, если буквы тонкие, то 300dpi думаю будут неважно смотреться

Автор: ghosty
Дата сообщения: 22.10.2008 16:10

bolega

Цитата:

Тут еще зависит от шрифтов, если буквы тонкие, то 300dpi, думаю, будут неважно смотреться

Такие шрифты можно ужирнять. Мне приходится в 120dpi перегонять для читалки - и то перемычки тонких шрифтов не пропадают...

Автор: monday2000
Дата сообщения: 22.10.2008 16:43

bolega

Цитата:

Если файл векторный, то 600dpi будет смотреться идеально.

Отлично. Давайте примем к использованию "всегда ставить 600 DPI" (при декодировании PDF->TIF).

Автор: VadimirTT
Дата сообщения: 22.10.2008 21:17

У меня есть некоторый опыт по дежавючиванию книг с гигапедиии, так, если это векторный пдф, то 600 это однозначно, результат аналогичен оригиналу, если это скан, то в большинстве случаев это 300 и повышать разрешение до 600 никакго смысла нет, результат также однозначно индентичен оригиналу, все это видно на глазок, ошибиться трудно, но а если попадается 150, то я даже и не связываюсь с этим, нефиг плодить какашку.

Автор: are
Дата сообщения: 22.10.2008 21:49

bolega
очень интересная информация об извлечении битмэпов из пдф с помощью акробата.
теперь стало понятно, откуда у людей косяки.

вообще-то это очень нетривиальная тема (спасибо разработчикам пдф за то, что делают нашу жизнь интересной)

типичная ситуация: человек отсканировал книгу в 300дпи, на выходе получил сразу пдф.
(драйвер сканера такой)
ну да ладно. Тогда человек взял акробат и сделал вручную crop на каждой странице, чтобы поровнее было.
получился огромный пдф. Затем с помощью ghostscript были извлечены битмэпы в 300dpi JPG. Ясно, что получилось в результате: жуткие артефакты из-за ресемплинга (crop сделал извлечение битмэпов по 2-му способу некорректным). Ну и лишний цвет из-за jpg.

кстати: может я уже спрашивал, - а что делает СК если на странице ПДФ файла находится комбинация нескольких растров в разных разрешениях? (например, ч-б текст и серая картинка.) Надо что-то растеризовать и как-то выбрать разрешение. Что делает СК в такой ситуации?

Автор: bolega
Дата сообщения: 23.10.2008 09:19

are

Цитата:

а что делает СК если на странице ПДФ файла находится комбинация нескольких растров в разных разрешениях? (например, ч-б текст и серая картинка.)

Текст становится основным сканом, а картинки SK располагает поверху как независимые зоны так же, как они располагались в pdf (SK поддерживает внешние зоны на исходном скане, при этом их цветность и dpi могут отличаться от самого скана). Если в pdf картинки содержали прозрачные области и заливки цветом, то Sk полностью воспроизводит их и в задании. Обработка внешних зон при кромсании практически ничем не отличается от внутренних зон (т.е. тех, которые образуются при кромсании путем вырезания из скана).

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70

Предыдущая тема: MoleskinSoft Clone Remover

Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.