Ru-Board.club
← Вернуться в раздел «Программы»

» ScanKromsator СканКромсатор (Часть 3)

Автор: Torino
Дата сообщения: 10.09.2011 18:24

Цитата:
Если в pdf много страниц разного размера, то можно ли их к-л способом автоматически выровнять?

У вас страницы сканированы с разным dpi.
Нужно привести к единому dpi, тогда и размер станет одинаковым.
Автор: Torino
Дата сообщения: 12.09.2011 13:20

Цитата:
Вот так устроит?

Олег опишите пожалуйста какие настройки вы использовали.
Автор: NAATH
Дата сообщения: 13.09.2011 22:43
- У вас страницы сканированы с разным dpi.

Везде 150dpi, просто размеры страниц - разные. С СК не получается - он вместо 80 стр стал вытягивать по 400 и более, почему-то. Я просто экспортировал рисунки 150dpi в отдельную папку и ImageResizer`om выровнял их, а потом сделал - нормальный PDF (+ выиграл около 100Мб, можно еще их сжать - PdfCompressor`om)

Думал - Кромсатором быстрее и проще получится.
Автор: shch_vg
Дата сообщения: 14.09.2011 01:06
NAATH
А Вы серьезно полагали, что по картинке в jpg можно понять, в каком состоянии находится pdf?

Цитата:
С СК не получается
А здесь Вы забыли добавить, что не получается у Вас .
Автор: NAATH
Дата сообщения: 14.09.2011 01:11
shch_vg 02:06 14-09-2011
Цитата:
Вы забыли добавить, что не получается у Вас

Это похоже на - бред! Конешно - у меня, у кого же еще, не у Вас же?! Я спрашивал, я пробовал, и меня и не получалось. Зачем это лишний раз уточнять-то?

shch_vg Специально для Вас - красными чернилами пишу: „У меня не получилось!“

Вот 3 странички разного размера - 1,4 Мб, если кому интересно попробовать: http://webfile.ru/5544810

Т.е. я сперва все сделал уже, как выше описывал, а потом подумал, раз у меня есть СК, - может им удобнее и проще это же самое будет сделать, потому и задал здесь, в этой ветке, этот вопрос.
Автор: shch_vg
Дата сообщения: 14.09.2011 17:32
NAATH
Не знаю, на бред это похоже или еще на что-нибудь, но из Вашего предыдущего сообщения я сначала понял, что СК не может это сделать в принципе.
Судя по вашему описанию ("вместо 80 стр стал вытягивать по 400 и более") это векторный пдф, на работу с этим типом пдф СК не рассчитан. Он работает только с растровыми пдф (хотя может вытащить из векторного хранящиеся в нем картинки; отсюда и может возникнуть большее количество сканов, извлеченных СК).
Однако выложенный Вами пример представляет собой растровый пдф, содержащий 3 страницы, и именно столько сканов вытаскивает СК. Если посмотреть эти сканы, то все они имеют dpi=150, что впрочем ничего не значит.
Просто СК нашел в пдф именно такое значение dpi по каждой странице.
Реально такое dpi имеют 1 и 3 страница (хотя их размеры в пикселях пусть и не на много, но различаются), а 2-я примерно в три раза большее.
С помощью СК я сделал пдф, в котором все три страницы имеют dpi=150 и абсолютно одинаковые линейные размеры. Этот пример можно посмотреть здесь.
Если судить по Вашему описанию процесса выравнивания страниц, то Ваш способ проще, чем с использованием СК.
Интересно, какой же был изначально размер пдф в 80 страниц, на котором удалось съэкономить около 100 мб.
А вообще я бы не рекомендовал особенно увлекаться сжатием в пдф цветных сканов, т.к. это может привести к заметному ухудшению их качества.

P.S. Не знаю другой такой программы кроме СК, которая способна указать, какие dpi прописаны в пдф по каждому хранящемуся в нем скану. Все ИЗВЕСТНЫЕ МНЕ программы, извлекающие сканы из пдф, требуют указать, с каким dpi нужно извлечь сканы.
Автор: NAATH
Дата сообщения: 14.09.2011 17:51
shch_vg 18:32 14-09-2011
Цитата:
Интересно, какой же был изначально размер пдф в 80 страниц, на котором удалось съэкономить около 100 мб.

Там было - около десятка таких файлов.

Цитата:
С помощью СК я сделал пдф, в котором все три страницы имеют dpi=150 и абсолютно одинаковые линейные размеры.

А - поделиться алгоритмом действий, если возможно, это может - будет многим интересно.
(Я это именно и хотел сделать, использовать одну программу СК - вместо трех, а если сжимать - то и четырех программ (это я называю - проще.)

Цитата:
что СК не может это сделать в принципе.

Если бы я так думал, то наверняка - не стал бы тут вопросы задавать.

Еще хотел спросить, есть ли возможность настроить СК, чтобы он - не громадные TIFF`ы из pdf`ок вытаскивал, а JPG или GIF?
Автор: shch_vg
Дата сообщения: 14.09.2011 18:59
NAATH

Цитата:
А - поделиться алгоритмом действий, если возможно

Возможно, только это займет много места.
После импорта имеем 3 скана, внизу слева по каждому скану видны размеры:
1236х1581, 3834х4948 и 1232х1588, причем у всех сканов dpi=150.
Т.к. книга детская, т.е. увеличенного формата, а также на основе своего опыта, думаю, что 1 и 3 сканы действительно имеют разрешение 150, а у второго она явно больше. Я выбрал за основу размеры первого скана и вычислил пропорции горизонтальных и вертикальных размеров второго и первого сканов. У меня получилось по горизонтали 3,1, а по вертикали 3,13. Умножил 150 на 3,1 и получил dpi=465.
Через Services->Correct DPI... проставил это значение во втором скане.
Сбросил и отмаркировал все файлы (крайняя правая из четырех пиктограмм внизу слева основного окна СК).
На закладке Page при нажатой клавише Ctrl поставил галочку в поле Automargins, а также, удерживая нажатой клавишу Ctrl, выбрал значение С в списках Page h.align и Page v.align.
На закладке Book в поле H.gap value поставил 70, а в списках Page width и Page height выбрал значение Fixed и правее выставил размеры первого скана, т.е. 1236 и 1581 соответственно.
Наконец, на закладке Files выставил в списке DPI значение 150 dpi.
Запустив СК на обработку, получил три скана одного и того же размера, которые в том же СК засунул в пдф.

Цитата:
есть ли возможность настроить СК, чтобы он - не громадные TIFF`ы из pdf`ок вытаскивал, а JPG или GIF?

СК - программа для обработки качественных (по возможности) сканов, а не для вытаскивания их из пдф. Какой смысл ухудшать качество содержащегося в пдф скана, переводя его в jpg или любой другой формат (для этого есть другие программы). Вытащив в ТIF (причем не в таком уж громадном виде, т.к. они вытаскиваются уже в сжатом виде в LZW; например, те же 3 скана вытащены в размерах 2,09 MB, 14,7 MB (из-за завышенного dpi) и 1,99 MB) можно сразу приступить тут же к их обработке, будучи уверенным, что на стадии извлечения сканов не было потери в качестве.
Автор: NAATH
Дата сообщения: 14.09.2011 19:33
shch_vg 19:59 14-09-2011
Цитата:
Через Services->Correct DPI... проставил это значение во втором скане.


Спасибо. Т.е. это ручками надо выставлять для каждой странички, которая отличается по размеру, которую еще надо найти. Да, у меня проще, наверное, получилось - только качество чуть хуже (вокруг серых надписей на белом фоне появилось немного "грязи", - а в если в СК делать, то этой грязи нету). http://webfile.ru/5546351

Там еще - на некоторых страницах - какие-то черные вставки были, скрин окна Кромсатора: http://webfile.ru/5546327
Автор: shch_vg
Дата сообщения: 14.09.2011 20:49
NAATH

Цитата:
если в СК делать, то этой грязи нету

А куда она могла деться, если не было никакой дополнительной обработки?
Присмотритесь внимательно, она есть и в моем варианте.

Цитата:
Там еще - на некоторых страницах - какие-то черные вставки были

Не понял, к чему это относится. Вы имеете в виду, что на других (невыложенных Вами) страницах при импорте в СК из пдф было такое?
Тогда интересно бы увидеть пример.
Автор: NAATH
Дата сообщения: 14.09.2011 21:09
- Вы имеете в виду, что на других (невыложенных Вами) страницах при импорте в СК из пдф было такое?

Верно!

- Тогда интересно бы увидеть пример.

Вот, одна из книжек, 17.7 Мб: http://webfile.ru/5546520

(Переделал одну книжку -> 300dpi, resizer`om в jpg 100% качество - "грязь" исчезла, но появились (при сильном увеличении) синии точки на фоне страницы)
Автор: shch_vg
Дата сообщения: 15.09.2011 13:37
NAATH
Я ранее сталкивался с подобными книгами, интересно бы узнать, каким способом они создаются. При импорте ее в СК действительно вместо 81 страницы появляется около 400 сканов, но в самом СК видны только 81 (если импортировать по умолчанию). Никаких черных фрагментов после импорта не обнаружил.
Большинство файлов из 81 импортированных помечены как имеющие picture-зоны (многие из них не одну). Что с ними делать в СК, я не знаю, единственное действие, на мой взгляд, это просто обработать такой файл без применения каких бы то ни было дополнительных параметров, чтобы получить на выходе ровно 81 скан, идентичные импортированным.
Здесь только одна претензия к СК: при импорте из пдф некоторые фрагменты страницы теряют свою четкость и становятся практически невидимы.
Это происходит с фрагментами, разделяющимися на несколько сканов этой страницы. По-видимому, при объединении в импортированный в СК файл часть этого фрагмента теряется, что приводит к практическому исчезновению самого фрагмента (такое можно заметить, например, на стр.12 этой книги, да и на некоторых других).
Интерес представляют страницы без picture-зон после импорта (они не помечены красным). По-видимому, все они подвергались дополнительной обработке еще в какой-то программе, и у всех у них при 3-кратном увеличении линейных размеров dpi=96.
Считаю, что эту книгу нельзя без потери качества импортировать в СК.

P.S. Забыл упомянуть, что не все picture-зоны (т.е. дополнительные сканы кроме видимых в СК) можно обнаружить при просмотре страницы в СК. По крайней мере мне не удалось найти picture-зоны на стр.12, соответствующей файлу 71, хотя сама эта зона добавлена к результирующей (как раз вторая строка из этой зоне становится практически невидимой после импорта).
Автор: Torino
Дата сообщения: 15.09.2011 13:46

Цитата:
Большинство файлов из 81 импортированных помечены как имеющие picture-зоны (многие из них не одну)

При импорте PDF установите галочку "Don't use zones" тогда одна страница будет представлена одним файлом.
Автор: shch_vg
Дата сообщения: 15.09.2011 18:57
Torino
Спасибо за очень ценную информацию!
Правда тогда одна страница из пдф будет представлена несколькими файлами, если на странице есть picture-зоны.
Только зачем загружать в СК кучу picture-зон как отдельные файлы?
Автор: Torino
Дата сообщения: 15.09.2011 19:36

Цитата:
Только зачем загружать в СК кучу picture-зон как отдельные файлы?

Я думаю это глюки отдельно взятого pdf-файла.
Автор: NAATH
Дата сообщения: 15.09.2011 21:10
У меня - впервые такая "хитрая" книжка попалась, - было познавательно и интересно с ней поработать.
Опять же, полезно бывает - узнать что-то новое о старом верном друге - Кромсаторе, о его настройках и возможностях, которые раньше не использовал.
Автор: shch_vg
Дата сообщения: 15.09.2011 22:48
Torino

Цитата:
Я думаю это глюки отдельно взятого pdf-файла

А я думаю, что нет, т.к. подобное я встречаю не в первый раз, да и NAATH писал, что у него таких пдф-ок много.
Хорошо бы все-таки выяснить, какая программа делает такие пдф.
Автор: bolega
Дата сообщения: 16.09.2011 12:44
NAATH

Цитата:
Там еще - на некоторых страницах - какие-то черные вставки были

Это баг старой версии СК.
С новой версией (5.95beta) таких проблем не будет: http://www.onlinedisk.ru/file/734333/

shch_vg

Цитата:
Здесь только одна претензия к СК: при импорте из пдф некоторые фрагменты страницы теряют свою четкость и становятся практически невидимы.

Утверждение неверное. СК импортирует как есть. Визуальное ухудшение вызвано особенностью отображения прозрачных picture-зон в отдельном слое поверх скана (для зон без прозрачности такого не бывает). Чтобы убедиться в этом, можете проделать следующее: сбросьте и отмаркируйте все файлы, нажав крайнюю правую кнопку из четырех внизу слева основного окна СК. На закладке Files задайте DPI=300. Обработайте какую-нибудь одну страницу, например, 12. В окне VR перейдите в рехим показа "Zones" (вместо "One page"). Пощелкайте по зонам в ленте зон. Увидите, что все зоны прозрачные, более того, они все ч/белые! Хотя слева видно, что они цветные. В этом и есть преимущество СК по извлечению картинок из pdf: он не только восстанавливает слой прозрачности для них, но и их цвет! (внутри pdf они действительно хранятся как ч/б, а их раскраска выполняется командами pdf). Теперь в левой панели щелкните мышкой на любой зоне и в контекстном меню выберите команду Merge all zones. В итоге получите изображение, полностью идентичное тому, что показывает например adobe reader. Никакой потери четкости нет. Ваша фраза

Цитата:
По-видимому, при объединении в импортированный в СК файл часть этого фрагмента теряется, что приводит к практическому исчезновению самого фрагмента (такое можно заметить, например, на стр.12 этой книги, да и на некоторых других).

теряет актуальность (я надеюсь).

Чтобы убедиться, как СК восстанавливает цвет зон, нужно вернуться в главное окно, вызвать диалог свойств любой зоны (напр., двойным щелчком по ней), перейти на закладку Paint и нажимая стрелки в кружочках, двигаться по всем зонам страницы.
Кстати, удобно в этом же диалоге сначало включить предпросмотр зон, для этого на закладке Format нужно нажать кнопочку с картинкой неба. Окно расширится и будет доступен preview.

Рассмотрим следующую претензию

Цитата:
По крайней мере мне не удалось найти picture-зоны на стр.12, соответствующей
файлу 71

Такая зона есть. Для быстрого поиска зоны по ее номеру или имени файла используйте команду Zones->Picture zone->Find zone. Там нужно щелкнуть по кнопке с троеточием и выбрать имя файла зоны. СК найдет местоположение этой зоны и активирует ее. В новой версии я обновил эту команду, так что она теперь ищет внешние зоны (импортированные) и по имени файла.


Цитата:
Я ранее сталкивался с подобными книгами, интересно бы узнать, каким способом они создаются

Такие бредовые по структуре pdf создаются сканерами в составе МФУ (Canon и т.п.). Налицо жалкие попытки выполнить автомат. разделение скана на слои. Результат как правило плачевный.


Добавлено:
Torino
http://www.onlinedisk.ru/file/734357/
Это задание для Вашего примера. Извиняюсь за задержку, но результат можно получить только в новой версии СК, кою я только что выложил.
Эта бетка, возможны глюки, некоторые новые вещи не до конца реализованы.
Автор: ghosty
Дата сообщения: 16.09.2011 13:00
bolega

Цитата:
С новой версией (5.95beta) таких проблем не будет: http://www.onlinedisk.ru/file/734333/

Ура!

DJVU Wizard обещает стать очень полезной функцией, но пока неясно вот, что. Загрузил старое задание с уже обработанными сканами. Почему визард видит только сырые серые сканы и не видит обработанные ЧБ?

ИМХО, было бы удобнее сделать один Wizard для DJVU и PDF. Параметры будут использоваться одни и те же, а сейчас получается, что PDF и DJVU разнесены по разным областям GUI. Или "Create PDF hyperlinks" и является таким визардом (но там тоже показаны только сырые сканы)?

А что еще нового в новой версии (хотя бы в двух словах, если можно)?
Автор: bolega
Дата сообщения: 16.09.2011 13:06
ghosty

Цитата:
ИМХО, было бы удобнее сделать один Wizard для DJVU и PDF

Фактически сейчас так и есть. Чтобы сделать pdf или djvu, нужно загрузить не само задание, а его out-задание! Командой File->Create out-task. СК создаст из выходных файлов осн. задания новое задание, которое и будет делать pdf (достаточно только задать на закладке Files outputformat=pdf), либо djvu (через wizard). После запуска wizard нужно нажать только одну кнопку Attach auto, после этого можно менять параметры или сразу делать djvu. Предварительно нужно один раз настроить пути к DEE и DjvuLib (Files->Options-> App)
Автор: ghosty
Дата сообщения: 16.09.2011 13:16
bolega

Цитата:
Чтобы сделать pdf или djvu, нужно загрузить не само задание, а его out-задание!

Ага, вспомнил. Честно говоря, меня всегда это сбивало с толку. И с точки зрения пользователя и "стороннего наблюдателя", думаю, этот шаг может восприниматься как лишний.
В чем именно логика создания out-заданий (т.е. в каком случае отделение сырых сканов от обработанных становится необходимым?) и почему нельзя, например, в визарде просто указать папку с обработанными файлами?
Автор: bolega
Дата сообщения: 16.09.2011 13:22
ghosty

Цитата:
А что еще нового в новой версии (хотя бы в двух словах, если можно)?

- descreen для зон
- новый фильтр CSmooth (аппроксимирует контуры ч/б букв кривыми безье и сглаживает их). Неплохо работает для изначально 600dpi сканов (ч/б или серых/цветных). Для сканов, полученных 300dpi grey->600dpi bw, нужно проводить исследования. Фильтр можно применять как ко всей странице, так и к участку, с помощью соответствующей зоны. Хорошо сглаживает векторную графику (при любом dpi), включая шахм. диаграммы.

Добавлено:
ghosty

Цитата:
И с точки зрения пользователя и "стороннего наблюдателя", думаю, этот шаг может восприниматься как лишний.

Как говорится, никого заставлять не буду. Не нравится - не юзайте. Причины есть, и существенные. Описывать их сейчас просто нет времени.

Цитата:
почему нельзя, например, в визарде просто указать папку с обработанными файлами?

Тут главное не папка, а информация о расположении, окраске, форме и т.д. pic-зон.
Автор: Torino
Дата сообщения: 16.09.2011 13:36

Цитата:
С новой версией (5.95beta)

Суперррр!
Спасибо!
Автор: bolega
Дата сообщения: 16.09.2011 13:57
Супер - это вряд ли. У меня самого к новой версии куча претензий...
Автор: ghosty
Дата сообщения: 16.09.2011 14:04
bolega

Цитата:
Как говорится, никого заставлять не буду. Не нравится - не юзайте. Причины есть, и существенные. Описывать их сейчас просто нет времени.

Многие бы здесь согласились бы, наверное, и на десятикратное усложнение, если это способствовало бы развитию программы. Другое дело, всегда лучше понять логику автора - хотя бы для того, чтобы объяснить другим, когда у Вас нет времени


Цитата:
- новый фильтр CSmooth (аппроксимирует контуры ч/б букв кривыми безье и сглаживает их). Неплохо работает для изначально 600dpi сканов (ч/б или серых/цветных). Для сканов, полученных 300dpi grey->600dpi bw, нужно проводить исследования. Фильтр можно применять как ко всей странице, так и к участку, с помощью соответствующей зоны. Хорошо сглаживает векторную графику (при любом dpi), включая шахм. диаграммы.

Да, интересно, будем исследовать. Пока не работает кнопка Preview на соотв. вкладке.

Из возможных багов:
1) В RV в режиме Compare нет возможности масштабировать исходный скан (в том числе при установленной опции синхронизации исходного скана с текущей страницей).
2) Выпадающий список с увеличением масштаба (в процентах) не функционирует.

Спасибо за новую версию!

Добавлено:

Цитата:
Для сканов, полученных 300dpi grey->600dpi bw, нужно проводить исследования.

На таких сканах, при первом приближении, использовать можно только "на свой страх и риск" - возможны нежелательные артефакты даже с минимальными параметрами сглаживания.

Без фильтра:


С фильтром (все настройки на минимум):
Автор: shch_vg
Дата сообщения: 16.09.2011 14:28
По новой версии:
Т.к. все молчат, значит, это только у меня.
И в винХР, и на сервере2003 появилась своеобразная заставка при запуске программы.
Проверял и в директории с предыдущими версиями, и в новой директории - результат тот же.
После нажатия на ОК выходит в основное окно СК, дальше пока не смотрел.
Автор: bolega
Дата сообщения: 16.09.2011 14:41
ghosty

Цитата:
На таких сканах, при первом приближении, использовать можно только "на свой страх и риск"

Согласен. За исключением крупных шрифтов, напр., заголовков.
Фильтр работает только с ч/б изображениями, поэтому если исх. скан - серый, то Preview не действует. Фильтр является самой последней операцией среди всех фильтров, при обработке применяется уже после бинаризации. Если выходные файлы задания прогнать через этот фильтр, то эффект будет такой же.
Кстати, если перед Preview (для ч/б сканов) включить опцию "output to gray", то эффект сглаживания виден намного нагляднее. Но в реальности серыми же сканы не будешь оставлять. А последующая биаризация сводит сглаживание на нет.

Добавлено:
shch_vg
А Вы fft.dll положили в папку с программой?
Автор: shch_vg
Дата сообщения: 16.09.2011 15:38
bolega

Цитата:
А Вы fft.dll положили в папку с программой?

Да, вытащил содержимое архива (2 файла) в одну директорию.
Правда имя файла несколько другое - fftw3.dll.
Автор: Torino
Дата сообщения: 16.09.2011 15:42
bolega
sk.ini можно переносить из 5.94 в 5.95 или во избежание глюков этого лучше не делать?
Автор: bolega
Дата сообщения: 16.09.2011 15:50
Torino
Можно, и нужно.

Страницы: 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102

Предыдущая тема: мнение о Maxthon


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.