Ru-Board.club
← Вернуться в раздел «Программы»

» ScanKromsator СканКромсатор (Часть 2)

Автор: bolega
Дата сообщения: 06.10.2008 14:22
VadimirTT
Подчищял, исправлял, каюсь. Более того, есть и кое-что новое, интересное и полезное
Сейчас тестирую новую версию. Выкладывать пока рано.
А упомянутый Вами pdf-файл импортировался в новой версии нормально. У него, правда, есть одна неприятная особенность (я такое первый раз встретил): сканы там имеют разное dpi по вертикали и горизонтали. В sk я изначально не стал делать поддержку таких файлов (они будут нормально отображаться, но неправильно кромсаться). Поэтому при импорте из pdf таких сканов sk сразу выравнивает dpi, делая соответствующий ресемплинг в одном из направлений.
Автор: VadimirTT
Дата сообщения: 06.10.2008 20:00
Спасибо, будем ждать, пока созреет .
Когда я попробовал разобрать этот pdf акробатом, то действительно получились приплюснутые странички, а в той версии кромсатора, что у меня, получились неровные вертикальные полосы, и как это только умудрились такое сваять?
Автор: monday2000
Дата сообщения: 07.10.2008 08:50
У меня появилась идея - по поводу "тонкой очистки":

Как известно, никакой despeckle не в силах вычистить весь мусор. Что если использовать данные OCR о координатах букв и рисунков - и зачищать области, где нет букв-рисунков?

Практически это могло бы выглядеть так:

1. Распознаём готовые сканы, подлежащие дежавючению (всё равно мы OCR делаем практически всегда).

2. СканКромсатор, обращаясь к FRFGrab, вытаскивает координаты букв и рисунков.

3. Кажется, есть в СК некая таинственная фича "подсветка спеклов, подлежащих удалению"? Тут бы её самый раз применить. Предположим, СК подсвечивает такие спеклы, юзер проходит по сканам и соглашается/отказывается удалять - по каждому спеклу.

PS Всё же мусор, оставшийся после despeckle, довольно противен и раздражает. Вроде бы мы получаем достаточно теоретически-реальный шанс от него избавиться.
Автор: ghosty
Дата сообщения: 07.10.2008 09:07

Цитата:
Что если использовать данные OCR
Полетит все, кроме распознанного, начиная, к примеру, со знаков ударений и заканчивая (плохо пропечатанными) элементами таблиц и изображений.
Автор: bolega
Дата сообщения: 07.10.2008 09:21
monday2000

Цитата:
координатах букв и рисунков - и зачищать области, где нет букв-рисунков?

Именно это и делает safe despeckle в sk (без исп-я FR).


Цитата:
юзер проходит по сканам и соглашается/отказывается удалять - по каждому спеклу

Здесь Вы как всегда витаете в облаках. Т.е. абсолютно не представляете себе то, о чем говорите
Автор: monday2000
Дата сообщения: 07.10.2008 09:30
А что это была за фича в СК "подсветка спеклов"? Здесь в топике упоминалось что-то такое. То ли какие-то "спеклы, моргающие красным"?
Автор: bolega
Дата сообщения: 07.10.2008 09:39
Почему была? Никуда не делась. Можно включить режим, при котором спеклы подсвечиваются другим цветом. Дополнительно можно включить и мигание. Есть и инверсный режим, при котором спеклы выводятся в темных тонах, а все остальное, наоборот - в светлых. В таком режиме они более явно бросаются в глаза
Автор: monday2000
Дата сообщения: 07.10.2008 09:44

Цитата:
Можно включить режим

А как это всё делается?
Автор: ILHS
Дата сообщения: 07.10.2008 14:45
Просьба помочь!

Можно ли обработать такую фото?
Автор: monday2000
Дата сообщения: 07.10.2008 14:50
Я сам уже нашёл:

Подсветка спеклов

В окне Result view СК 5.91:

Контекстное меню - Clear options - Вкладка Despeckle - флажок Highlight speckles (установка флажка включает подсветку спеклов).

Дополнительно можно включить моргание подсвеченных спеклов (флажок Blink speckles) и функцию осветления текста (флажок Lighten text) - чтобы моргающие спеклы были видны более явственно.

Выпадающие списки Speckle color, Blink color регулируют цвет подсвечивания спекла и цвет моргания спекла.

Добавлено:
Почему-то эта фича не работает при выключенном зум-фильтре. И жаль, что при масштабе Fit Image эти спеклы практически не видны.

И у меня на пробу почти все такие спеклы оказались кусочками букв и картинок. Вот если бы применить координаты букв из FR, то можно было бы сделать вокруг каждой буквы небольшую зону отчуждения, и подсвечивать только спеклы за пределами таких зон. И, возможно, имеет смысл "подсвечивать с увеличением размера" - чтобы в глаза лучше бросалось?

Добавлено:

Цитата:
Что если использовать данные OCR о координатах букв и рисунков - и зачищать области, где нет букв-рисунков?

Я предложил эту идею на форуме ABBYY. ИМХО если это и реально, то это может выглядеть как некий Smart Despeckle в FR.
Автор: terminat0r
Дата сообщения: 07.10.2008 18:16
ILHS
нет
Автор: ghosty
Дата сообщения: 07.10.2008 22:52
ILHS

Цитата:
Можно ли обработать такую фото?
Последнее слово за bolega. Как-то раз он говорил, что теоретически можно восстановить даже абсолютно заблюренный текст. Он даже об этом специальную книжку читал
Автор: monday2000
Дата сообщения: 08.10.2008 16:54
Я сделал небольшую заметку для "чайников":

Как самому сделать DjVu-книгу (Краткая схема)

http://www.djvu-soft.narod.ru/scan/123.htm

Как и в ScanAndShare, там самое слабое место - обработка "300 DPI Grey -> 600 DPI BW".

Надеюсь, что СК когда-нибудь научится делать, как CorelScan (в смысле, что не будет 2х-кратного "распухания" результирующего DjVu).
Автор: shch_vg
Дата сообщения: 09.10.2008 13:16
monday2000

Цитата:
Как самому сделать DjVu-книгу (Краткая схема)

У меня Ваша инструкция породила много вопросов, на которые хотелось бы услышать ответ. Здесь я задам один, относящийся к этому топику, остальные пошлю в Ваш личный ящик.
В инструкции упоминается программа DjVu Sep v1.0, отсутствующая в вашем же базовом списке. Хорошо, что я знал где ее найти (на Вашем сайте ), и в ее описании я нашел следующее:

"...Пары субсканов предполагается создавать в СканКромсаторе 5.91..."
и далее
"2. Пары субсканов должны иметь имена в нотации СканКромсатора 5.91:
- Субсканы переднего плана: 0001.tif, 0002.tif, ..., 0100.tif, ...
- Субсканы заднего фона 0001.sep.tif, 0002.sep.tif, ..., 0100.sep.tif, ..."

У меня же именно СканКромсатор 5.91 создает субсканы заднего фона с именем pic.хххх.tif, причем я не могу по их названию, к какому из субсканов переднего плана они относятся.
Я краем глаза следил за дискуссией о переименовании субсканов заднего фона, предложенной Вами, но честно говоря не понял, что я должен делать, чтобы использовать программу DjVu Sep v1.0.
Стоит ли включать в инструкцию для "чайников" то, что вызывает больше вопросов, чем ответов?
Автор: bolega
Дата сообщения: 09.10.2008 14:29
shch_vg

Цитата:
У меня же именно СканКромсатор 5.91 создает субсканы заднего фона с именем pic.хххх.tif

Вы неправильно поняли. pic.хххх - это не субсканы, а картинки. А субсканы (в терминологии monday2000), это то, что создается по команде merge sep, и после этого они уже имеют названия 0001.sep.tif, где номер - это принадлежность к странице
Автор: shch_vg
Дата сообщения: 09.10.2008 15:04
bolega

Цитата:
это то, что создается по команде merge sep, и после этого они уже имеют названия 0001.sep.tif, где номер - это принадлежность к странице

это команда в Сканкромсаторе или где? И что создастся по этой команде, если на странице несколько picture-zone?

Эта инструкция больше похожа на инструкцию по загону "чайника" в ступор .


Добавлено:
bolega
Не можете ли мне посоветовать в таком вопросе:
Обрабатываю страницу с большой цветной областью одного цвета. После обработки ее как picture-zone заметны разводы, напоминающие водяные знаки.
Можно ли это как-то убрать средствами СканКромсатора?
Автор: bolega
Дата сообщения: 09.10.2008 15:20
shch_vg

Цитата:
это команда в Сканкромсаторе или где? И что создастся по этой команде, если на странице несколько picture-zone?

Да, команда в SK: pcture zones->merge->sep
По этой команде создается пустая страница с размерами, равными размерам выходного файла, и на нее переносятся все зоны.

Добавлено:

Цитата:
Обрабатываю страницу с большой цветной областью одного цвета

А кроме области есть еще что-нибудь полезное? Если нет (или только текст/графика одного цвета), то можно использовать закладку colorize в свойствах зоны. Об этом уже не раз писалось. Если нет, то разводы видимо из-за того, что идет преобразование из исходных 24bit в 8-bit. задайте для зоны формат 24bit.
Можно также на выходе с помощью magic clear легко привести цвет к однотонному
Автор: monday2000
Дата сообщения: 09.10.2008 15:57
shch_vg
Спасибо за ценные замечания! Я только что подправил подпункты 2.в и 2.г - посмотрите, достаточно ли.

Цитата:
честно говоря не понял, что я должен делать, чтобы использовать программу DjVu Sep v1.0.

Я тут совершенно согласен с Вами. В самом деле я несколько преждевременно упомянул там о DjVu Sep v1.0. Просто меня один человек попросил сделать такую схему - и я сразу всё, чтобы ничего не забыть (например, о DjVu Sep v1.0), туда написал.

Я планирую в ближайшее время:

1. Сделать следующую подверсию DjVu Sep (и добавить в "Итоги по программам").
2. Обязательно сделать подробное описание об использовании DjVu Sep.
3. Как только выйдет новый СК, я сделаю ещё одну подверсию DjVu Sep, "заточенную" под будущий СК (как договоренно с bolega).

Добавлено:
Что касается CorelScan, то тут тоже ещё надо проработать вопрос. Как-нибудь опробую на одних и тех же сканах CorelScan и ScanAndShare - чтобы выяснить, насколько CorelScan лучше ScanAndShare.

Добавлено:

Цитата:
А субсканы (в терминологии monday2000), это то, что создается по команде merge sep,

На мой взгляд, "субскан" - достаточно удачный термин. Надо же было как-то это обозвать.
Автор: shch_vg
Дата сообщения: 09.10.2008 17:35
bolega

Цитата:
А кроме области есть еще что-нибудь полезное? Если нет (или только текст/графика одного цвета), то можно использовать закладку colorize в свойствах зоны. Об этом уже не раз писалось. Если нет, то разводы видимо из-за того, что идет преобразование из исходных 24bit в 8-bit. задайте для зоны формат 24bit.
Можно также на выходе с помощью magic clear легко привести цвет к однотонному

Я не сказал, что области одного цвета, но с оттенками.
Под закладкой colorize Вы наверное имеете в виду закладку Colors (5.91)? Тогда это просто заливка одним цветом, то же самое в случае magic clear, только обычно усредненный цвет заметно отличается от родного.
У меня формат для зоны именно 24bit, правда перевожу я из 150dpi в 600dpi.
Разводы особенно заметны на шахматной доске с серыми и коричневыми полями, причем как на тех, так и на других.


Добавлено:
monday2000
По пункту в вопросов нет, по г - приведенные Вами доводы как-то меня не убедили (не понятно, как сравниваются по размерам, удобнее кодировать - это дело вкуса, в dee5.1 тоже есть опции кодирования, остается размер программы ).
Автор: monday2000
Дата сообщения: 09.10.2008 21:48
shch_vg
Я решил не откладывать дело в долгий ящик и сделал DjVu Small v0.3.2.

Теперь схема работы с разделёнными сканами выглядит так:

В СканКромсаторе 5.91:

1. Подготавливаем к кромсанию сканы в СК 5.91 - по ходу дела заключая полутоновые рисунки в Picture-зоны.

2. Нажимаем кнопку Process и кромсаем окончательно сканы.

3. В меню Zones - Picture zone - Merge zones... ставим флажок Create separate files for non-b/w zones, жмём ОК и соглашаемся с вопросом Merge zones for output files?.

На выходе - папка out, наполненная смесью разных видов сканов.

4. Подаём папку out ("как есть", т.е. без рассортировки на разные виды сканов) на вход DjVu Small v0.3.2, кодируем - получаем DjVu-книгу без картинок.

5. Подаём папку out (также "как есть" - без рассортировки на разные виды сканов) на вход DjVu Sep v1.0, кодируем - получаем DjVu-картинки поштучно и автоматом вставляем их в нужные места DjVu-книги без картинок из п.4.

PS Причём в DjVu Sep v1.0 мы визуально (с просмотром в WinDjView) пробуем картинки закодировать то так, то сяк - добиваясь при этом наилучшего соотношения размер/качество - и только потом вставляем (кнопка "Insert" в DjVu Sep v1.0) готовые DjVu-картинки в DjVu-книгу без картинок.

Добавлено:
shch_vg

Цитата:
по г - преведенные Вами доводы как-то меня не убедили

Я только что подправил этот пункт, посмотрите ещё раз, пожалуйста.

Добавлено:
Если папка out на выходе из СК содержит просто обычные сканы (без сканов-картинок и т.п. - тогда не делаем п.5 и всё).
Автор: shch_vg
Дата сообщения: 10.10.2008 09:59
monday2000

Цитата:
по ходу дела заключая полутоновые рисунки в Picture-зоны.

Это касается только серых рисунков или и цветных тоже?

Что касается 5 пункта в "г", то я для себя сделал портабельную версию dee5.1 (178мб), стартующую на любом компе с системами Win2K, WinXP, Win Server2003 (проверено) и включающую как Workflow Manager, так и Configuration Manager с возможностью править профили даже вручную. Кстати эта версия автоматически убирает пункт 1 (об установке пакета платформы .NET версии 1.1).
Я держу эту программу на переносном диске вместе с vuescan, ScanKromsator и практически могу производить обработку на любом компьютере.
Автор: monday2000
Дата сообщения: 10.10.2008 12:59
shch_vg

Цитата:
Это касается только серых рисунков или и цветных тоже?

Цветных тоже - но только многоцветных - типа фотографий. Цветной текст и цветные схемы - не всегда - порой их лучше обычным путём кодировать (чтобы сегментёр какие-то их куски в фон загнал - для экономии размера). Для такого лучше всего метод Minor'a (хотя непрактичен малость).
Автор: shch_vg
Дата сообщения: 10.10.2008 13:27
monday2000
Если я правильно понял, для книг, содержащих как серые фото, так и цветной текст или заливку методика программы DjVu Small неприменима?
Автор: monday2000
Дата сообщения: 10.10.2008 14:04
shch_vg
Для книг с чёрно-белым текстом, содержащим полутоновые рисунки, можно применить связку СК 5.91 -> DjVu Small v0.3.2 -> DjVu Sep v0.1 (инструкция будет).
Что делать с книгами, содержащими цветной текст / плакатные рисунки - я лично не знаю. После обработки http://www.djvu-soft.narod.ru/kromsator/cla_melirius.htm скорее всего, кодировать их с documenttodjvu (с каким-нибудь хитрым профилем от Arcand). Или пробовать метод Минора http://www.djvu-soft.narod.ru/scan/low_color_djvu.htm . Но такие книги относительно экзотичны (больше книг с фотографиями) - так что ещё будет время подумать хорошенько, что с ними делать.
Автор: Melirius
Дата сообщения: 11.10.2008 16:57
shch_vg

Можете попробовать мою систему - она также полностью портабельна, но там кроме DEE ещё много чего есть для сканирования и обработки. И она покрывает все случаи - без/с фотоиллюстрациями, без/с цветным текстом.
Автор: Torino
Дата сообщения: 11.10.2008 18:01
Мне кажется было бы правильно добавить в шапку ссылки на комплекты, имеющие в своем составе SK (и на темы, обсуждающие эти комплекты).
Это и по теме и полезно.
Вот например Melirius говорит "можно воспользоваться моей системой".
Человек, который недавно в этой теме, сразу то и не поймет, а где можно эту систему найти.
Я бы сам добавил, но прав на редактирование нет.
Автор: ghosty
Дата сообщения: 11.10.2008 19:13
Расположил все возможные инструкции/сборки/хелпы по мере возрастания сложности. Не знаю, правильно ли.
Автор: Torino
Дата сообщения: 11.10.2008 19:17
А ссылку на сборку Melirius'a ?
Автор: ghosty
Дата сообщения: 11.10.2008 19:25
Torino

Цитата:
А ссылку на сборку Melirius'a?
Так а у него нет сборки именно СК. У него сборка из разного софта, и она имеет отношение к общему топику по сканированию/обработке/кодированию.
Автор: LoonyK
Дата сообщения: 12.10.2008 08:08
Есть фотографии разворотов книги.
Подскажите пожалуйста можно ли в этой программе осуществить только резку без каких-либо цветовых преобразований?

Спасибо.

Страницы: 12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758596061626364656667686970

Предыдущая тема: MoleskinSoft Clone Remover


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.