Ru-Board.club
← Вернуться в раздел «Программы»

» Scan Tailor

Автор: monday2000
Дата сообщения: 27.03.2009 10:21
iit512

Цитата:
А какой-нибудь внятный текст есть на эту тему (на русском или английском)?

Хелп к DEE 5.1:

http://djvu-soft0001.nxt.ru/dee51le_help.rar (5,89 МБ)

Он на английском языке. Но лучше этого не найдёте.

Кроме того, быть может, кое-что можно почерпнуть из DjVu-спецификаций: http://www.djvu.org/resources/ - но там гораздо сложнее, по-научному. Тоже на английском языке.

По-русски есть только это: http://natahaus.info/forums/showthread.php?t=5520
Автор: monday2000
Дата сообщения: 27.03.2009 13:08
Но что толку изучать возможности сегментёра DEE - если ни СТ, ни СК пока что не умеют обрабатывать сырые сканы в нужной степени совершенства - для сегментёра DEE. Хорошая обработанность сырых сканов нужна хотя бы как подсказка для сегментёра DEE.

Примером нужной сканобработки являются:

1. CorelScan - http://www.djvu-soft.narod.ru/scan/corel_scan.htm

2. Как почистить сканы книг? (© Иван Сторожев ) http://www.djvu-soft.narod.ru/scan/clear_scan_trilogy.rar

3. Методика сканирования и обработки цветных книг http://natahaus.info/forums/showthread.php?t=6055

Нужно и в СТ реализовать нечто подобное - иначе все заумные возможности сегментёра DEE не имеют смысла (что мы имеем сейчас). Не сможет сегментёр DEE проявить всю свою мощь на "абы как обработанных" (как сейчас) сканах.

Причём тут явно не обойтись без некоего аналога СК-шных Picture-зон. Только желательно, чтобы эти зоны авто-определялись - а потом вручную их границы лишь подправить (как в файнридере).

Причина в том, что очень часто на одном и том же скане есть участки, которые нужно как-либо различно обрабатывать (т.е. при сканобработке).

Только если в СК на всё про всё есть лишь один тип зон - Picture-зоны - то на самом деле нужно сделать чуть ли не десяток разных видов Picture-зон - на все случаи жизни.

Добавлено:

Цитата:
Планируется ли исправление перспективы? Выпрямление строчек?

На это ИМХО вообще пока преждевременно замахиваться - слишком уж сложно - и взять такой алгоритм негде - значит, его нужно создавать - а он явно весьма непрост.
Автор: iit512
Дата сообщения: 27.03.2009 20:58
2 monday2000: Спасибо за ссылки!

Цитата:
Причём тут явно не обойтись без некоего аналога СК-шных Picture-зон. Только желательно, чтобы эти зоны авто-определялись - а потом вручную их границы лишь подправить (как в файнридере).

Так я что имею в виду -- "смешанный" алгоритм ST распознает цветные и черно-белые зоны. Так? Почему бы не сохранять их в разные файлы?
Автор: monday2000
Дата сообщения: 28.03.2009 20:45
iit512

Цитата:
Так я что имею в виду -- "смешанный" алгоритм ST распознает цветные и черно-белые зоны.

Я, наверное, что-то пропустил... В СТ уже тоже есть Picture-зоны?
Автор: Tulon
Дата сообщения: 28.03.2009 21:45

Цитата:
Во-первых, здОрово было бы на этапе распознавания цветного/черно-белого (Смешанный режим) добавить возможность вывода в два файла (один -- черно-белый, другой -- соответствующий ему цветной, как "sep-файлы" в СК), чтобы потом мочь кодировать в DjVu по отдельности, скажем, "методом разделенных сканов". А еще, сам процесс распознавания цветного нельзя никак регулировать -- может быть, можно здесь можно добавить какой-нибудь движок?

ST не делает цветовой сегментации. Алгоритм автовыделения картинок работает в сером режиме и про цвета знать не знает. Даже если бы знал, то все равно вывод раздельных сканов - весьма низкоприоритетная задача, потому что простые смертные ей пользоваться не будут.


Цитата:
То, что файлы нельзя из проекта убрать, не очень удобно.

А вот это как раз высокоприоритетная задача.


Цитата:
Жалко, что нельзя добавить уже разрезанные-повернутые-макетированные с полями страницы, обязательно надо либо менять поля, либо даже определять полезную область. А если требуется _только_ вывод (увеличение разрешения-сглаживание)?

Слишком спецефичная задача - не укладывается в пользовательский интерфейс СТ.


Цитата:
Я попытался определить полезную область автоматически, но автомат не берет номера страниц, а проходить 500 страниц руками -- понятная морока (и обязательно что-то пропустишь).

Дайте угадаю - сканы без полей? Если нет, то пример в студию.


Цитата:
Не будет ли отдельного despeckle? У меня много черно-белых сканов, которые я по лени вообще не пропускаю через кромсатор, а только обрезаю в ирфане, и сразу в DjVu. Было бы здорово удалять из них мусор. Может быть, ST сможет? СК может.

Опять же задача не укладывается в существующий интерфейс пользователя. Для такой задачи был бы идеален плагин к IrfanView или чему-то подобному. У СТ исходники открыты - есть желающие сделать такой плагин на основе кода из СТ?


Цитата:
Планируется ли исправление перспективы? Выпрямление строчек?

Задача непростая, а свободного времени катастрофически мало.



Цитата:
Я, наверное, что-то пропустил... В СТ уже тоже есть Picture-зоны?

Есть авто-определение картинок. Вручную править авто-определенную область пока нельзя. Автоматический алгоритм работает хорошо, кроме как в случаях, когда картинка хотя бы на одном участке плавно переходит в фон.
Автор: iit512
Дата сообщения: 29.03.2009 07:44
Спасибо большое за ответ.

Цитата:
ST не делает цветовой сегментации. Алгоритм автовыделения картинок работает в сером режиме и про цвета знать не знает. Даже если бы знал, то все равно вывод раздельных сканов - весьма низкоприоритетная задача, потому что простые смертные ей пользоваться не будут.

Понятно. ndch мне уже прислал ссылку, где Вы отвечали на похожий вопрос -- http://forum.ru-board.com/topic.cgi?forum=5&topic=27424&start=820#18
Все же, было бы здорово не менять исходники, а где-нибудь далеко-далеко в интерфейсе устроить такую опцию...

Цитата:
Дайте угадаю - сканы без полей? Если нет, то пример в студию.

Нет, не угадали. Книга, скачанная Google Book Downloader. Хотел уменьшить ее ужасающий размер путем создания "кошерного" черно-белого DjVu. Такие книги, кстати, уже на торрентах раздают, так что проблема будет возникать снова.
Автор: Tulon
Дата сообщения: 29.03.2009 11:44

Цитата:
Цитата:
Дайте угадаю - сканы без полей? Если нет, то пример в студию.

Нет, не угадали. Книга, скачанная Google Book Downloader. Хотел уменьшить ее ужасающий размер путем создания "кошерного" черно-белого DjVu. Такие книги, кстати, уже на торрентах раздают, так что проблема будет возникать снова.

Тогда залейте куда-нибудь одну-две страницы, где отрезаются номера страниц, и ссылку сюда. А почему бы такие файлы не скармливать сразу DjVu? Любой resampling только ухудшит качество.
Автор: ndch
Дата сообщения: 29.03.2009 19:14
Люди! Кто-нибудь по вертикали страницы выравнивает ?
Иногда не хватает горизонтальной направляющей и предпросмотра на макете сразу двух страниц для взаимного выравнивания сканов.
Tulon считает что это малоактуальная фича! Если кто использует напишите, может быть повлияем на его взгляд ! Очень интересно мнение тех кто занимается обработкой в CT и не только.
Автор: denver 22
Дата сообщения: 29.03.2009 22:49
Мне не помешала бы сетка хотя бы горизонтальных направляющих на этапе выравнивания. Одного перекрестия очень часто недостаточно.
Автор: Tulon
Дата сообщения: 29.03.2009 23:16

Цитата:
Мне не помешала бы сетка хотя бы горизонтальных направляющих на этапе выравнивания. Одного перекрестия очень часто недостаточно.

Сделаю, когда руки дойдут. Задача не очень приоритетная, поскольку автоматическая компенсация наклона почти никогда не ошибается.
Автор: iit512
Дата сообщения: 31.03.2009 09:30

Цитата:
Тогда залейте куда-нибудь одну-две страницы, где отрезаются номера страниц, и ссылку сюда

Вот: http://rghost.ru/177826
Но все-таки мне кажется, что было бы здОрово иметь возможность где-то указать, что полезная область в данном случае просто равна странице.
Еще:
1) Программа вылетает. Сегодня много мучался с этим. К сожалению, плохо воспроизводимо. Чтобы вылетало, надо, чтобы были большие файлы (на выводе > 10 Mb) и быстро листать. Можно ли добавить автосохранение проекта? Очень бы помогло.
2) Очень жалко, что нет ластика.
3) Смешанный режим иметь бы возможность хоть как-то регулировать. Мучался сегодня с несколькими страницами -- упорно считает цветной рисунок черно-белым. А на соседней странице, такой же по площади и похожий в принципе рисунок -- нормально. Еще странно, что иногда (видел трижды) одну и ту же страницу обрабатывает по-разному.
4) Опция "Удалять пятна" сегодня мне съела значительные куски текста. Хорошо, что я это вовремя заметил...
5) Можно ли, чтобы расширение вывода было не *.tiff, а *.tif? А то с Irfan проблемы. А с DjVu Small вообще странный глюк (это, наверное, не к Вам, но все же) -- не хотел писать файлы в список обработки, оказалось, не выносит подстроки "pic" (!). Хорошо, что в коммандере все можно быстро переименовать.
Автор: iit512
Дата сообщения: 01.04.2009 18:16
Еще было бы очень здорово иметь возможность удалять (не учитывать) определенные самые высокие/широкие страницы при вычислении мягких полей.
Автор: Tulon
Дата сообщения: 02.04.2009 01:18

Цитата:
Цитата:
Тогда залейте куда-нибудь одну-две страницы, где отрезаются номера страниц, и ссылку сюда

Вот: http://rghost.ru/177826

Тут проблема в неуказанном DPI. Вы видимо выставляли 300, но реально там всего 150. При выставлении 150 - номера страниц не обрезаются.


Цитата:
1) Программа вылетает. Сегодня много мучался с этим. К сожалению, плохо воспроизводимо. Чтобы вылетало, надо, чтобы были большие файлы (на выводе > 10 Mb) и быстро листать. Можно ли добавить автосохранение проекта? Очень бы помогло.

Это была бы борьба с симптомами проблемы, а не с самой проблемой. Надо искать и исправлять причину вылетов. На каком этапе вылетает? Стабильная или бета версия?


Цитата:
2) Очень жалко, что нет ластика.

Будут ручные Picture зоны - ластик добавить будет элементарно.


Цитата:
3) Смешанный режим иметь бы возможность хоть как-то регулировать. Мучался сегодня с несколькими страницами -- упорно считает цветной рисунок черно-белым. А на соседней странице, такой же по площади и похожий в принципе рисунок -- нормально. Еще странно, что иногда (видел трижды) одну и ту же страницу обрабатывает по-разному.

Ручные Picture зоны как раз и нужны для случаев, когда авто-выделение не справляется. Задача - приоритетная, но свободного времени совсем мало.
А насчет разных результатов от одной и той-же страницы - такое бывыет при различных разрешениях вывода.


Цитата:
4) Опция "Удалять пятна" сегодня мне съела значительные куски текста. Хорошо, что я это вовремя заметил...

Скорее всего неправильный DPI у входных файлов.


Цитата:
5) Можно ли, чтобы расширение вывода было не *.tiff, а *.tif? А то с Irfan проблемы.

Неужели Irfan не ассоциирует себя с *.tiff? Ведь стандартное расширение - имменно .tiff, а .tif - тяжелое наследие DOSа.
Автор: iit512
Дата сообщения: 02.04.2009 03:34
Спасибо!
Неправильный DPI -- очень возможно. Теперь ясно, что это очень важный параметр. Но вычислить его бывает проблематично, если размеры книги неизвестны, а скан -- это фотографии.
Вылетание -- это предпоследняя бета. Воспроизвести очень трудно.
Irfan ассоциирует себя с *.tiff, но не сохраняет без специальных усилий с этим расширением.
Автор: Admig314
Дата сообщения: 02.04.2009 12:00

Цитата:
Irfan ассоциирует себя с *.tiff, но не сохраняет без специальных усилий с этим расширением.

Да и Photoshop тоже по умолчанию сохраняет в *.tif
Автор: ndch
Дата сообщения: 02.04.2009 17:20
Да, в оригинале Tagged Image File Format, а .tif это legacy.
Так же как и эмуляция dos, win16 и т.п.
Автор: Tulon
Дата сообщения: 02.04.2009 21:43

Цитата:
Неправильный DPI -- очень возможно. Теперь ясно, что это очень важный параметр. Но вычислить его бывает проблематично, если размеры книги неизвестны, а скан -- это фотографии.

Тут кто-то давал совет по определению DPI. Открываете файл в графическом редакторе (Gimp подойдет), выделяете прямоугольник так, чтобы в него попало 6-7 строк текста. Высота прямоугольника в пикселях как раз и будет примерным DPI.


Цитата:
Да и Photoshop тоже по умолчанию сохраняет в *.tif

Ну сохраняют Irfan и Photoshop по умолчанию в *.tif а не *.tiff, но где проблема то? Открыть они *.tiff файл могут, по Ctrl+S сохранят изменения, что еще надо?
Автор: Tulon
Дата сообщения: 03.04.2009 00:37

Цитата:
Еще было бы очень здорово иметь возможность удалять (не учитывать) определенные самые высокие/широкие страницы при вычислении мягких полей.

По хорошему отключение опции "Выровнять с другими страницвми" должно давать такой результат, но почему-то не дает. То ли я просто об этом не подумал, когда ее реализовывал, то ли на потом отложил. На днях посмотрю, насколько сложно будет реализовать такое поведение.
Автор: iit512
Дата сообщения: 03.04.2009 00:40

Цитата:
но где проблема то?

Проблема в том, что нет ластика. Поэтому я использую панель редактирования Irfan. Irfan открывает *.tiff, но сохраняет только *.tif. Потом приходится запускать массовое переименование через коммандер. Поэтому я и попросил о небольшом упрощении своей жизни. Если это сделать нельзя -- жалко, но не фатально.
Автор: Tulon
Дата сообщения: 03.04.2009 00:46

Цитата:
Irfan открывает *.tiff, но сохраняет только *.tif

А как вы сохраняете? Я так полагаю (проверить пока не могу), что Ctrl+S должен сохранять под оригинальным именем и расширением.
Автор: iit512
Дата сообщения: 03.04.2009 06:06

Цитата:
А как вы сохраняете?

Сохраняю Ctrl+S (Save). Сохраняет tif вместо tiff. При попытке указать расширение получаются файлы с расширением tiff.tif
Автор: Arcand
Дата сообщения: 03.04.2009 07:39
Tulon
Цитата:
У СТ исходники открыты - есть желающие сделать такой плагин на основе кода из СТ?
Скоро не обещаю, завяз с плагином выделения рисунков. Сам код выделения готов, но засада - Filter plugin не поддерживает редактирование/создание выделения, вынужден разбираться с Selection plugin.
Желательна ссылка на код деспекла, чтобы не терять время на его поиск.
И еще, как-то Вы говорили о сглаживании букв. Можно еще раз, по возможности поподробнее.
Хотелось бы иметь и такой плагин, но подходящего алгоритма у меня пока нет.
Автор: Tulon
Дата сообщения: 04.04.2009 00:47

Цитата:
Желательна ссылка на код деспекла, чтобы не терять время на его поиск.

Despeckle.h
Despeckle.cpp
Есть у этого кода кое-какие еще зависимости, например от класса ConnectivityMap из директории imageproc, но в общем зависимостей минимум.


Цитата:
И еще, как-то Вы говорили о сглаживании букв. Можно еще раз, по возможности поподробнее.
Хотелось бы иметь и такой плагин, но подходящего алгоритма у меня пока нет.

У меня используются два вида сглаживания:
1. Фильтр Savitzky-Golay на сером изображении.
2. Удаление зазубрин на черно-белом.

Реализацию фильтра Savitzky-Golay ищите в imageproc/SavGolFilter.{cpp,h} и imageproc/SavGolKernel.{cpp,h} Зависимостей почти нет.
Удаление зазубрен зарыто глубоко в файле filters/output/OutputGenerator.cpp - функция morphologicalSmoothInPlace(). И вот она как раз тянет довольно длинную цепочку зависимостей.

Добавлено:
Кстати сделал чтобы страницы с выключенным выравниванием не влияли на мягкие поля других страниц.
Автор: monday2000
Дата сообщения: 06.04.2009 08:07
iit512

Цитата:
А с DjVu Small вообще странный глюк (это, наверное, не к Вам, но все же) -- не хотел писать файлы в список обработки, оказалось, не выносит подстроки "pic" (!).

Это не глюк. Инструкцию надо читать. Сбросьте флажок "Omit SK5.91 sep-files" в опциях - и этот "глюк" уйдёт.
Автор: iit512
Дата сообщения: 06.04.2009 08:19

Цитата:
Сбросьте флажок "Omit SK5.91 sep-files" в опциях

2 Tulon: так может быть, тогда сохранять все же файлы без подстроки "pic" и с расширением "tif"? Наверное, сильно менять код для этого не потребуется? Пожалуйста...
Автор: ndch
Дата сообщения: 06.04.2009 08:37
iit512
Нет нужды в этом!
Автор: Tulon
Дата сообщения: 06.04.2009 22:52

Цитата:
2 Tulon: так может быть, тогда сохранять все же файлы без подстроки "pic" и с расширением "tif"? Наверное, сильно менять код для этого не потребуется? Пожалуйста...

Идея убирать *pic* мне совершенно не нравится. Не СТ его туда добавляет и не СТ на них глючит. К тому же как оказывается это фича такая, хотя на мой взгляд криво реализованная.
Что касается *.tif вместо *.tiff - вы сначала попробуйте сообщить об ошибке авторам Irfan'а - в конце концов проблема именно там. Если открыт файл *.tiff, то будь добр по Ctrl+S сохранить туда же, а не создавать новый файл *.tif. Может пофиксят эту проблему, и менять ничего не придется.

Кстати купил новый ноут, так что с визуальными проблемами скоро разберусь.

Добавлено:
Насчет визуальных проблем; скроллбар на списке стадий у меня и в винде не хочет воспроизводится.
Автор: iit512
Дата сообщения: 07.04.2009 01:38
Большое спасибо за ответ.
Автор: monday2000
Дата сообщения: 07.04.2009 08:08
Tulon

Цитата:
Кстати купил новый ноут, так что с визуальными проблемами скоро разберусь.

Да уж пока эти E-Ink читалки разовьются до нормального размера-качества, тут ноги протянешь - т.е. в плане чтения DjVu-книг. Одна надежда - купить ноутбук и там их и читать... Жаль только, что клавиатуру там не отстегнёшь.
Автор: ndch
Дата сообщения: 11.04.2009 08:55
Уважаемые, быть может добавить в шапку
RSS ленты:

http://scantailor.wiki.sourceforge.net/space/xmla?v=rss_2_0
SourceForge : scantailor - all changes
Всяческие изменения на сайте, в частности:
scantailor : Сборка из исходников под Linux


http://sourceforge.net/export/rss2_keepsake.php?group_id=227253
SourceForge.net - Recent activity for project: scantailor
Всяческие изменения бета-версий, в частности:
jart committed revision 328 to the Scan Tailor SVN repository, changing 3 files



http://sourceforge.net/export/rss2_projfiles.php?group_id=227253
Информация о релизах:
SourceForge.net: Project File Releases: Scan Tailor

Страницы: 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172

Предыдущая тема: Невозможно установить Acronis True Image Home v10.0.4940


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.