Ru-Board.club
← Вернуться в раздел «Программы»

» Scan Tailor

Автор: denver 22
Дата сообщения: 05.12.2008 11:11
2-ю книгу решил сразу в 2-х программах сделать: СК и СТ.
Мда... Даже при том, что Split Pages и Select Content немало ошибок сделали на пустом месте (где всё очевидно было и аналогично другим страницам), СТ на порядок быстрее все выполнила, практически ничего не настраивал и исправление ошибок как-то по-удобнее (приятнее, если хотите) и быстрее.
Тот же СК почти на 80%-х разворотов налажал как мог так, что вручную всё надо исправлять.
Tulon, респект тебе !!!

P.S. Не подумайте, что тупо критикую СК. Работал ею очень долго. Был доволен. Но сейчас есть более достойная замена!
Автор: Tulon
Дата сообщения: 05.12.2008 12:08
Хотелось бы пример, где ошибается Split Pages. Я думал что эта стадия весьма надежна.
Фактически есть только 2 ситуации, где она может ошибиться:
1. Если нет даже намека на линию сгиба.
2. Если нет черных полей вокруг страницы. Эта проблема стоит только в режиме с одной страницой на скан.

В текущей версии из SVN есть одно улучшение по сравнению с последней выпущенной версией.
Она справляется с такой ситуацией: одна страница на скан + черные поля + отсутствие линии сгиба.
Автор: bolega
Дата сообщения: 05.12.2008 12:17
denver 22
А можно узнать, что именно быстрее выполнила? Качество книги получилось одинаковым или нет? (или сканы были ч/б?)

Цитата:
почти на 80%-х разворотов налажал как мог так

Это скорее всего говорит о том, что что-то не так с настройками у Вас. Если бы все было так плохо (а 80% - это очень плохо), я бы сам уже давно от sk отказался
Автор: Tulon
Дата сообщения: 05.12.2008 12:41
monday2000
Мне вот стало интересно, почему вы настаиваете на лицензии GPL2? Может вы не в курсе, но если какой-то код лицензирован под "GPL2 или выше", то вы вправе изменить лицензию хоть на "GPL2 только", хоть на "GPL3 только", хоть на "GPL3 или выше", поскольку все это подмножества "GPL2 или выше". Копирайты авторов при этом естественно надо сохранить.
В общем единственная уважительная причина настаивать на GPL2, это если в проекте есть код под "GPL2 только" либо он линкуется с библиотекой под "GPL2 только", что встречается не часто.
Автор: denver 22
Дата сообщения: 05.12.2008 14:37
Tulon, в ряде случаев ошибка была при отсутствии черной полосы посередине, но при наличии её скраю книги (ну так получилось). Вот он её и подхватил. Но ошибка только иногда проявлялась. На большинстве файлов нормально. А иногда ошибка выскакивала на обычных файлах.
Если выкрою время, вышлю тебе именно те файлы, на которых программа споткнулась.

bolega, привет. С автором СК ещё не общался .
Сканы ч/б. При сканировании похоже была задана область МНОГО больше размеров разворота. Черные поля есть по всему периметру сканов. Вот часть нижних полей и оказывалась внутри области резаков. Т.о. общие рассчитанные программой СК размеры конечного файла были превышены. Ну и полоски от нижних черных полос в выходной файл попадали почти везде. Получалось, что надо руками почти у всех сканов нижний резак поднимать.
Не исключаю, что есть быстрый способ их поднятия. Причем вспоминается, что в СК это реализовано. Просто вспомнить не смог (давно со сканами не работал).

По поводу быстродействия я имел ввиду суммарное время работы в программе. Учитывая ситуацию с количеством ошибок в СК (повторюсь - только в этой книге), я даже не стал все это вручную исправлять. Кайфолом как-то. Сразу перешел к тестированию СТ.
Если же говорить об обработке на каждом этапе, то:
Split Pages < Process в СК <= Page Layout < Output.
2 средних процесса сравнивались очень субъективно. В СК есть удобная фича - показывается время обработки. Для пользователя очень удобна. Можно отвлечься от программы на заранее определенное время .

Вот и в СТ нарвался на неприятность. На схемах есть мелкие обозначений на выносных линиях. Он их почти полностью удалил .
Отсюда вопросы:
- планируется ли реализация регулировки очистки как в СК?
- будет ли реализована "зона исключения" как в СК?

В свете этого (хоть уже успел сделать даже посточистку 70% сканов в Фотошопе), придется вернуться в СК и сделать толковую обработку. Иначе в книге теряется всякая ценность с такими кастрированными схемами.

Отсюда делаю для себя ВЫВОД:
СТ во многом перспективен. Для меня в нем (в отличие от СК при прочих равных...) нравятся удобство работы, интуитивность, открытость, кроссплатформенность (в свете попыток мною миграции на Линукс).
НО, пока программа имеет мало настроек. И в случае сложных по качеству или содержанию сканов, СТ не может корректно выполнить работу. И СК имеет очевидную фору. Разумеется для пользователей, которые ею уже пользовались или готовы изучить сложный интерфейс программы.

P.S. Как же хорошо, что у меня есть обе ваши программы, обе бесплатные и обеими теперь умею пользоваться
Автор: bolega
Дата сообщения: 05.12.2008 14:47
denver 22

Цитата:
При сканировании похоже была задана область МНОГО больше размеров разворота

А, понятно. Вы имели ввиду draft. Это тот самый тяжелый случай, с которым я даже не стал возиться, т.к. таких сканов приходится единицы на тысячу нормальных.
Мне интересно именно время обработки серых сканов
Автор: denver 22
Дата сообщения: 05.12.2008 14:58
Tulon, может скомпилишь новую версию? Готов стать бета-тестером основных функций программы. Пока аппетит есть . И книг набралось много для обработки. А случаев там будет море..
Тут уже есть люди, которые с алгоритмами помогают. А я буду отписывать баги, просто результаты, мнение...

bolega, ну да. Резаки-то при Draft-е проставляются. Вот они и прихватили часть черного поля снизу в область рисунка... почти на всех сканах
Автор: ghosty
Дата сообщения: 05.12.2008 15:03
denver 22

Цитата:
bolega, ну да. Резаки-то про Draft-у проставляются. Вот они и прихватили часть черного поля снизу в область рисунка... пости на всех сканах

Просто это действительно вполне можно считать Вашей ошибкой. Намного рациональнее и быстрее предварительно выделить область сканирования, что, как правило, все и делают.
Даже если очень хочется сканировать на всю длину пробега каретки (не представляю, зачем это может понадобиться), драйвера многих сканеров предлагают автообрезку страницы по черному полю.
Автор: monday2000
Дата сообщения: 05.12.2008 15:17
Tulon

Цитата:
Мне вот стало интересно, почему вы настаиваете на лицензии GPL2?

Чисто для страховки. А вдруг что-то попадётся "только GPL2".
Автор: Tulon
Дата сообщения: 05.12.2008 15:23
denver 22


Цитата:
Вот и в СТ нарвался на неприятность. На схемах есть мелкие обозначений на выносных линиях. Он их почти полностью удалил .

Это известная проблема. К следующему релизу пофиксю.


Цитата:
- будет ли реализована "зона исключения" как в СК?

Я с такими вещами в СК не работал, поэтому не совсем понимаю, что это такое. Что и на каких этапах там исключается? Если на выводе, то такая фича есть в TODO.


Цитата:
Tulon, может скомпилишь новую версию? Готов стать бета-тестером основных функций программы. Пока аппетит есть . И книг набралось много для обработки. А случаев там будет море..
Тут уже есть люди, которые с алгоритмами помогают. А я буду отписывать баги, просто результаты, мнение...

Это можно, правда тут мне понадобиться помощь. Как я уже писал, я сейчас за границей и с собой взял только старенький iBook, который еще на PowerPC. Windows туда в принципе не поставить, и соответственно виндовую версию не собрать. В общем нужен доброволец для сборки виндовой версии. Нужно скачать исходники из SVN и потом следовать инструкциям в файле packaging/windows/readme.txt

Исходники из SVN скачать можно софтом типа TortoiseSVN
SVN URL будет такой: https://scantailor.svn.sourceforge.net/svnroot/scantailor/trunk

Предупреждаю, что еще придется скачивать зависимости, а это за сотню мегов, "благодаря" в основном Qt.
Та версия, что в SVN, тоже не самая текущая. Самая текущая у меня на компе. Вот доведу до ума выравнивание освещения - залью в SVN.
Автор: denver 22
Дата сообщения: 05.12.2008 15:33
ghosty, не спорю, что запас в области сканирования был превышен. Но делал я это сознательно, из-за особенностей самой книги. Чтобы в процессе сканирования не пришлось корректировать эт область.
Так или иначе задачу-то все равно надо решить. Я описал поведение обеих программ в конкретном случае.

Добавлено:
Tulon
"Exclude zone" позволяет исключить зону (рисунок или что-то ещё) от очистки. Все остальное на этом скане обрабатывается как обычно. Т.о. можно заранее "спасти" на рисунках места, которые воспринимаются как грязь.

По поводу SVN. Я этим никогда не занимался. Но если после скачивания всего упомянутого сам процесс компиляции будет автоматическим (не надо будет пялиться под часа в экран), то можно и попробывать . Но только когда сольешь последний SVN .
А зависимости в 100 метров надо будет качать с каждой новой версией SVN?
Когда сольешь, свисни. Попробую сделать. Если кто-то из знатоков раньше меня этим не займется.
Автор: Tulon
Дата сообщения: 05.12.2008 16:12

Цитата:
А зависимости в 100 метров надо будет качать с каждой новой версией SVN?

Нет, только один раз. Да, я еще забыл сказать что этот бегемот Qt компилится несколько часов. Это тоже к счастью всего один раз надо сделать. Сам процесс компиляции в достаточной степени автоматизирован, но пунктов в инструкции хватает:
Инструкция по сборке
Автор: monday2000
Дата сообщения: 05.12.2008 23:12
Я сделал новую заметку:

25. Бинаризация Sauvola Thresholding

http://www.djvu-soft.narod.ru/bookscanlib/025.htm
Автор: monday2000
Дата сообщения: 07.12.2008 19:02
Я сделал новую заметку:

26. Бинаризация Maximum Entropy Thresholding

http://www.djvu-soft.narod.ru/bookscanlib/026.htm
Автор: monday2000
Дата сообщения: 08.12.2008 21:44
Я сделал новую заметку:

27. Бинаризация Mixture Modeling Thresholding

http://www.djvu-soft.narod.ru/bookscanlib/027.htm
Автор: denver 22
Дата сообщения: 09.12.2008 10:45
Tulon
На сколько я понял, все, что надо качать, указано в инструкции. Если меня хватит на скачивание, и смогу QT скомпилить, дам знать. Я никогда этого не делал, равно как не компилил QT-программы под Винду.
Так что как зальешь обновленный SVN, свисти. Чтобы тут тему не засорять, прошу сказать про обновление на мою почту denver-22 [puppy] narod [point] ru.
Если, конечно, тебе это интересно. Мне новую версию попробывать явно интересно. А заодно посмотрю как QT-программы компилятся под Винду.
Автор: Tulon
Дата сообщения: 09.12.2008 12:34
OK, как обновлю SVN - дам знать. Думаю до конца недели сделаю это.
Автор: monday2000
Дата сообщения: 09.12.2008 21:35
Background Correction

http://rsb.info.nih.gov/ij/plugins/background.html

Добавлено:
Там - http://rsb.info.nih.gov/ij/plugins/index.html - вообще много чего интересного:

http://bigwww.epfl.ch/thevenaz/UnwarpJ/
Автор: denver 22
Дата сообщения: 10.12.2008 08:42
Tulon
Скидываю обещанные файлы, на которых ST не смог распознать правильно разворот, а также удалил часть информации на выносных линиях (img025):
http://narod.ru/disk/4292238000/for-ST.zip.html
Ты видел моё сообщение в личке? Я вроде даже разобрался как исходники слить. Пока на нынешней версии попробывал. Остается дождаться твоей помощи по скачиванию из п.5 и новую версию SVN.

Для других:
Качество сканирования уже обсуждалось. Но такие сканы встречаются не редко. Поэтому всё скидывать на неправильное сканирование неуместно.

Добавлено:
Tulon
Обрати внимание как ST обрабатывает область с названием насосов на сканах (затемненная область с текстом). Я понимаю, что это очень сложное место.
Сейчас обрабатываю эти сканы в ScanKromsator-е и вижу большую разницу. После ST остается эффект грязи вокруг текста, а после SK - остаточное затенения явно говорит об изначальном оформлении страницы. И такой результат я даже дочищать не буду. Он мне нравится (после SK). Это только к сведению, моё ИМХО.

P.S. Доволен изменениями в работе SK 5.91. Заметил мелочи, но приятно. Надеюсь многие из этих идей будут реализованы в ST, но в более интуитивно понятном виде.
Автор: Tulon
Дата сообщения: 10.12.2008 12:16
Да, с черно-белыми сканами всегда тяжело. Были бы они серыми, линия сгиба хоть в каком-то виде была бы видна, и СТ ее бы нашел. Впрочем я вижу решение этой проблемы. Надо ввести эвристику, чтобы в режиме разворота игнорировались линии, которые слишком близко к краю. В этом случае вообще никаких линий не было бы найдено, и произошел бы откат на старый алгоритм, который ищет не линии, а свободное пространство.
Автор: denver 22
Дата сообщения: 10.12.2008 13:17
Согласен с таким алгоритмом.
Хоть программа и развивается, но все же не могу не сказать, что мне не хватало при обработке последней книги "зон исключения".

Вот на днях начал прочитал "ScanAndShare 1.07". Обращаюсь к Tulon и monday2000, вы все таки рекомендуете сканировать в сером?
Если ДА, то в CT аналогично при обработке переводить 300dpi серого в 600dpi ч/б?

P.S. Письмо получил. Спасибо. Скачаю и буду ждать новый SVN. Может успею на старом потренироваться.
Автор: are
Дата сообщения: 10.12.2008 13:42
думаю, всегда будет лучше сканировать в сером и потом повышать разрешение вдвое. Это экономит время сканирования, а качество лучше, чем при сканировании сразу в высоком разрешении, но в ч-б.

кромсатор сглаживает при upsampling, получается хорошо.
Автор: Tulon
Дата сообщения: 10.12.2008 13:58
Сканировать нужно конечно в сером. Насчет разрешения - чем больше, тем в принципе лучше. Вопрос только в том, сколько времени уйдет на сканирование и сколько на обработку. Кстати СТ поддерживает несимметричные DPI, например 600x300. Сам я не пробовал, но мне кажется что увеличение разрешения в одном из направлений (в направлении, перпендикулярном движению каретки) не должно замедлять сканирование.
Автор: denver 22
Дата сообщения: 10.12.2008 15:31
are, Tulon
Спасибо за ответ. Когда я начинал изучать книгопроизводство, с серым ещё понимания не было. (Изучал я это мастерство по мануалам monday2000) И много книг сделал, работая только с ч/б.
Потом начал встречать рекомендации сканировать в сером. Но какие-то расплывчатые. Да и дополнительно много настроек в программах надо новых изучить. А мне уже кайфолом было .
Сейчас похоже уже этот механизм одобрен массами. Учту.

Тогда сразу вопрос по СТ:
1. С учетом советов вышеуказанного руководства. Если исходники будут в сером с 300 dpi, какие настройки оптимальны на выходе?
600 dpi и bitonal?
2. Чем "Black and White" отличается от "Bitonal"?
Автор: monday2000
Дата сообщения: 10.12.2008 15:47
denver 22

Цитата:
вы все таки рекомендуете сканировать в сером?

Конечно. Это много лет как известная истина.
Автор: Tulon
Дата сообщения: 10.12.2008 17:34

Цитата:
2. Чем "Black and White" отличается от "Bitonal"?

Ну я подумал, а почему бы не дать возможность скажем чуть затемнить цвет фона, а то от ярко белого глаза устают. Вот и получился режим Bitonal. То есть это тот же черно-белый, только с возможностью указать свои цвета вместо черного и белого. Вообще я подумываю над тем, чтобы убрать его. Во первых вряд-ли кто будет им пользоваться, а во вторых он не совместим с автовыделением картинок, которое будет в следующей версии.


Цитата:
1. С учетом советов вышеуказанного руководства. Если исходники будут в сером с 300 dpi, какие настройки оптимальны на выходе?
600 dpi и bitonal?

600 dpi и Black and White
Автор: monday2000
Дата сообщения: 10.12.2008 20:53
Я сделал новую заметку:

28. Бинаризация Niblack Thresholding

http://www.djvu-soft.narod.ru/bookscanlib/028.htm
Автор: Tulon
Дата сообщения: 10.12.2008 23:37

Цитата:
Я сделал новую заметку:

28. Бинаризация Niblack Thresholding

У вас в описательной части есть неточности. В этой реализации интегральные изображения не используются, хотя вполне могли бы использоваться.
Интегральное изображение - это матрица, размером с исходную матрицу (изображение), где в каждой ячейке записана сумма значений всех ячеек исходной матрицы, которые не ниже и не правее данной ячейки.
Построить интегральное изображение можно за один проход по исходному, а потом оно позволяет за константное время получить сумму ячеек в произвольном прямоугольнике. В алгоритмах типа Sauvola и Niblack, интегральные изображения используются для мгновенного вычисления среднего значения и стандартного отклонения пикселей в аппертуре.
Вот как оно у меня реализовано:
IntegralImage.h
Binarize.cpp
Автор: monday2000
Дата сообщения: 11.12.2008 08:54
Tulon
Т.е. матрица кумулятивных сумм? Хорошо, я напишу "вспомогательные" изображения.

Добавлено:
Я вообще-то практически не вникаю в эти алгоритмы - ради экономии времени. Сначала я их нашлёпаю побольше - а вникать может уже кто-то другой. Самое главное, на что я обращаю внимание - я стараюсь правильно "перебить" очередной алгоритм, т.е. чтобы он получился как можно более идентичным исходному.

Добавлено:
Пускай эти алгоритмы и не идеальны, и их описания не идеальны - главное - та скорость, с которой мы приближаемся к светлому часу СК-независимости.
Автор: monday2000
Дата сообщения: 11.12.2008 21:10
Я сделал новую заметку:

29. Фильтр Adaptive Wiener

http://www.djvu-soft.narod.ru/bookscanlib/029.htm

Добавлено:

Цитата:
Хорошо, я напишу "вспомогательные" изображения.

Сделал это.

Страницы: 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172

Предыдущая тема: Невозможно установить Acronis True Image Home v10.0.4940


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.