Ru-Board.club
← Вернуться в раздел «Программы»

» Scan Tailor: Часть 2

Автор: LonerDergunov
Дата сообщения: 03.02.2013 22:55
Маленький нюанс.
В режиме Color/Grayscale если поставить-снять галочки White margins или Equalize illumination - на картинке не появляется знак вопроса. Визуально не видно, что она "ещё не готова".
Автор: monday2000
Дата сообщения: 04.02.2013 18:40
Я сделал англоязычное описание Scan Tailor Featured и выложил его там же:

https://sourceforge.net/projects/scantailor/files/scantailor-devel/featured/

LonerDergunov

Цитата:
и выбор чувствительности был бы весьма кстати.

Это-то верно, только я за это не возьмусь - потому что это уже чистая математика, в которой разбираться надо - на теоретическом уровне.
unreal666

Цитата:
Синий цвет фигово видно. Красный был бы лучше. Да и по части мигания верно подмечено.

Я за это не возьмусь. Проблема совершенно пустячная ИМХО. Лучше займусь чем-то более существенным.
Автор: unreal666
Дата сообщения: 04.02.2013 18:57
monday2000

Цитата:
Проблема совершенно пустячная ИМХО.

ну если время, затраченное на визуальный поиск определившейся зоны картинок (0,5-3 сек. на стр. => 8-50 мин. на 1000 стр.), считается пустячным, то да.
Автор: LonerDergunov
Дата сообщения: 04.02.2013 18:58
monday2000

Цитата:
Я за это не возьмусь. Проблема совершенно пустячная ИМХО.

А синий цвет зон выделения - это кому-то кроме автора - удобно?
Может вообще в вашем форке глобально убрать мигание и изменить синий цвет на красный ?
Автор: monday2000
Дата сообщения: 04.02.2013 19:13
unreal666

Цитата:
считается пустячным, то да.

А Вы попробуйте ручной dewarping сделать - вот тогда и увидите, сколько на него уходит времени.
LonerDergunov

Цитата:
Может вообще глобально убрать мигание и изменить синий цвет на красный ?

Я думаю, если бы цвет зон был бы красным, то мне бы сейчас говорили - "режет глаза, поставьте какой-нибудь более терпимый цвет". А если не красный - то какой - может, зелёный? По мне так синий в самый раз.

А мигание вообще зачем, как Вы думаете? А затем, что оно позволяет увидеть каждый участок зоны покрытый синим и нет (через полсекунды) - что упрощает визуальный контроль правильности расстановки зон. Мигание - отличная придумка, убирать его ИМХО неразумно.

Автор: LonerDergunov
Дата сообщения: 04.02.2013 19:41

Цитата:
А затем, что оно позволяет увидеть каждый участок зоны покрытый синим и нет

Теоретически я понимаю, но на практике в основном большинство сканов - чёрно-белые. И лично мне на чёрно-белых картинках наоборот - сложно различить нынешний оттенок синего цвета от чёрного, особенно если он ещё и не сплошной, а появляется-исчезает (мигает).
Особенно если участок чёрный, особенно если зона не прямоугольная, а вычурный рисунок. Приходится ожидать доли секунды когда рисунок снова мигнёт и вглядываться - что в нём выделено автоматически, а что не выделено.
Обводить рисунок полностью вместе со всеми дефектами серой страницы - не очень хорошая идея. Вариант оставить как есть, понадеявшись, что "вроде разглядел, кажись весь рисунок подмигивает" - тоже ненадёжный, часто какие-нибудь серые участки внутри чёрного участка на самом деле не подмигивали, что выясняется уже после обработки.
Плюс на каждой странице теряются доли секунды на ожидание пока это самое мигание появится.


Цитата:
А Вы попробуйте ручной dewarping сделать - вот тогда и увидите, сколько на него уходит времени.

Было дело, пробовал, занятие не для слабоневрных; правда у меня и страницы были сфотканы разворотом - так что там всё сложно выглядело.
Автоматический dewarping совсем плохонький (год назад был во всяком случае) - страницы в трубочку скручивал. Имхо его или сильно переделывать нужно или же оставить как есть - изредка в качестве косметики использовать.

Автор: unreal666
Дата сообщения: 04.02.2013 20:00

Цитата:
А Вы попробуйте ручной dewarping сделать - вот тогда и увидите, сколько на него уходит времени.

dewarping мне очень редко нужен, а вот зоны картинок есть почти в каждой книге, по крайней мере технической.
Автор: LonerDergunov
Дата сообщения: 04.02.2013 20:23
Кстати, а есть ли у программы хоткеи?
Напрягает постоянно волочить мышку - переключиться на зону картинок, на стандартный просмотр...
Add to auto layer - Substract from auto layer тоже делались с каким-то извращённым понятием об интерфейсе. Убрать из автослоя - надо выделить картику, кликнуть правой кнопкой мыши, отметить чекбокс, нажать ОК... Для следующей картинки чтобы добавить в автослой - опять проделать ту же процедуру. Появление выбора во всплывающем окне или сбоку на странице было бы комфортней, чем открывать-закрывать диалоговые окна каждый раз. А кликнуть на хоткей было бы ещё гораздо быстрее.

И да - вот эта процедура опять подводит к цвету выделения. Забыл вызвать смену типа слоя (добавить в зону картинок или исключить), не заметил, что картинка не подсвечивается - получился результат противоположный ожидаемому. Была бы подсветка более наглядной - было бы наглядней. Обводятся картинки одинаковыми красными линиями и приходится ждать-вглядываться - добавлена ли зона в зону картинок или наоборот исключена.

Добавлено:
Бывает по изображению попадаются мелкие чёрные точки, с которыми призван бороться Despeckicling.
Проблема в том, что работает он на автомате, и кроме трёх режимов настроить нельзя (и не надо). Но добавить режим ручного выделения точек - не помешало бы. Сейчас приходится в режиме Fill Zones вручную обводить зону с точкой. Точка одна, но приходится её выделять, рисуя треугольник или четырёхугольник и стараясь не задеть рядом расположенные буквы. Неплохо было бы если в этой зоне можно было дважды кликнуть левой кнопкой мыши (или нажать левую кнопку мыши с зажатой клавишой на клавиатуре) - и в режим выделения попала одна единственная точка (+небольшое пространство вокруг неё).
Автор: LonerDergunov
Дата сообщения: 04.02.2013 23:01
monday2000
Ещё такое давнее пожелание.
Но не можете ли вы доработать производительность программы? Сейчас Scan Tailor использует лишь незначительную часть имеющихся ресурсов. Что на старом Атлоне-3000 с 2 гигами оперативки, что на четырёхядерном Core i7-920 с 18 гигами оперативки и исходниками-результатом-темпом на SSD - скорость обработки не сильно отличается.
Core i7-920 загружен лишь на 10-12%, памяти используется 100-300 Мб.
Повышение приоритета ничего не даёт.
Я бы с удовольствием выделил программе в несколько раз больше памяти и ресурсов процессора, лишь бы картинки отрисовывались в несколько раз быстрее.
Автор: monday2000
Дата сообщения: 05.02.2013 17:22
unreal666

Цитата:
dewarping мне очень редко нужен,

Но я же учитываю некое "суммированное" коллективное мнение, прежде чем что-то реализовывать в Scan Tailor Featured.
LonerDergunov

Цитата:
Но не можете ли вы доработать производительность программы?

Нет, это для меня слишком круто.

Цитата:
Автоматический dewarping совсем плохонький (год назад был во всяком случае) - страницы в трубочку скручивал. Имхо его или сильно переделывать нужно или же оставить как есть - изредка в качестве косметики использовать.

Вот именно, вплоть до того, что вообще полностью переделывать. Или другая идея - распространять на произвольную страницу выставленные красные точки на текущей (а там их чуток по месту править).

Без вменяемого деворпинга о сколь-нибудь нормальной сканобработке можно и не мечтать. Оставлять искривленные сканы "как есть" - это каменный век, конечно же надо научиться их выпрямлять с более-менее приемлемыми издержками на трудозатраты.
BookRestorer превосходит Scan Tailor по качеству деворпинга, но и он часто лажает.
Автор: anagnost96
Дата сообщения: 05.02.2013 18:36
На самом деле, там даже и автоматический деворпинг, по моему мнению, нормальный -- ну, если не ждать от него чудес. С ним имеется, по большому счету, одна серьезная проблема, из-за которой его сейчас можно применять только для страниц, равномерно заполненных двусторонне выровненным текстом. Дело в том, что для определения правого края СТ ищет ровно две строки текста, обладающих определенными качествами, после чего считает, что прямая, заданная их правой границей, должна быть вертикалью. Так вот, при этом он автоматически хватается за самую длинную строку, и если она вдруг окажется длиннее остальных (ну, например, колонтитул на странице шире основного текста), то предполагаемая вертикаль на самом деле окажется диагональю с соответствующими последствиями для выравнивания. В общем, если бы можно было ввести дополнительную проверку, которая бы исключала из рассмотрения строки, длина которых заведомо лежит за пределами основного разброса значений, то это сразу сняло бы значительную часть проблем. Я как-то пытался с этим разобраться, но не довел дело до конца.
Автор: LonerDergunov
Дата сообщения: 05.02.2013 21:12
monday2000
Ещё пожелание - обрабатывать страницу только по запросу, а не после каждого переключения режима.
Сейчас это реализовано не очень удобно и страница рендерится почём зря. Поставил зоны картинок, переключился на Fill Zones - сидишь ждёшь пока картинка отрендерится. Переключился на другую страницу, потом вспомнил что на предыдущей не поставил какую-то зону или просто хочется убедиться что не забыл поставить - сидишь ждёшь пока картинка отрендерится.
Хотелось бы вначале отметить всё что надо - а потом уже поставить на пакетную обработку, а не обрабатывать страницы поштучно.
Автор: monday2000
Дата сообщения: 05.02.2013 22:10
LonerDergunov

Цитата:
Ещё пожелание - обрабатывать страницу только по запросу, а не после каждого переключения режима.

Это терпимо ИМХО. Нет предела совершенству, а мои ресурсы весьма ограничены.
anagnost96

Цитата:
Я как-то пытался с этим разобраться, но не довел дело до конца.

Важнее деворпинга ИМХО сейчас задач вообще никаких нет - во всём нашем книгосканировочном хозяйстве. Всё уже у нас есть в принципе - а деворпинга нет. Даже разработка робосканера-автомата и то пока бессмысленна - пока нет путёвого деворпинга.
Автор: LonerDergunov
Дата сообщения: 05.02.2013 22:22

Цитата:
Это терпимо ИМХО

При наличии терпения можно вообще каждую страницу вручную обрабатывать
Программа для того и создана - чтобы облегчить и ускорить рутинную работу. И лишние сэкономленные минуты вместо терпения и ожидания можно было плодотворно потратить на более тщательную обработку скана.
Автор: LonerDergunov
Дата сообщения: 06.02.2013 18:41
monday2000
Я, наверное, надоел уже...
Но ещё вот такое пожелание. В режиме Mixed сделать автоматическую подчистку пространства вокруг выделенных зон картинок.
Почему? Да всё банально - для экономии времени при обработке - чтобы вручную отметить только нужные зоны и не заниматься удалением излишних..
Не все сканы одинаковые, иногда бывает, что бумага старая, серая, жёлтая, коричневая... И если выделить зону картинок, то в итоге вот так как-то получается:
http://rghost.ru/43600553.view
Если исключить пространство вокруг из зоны картинки, то результат не лучше:
http://rghost.ru/43600867.view

Приходится заходить в Fill Zones и обводить картинку с четырёх сторон дабы края её были ровненькие. Очень много времени уходит.

Технически, думаю, это выглядит несложно: Заменить белым цветом все те пиксели из автоматически определённой зоны картинок, которые находятся вне зоны, обведенной пользователем.
Автор: monday2000
Дата сообщения: 06.02.2013 20:22
LonerDergunov
Эта проблематика меня интересует. Правда, я не задумывался именно о подчистке пространства вокруг зон.

Цитата:
Технически, думаю, это выглядит несложно: Заменить белым цветом все те пиксели из автоматически определённой зоны картинок, которые находятся вне зоны, обведенной пользователем.

Да, это реально. Более того - я хочу автоматизировать и облагораживание авто-зон. Если Enhanced рисует вокруг авто-зон описанный прямоугольник - то я планирую научиться автоматически делать внутри авто-зон максимальный по размеру вписанный прямоугольник - чтобы границы зон были в виде прямых линий - а не как извилистый растр (что есть сейчас). А излишки между вписанным и авто-зоной можно и забелять - нет проблем. Действительно, сейчас на подчистке авто-зон теряется непозволительно много времени - потери на 2-м месте после потерь времени на dewarping.
Автор: LonerDergunov
Дата сообщения: 06.02.2013 21:03

Цитата:
Если Enhanced рисует вокруг авто-зон описанный прямоугольник

Попробовал - функция автоматического прямоугольника понравилась. Неплохо бы добавить её в Featured тоже (хотя бы взять нынешний кусок кода из Plus, а потом уже дорабатывать).
Заметил, что автопрямоугольники в Enhanced и Plus реализованы по-разному. Если страница чересчур старая (жёлто-коричневая бумага) - то Enhanced выделяет автоматом всю страницу с текстом, а вот Plus - только картинку, а текст делает чёрно-белым.
Автор: monday2000
Дата сообщения: 06.02.2013 21:54
LonerDergunov

Цитата:
Неплохо бы добавить её в Featured тоже

Не, я не буду её брать - слишком топорна, я буду своё с нуля делать.
Автор: LonerDergunov
Дата сообщения: 07.02.2013 04:14
Жаль, лучше бы пока топорная была, чем никакая.
Кстати, прямоугольное выделение опять поломалось ((
Вроде в версии от 1 февраля не было такого, а сейчас есть.
Выделить прямоугольник, потом зажать Ctrl и потянуть за уголок. Чуть-чуть, но исказится, получится уже не прямоугольник. Если зажать Ctrl и потянуть за другой уголок - ещё исказится.
Автор: monday2000
Дата сообщения: 07.02.2013 17:23
LonerDergunov

Цитата:
Выделить прямоугольник, потом зажать Ctrl и потянуть за уголок. Чуть-чуть, но исказится, получится уже не прямоугольник. Если зажать Ctrl и потянуть за другой уголок - ещё исказится.

Что-то я у себя такого не смог воспроизвести. Попробуйте setup http://sourceforge.net/projects/scantailor/files/scantailor-devel/featured/scantailor-featured-2013.02.03-32bit-install.exe/download - главное, чтобы там всё было нормально.

Цитата:
Жаль, лучше бы пока топорная была, чем никакая.

Ну что значит "пока"? Я же ещё не закончил. Если бы я не отвлекался на всякую незапланированную мелочёвку - то было бы быстрей. А добавлять фичи временно - нереально - потом что, вымарывать их? Это была бы лишняя значительная работа.
Автор: LonerDergunov
Дата сообщения: 08.02.2013 02:27

Цитата:
Что-то я у себя такого не смог воспроизвести

Архив - три скрина:
http://rghost.ru/43632170
Поставил прямоугольную зону - первый скрин.
Потянул за правый верхний угол вверх вправо, а затем вернул обратно - второй скрин. Видно, что зона уже отличается от изначальной.
После этого полученную фигуру потянул за правый нижний угол вниз вправо, а затем вернул обратно - третий скрин.
Разумеется, все трансформации проводились с зажатым Ctrl.

Чем больше картинка - тем больше искажение.

Проверил - в версии за 27 января уже был этот баг.
Кстати, интересный нюанс (наверное тоже относится к этому багу). Если взять прямоугольное выделение за угол (например, правый верхний) и потянуть его влево вниз за пределы левой нижней точки - то фигура исказится очень сильно, и после возврата этого угла в исходную точку - фигура значительно отличается от прямоугольника.

Добавлено:
monday2000
И ещё вас немного помучаю просьбой.
Старая бумага. Страницы с чёрно-белыми картинками (думаю, очень много книг/журналов именно в таком виде). Режим Black and white не подходит, ибо картинки с полутонами. Значит выбирается режим Mixed и выделяются зоны картинок.
Изначально картинки были чёрно-белыми с оттенками серого, от старости или плохого сканера они стали жёлтыми, синими, коричневыми... Цель - восстановить их исходный цвет. Добавьте, пожалуйста, в режим Mixed возможность для каждой страницы установить насыщенность (Saturation) в ноль дабы картинки уже в процессе обработки приобретали свой исходный цвет.
В идеале бы добавить возможность задать яркость, контрастность, насыщенность для всех зон картинок и для всех страниц в режиме Color/GrayScale, но в большинстве случаев можно ограничить лишь понижением насыщенности.


Кстати, а за что отвечает крыжик "Use 3D acceleration" в настройках? У меня он неактивный.
Автор: slava_kry
Дата сообщения: 08.02.2013 05:02
LonerDergunov

Цитата:
И ещё вас немного помучаю просьбой.

Уже обсуждали это. Ни к чему это в ST. Хотите обрабатывать - подготавливайте отдельно благо программ тьма, либо по мере нужности.
Автор: TeXpert
Дата сообщения: 08.02.2013 16:04
Господа, требуется подсказка насчет последовательности действий, поскольку опыта совсе нет, а времени в обрез

Имеется книга djvu, не очищенная по краям (есть отдельные косые страницы, но это еще не самое главное). Книгу перегнал в tiff'ы. Есть идея нарезать страниц так, чтобы исключить черные полосы, с этой целью попробовал задать поля для всех страниц сразу, так оказалось, что при этом в некоторых страницах текст обрезывается (скан неравномерный), а если задать полезную область, то не все страницы одинакового размера, как хотелось бы. Хотя, чую, надо начинать с задания полезной области, но как добиться, чтобы неполные страницы не обрезывались? И как перегнать потом обратно в djvu? Работаю под Linux'ом

Спасибо
Автор: monday2000
Дата сообщения: 08.02.2013 18:22
LonerDergunov

Цитата:
Разумеется, все трансформации проводились с зажатым Ctrl.

Больше всего увиденное на скринах похоже на недожатый Ctrl. Попробуйте другой Ctrl, с другой стороны клавиатуры. Я не смог воспроизвести проблему.

Цитата:
Добавьте, пожалуйста, в режим Mixed возможность для каждой страницы установить насыщенность (Saturation) в ноль дабы картинки уже в процессе обработки приобретали свой исходный цвет.

Да, это действительно не для СТ задача.

Цитата:
Кстати, а за что отвечает крыжик "Use 3D acceleration" в настройках? У меня он неактивный.

Так и должно быть, это Tulon его дезактивировал - потому что СТ из-за него падал у всех. Там в исходниках код:

Код:
#if !defined(ENABLE_OPENGL)
    // Right now the only setting is 3D acceleration, so get rid of
    // the whole Settings dialog, if it's inaccessible.
    actionSettings->setVisible(false);
#endif
Автор: F777
Дата сообщения: 08.02.2013 19:09
monday2000
А нельзя ли реализовать возможность отключения сглаживания?
Автор: LazyKent
Дата сообщения: 08.02.2013 20:35
TeXpert

Цитата:
И как перегнать потом обратно в djvu? Работаю под Linux'ом



Цитата:
Под Linux проще всего - через http://any2djvu.djvuzone.org/ Он работает на DjVu-движке коммерческого качества.


Нет и нет.
Лучшее проверенное средство — от коллеги iit512: https://github.com/ashipunov/img2djvu
Кстати, какой дистрибутив? В openSUSE у нас есть все пакеты на данную тему.


Автор: monday2000
Дата сообщения: 08.02.2013 22:18
LazyKent

Цитата:
Нет и нет.
Лучшее проверенное средство — от коллеги iit512: https://github.com/ashipunov/img2djvu

Но ведь этот скрипт работает, как я понимаю, на базе minidjvu? Если да - то это не лучшее решение, http://any2djvu.djvuzone.org/ , скорее всего, лучше по качеству (создания маски).

Хотя бы надо передний слой DjVu создать в http://any2djvu.djvuzone.org/, а задний тогда уж и через https://github.com/ashipunov/img2djvu можно.

Или же, как вариант, попробовать заменить в https://github.com/ashipunov/img2djvu minidjvu на documenttodjvum.exe (из DjVu Small), запускаемую в Wine (не знаю, возможно ли это, я в Linux не очень разбираюсь.)

Второй вариант - заменить в скрипте https://github.com/ashipunov/img2djvu использование minidjvu на использование http://any2djvu.djvuzone.org/ (для той же в точности цели - создания переднего слоя DjVu) - тоже неплохо.

Добавлено:
F777

Цитата:
А нельзя ли реализовать возможность отключения сглаживания?

А зачем?

Если и можно - то это непросто, ведь это уже будет программирование тредов (потоков) в Qt - а это посложней, чем все мои добавления.
Автор: LazyKent
Дата сообщения: 08.02.2013 22:46
monday2000
Полагаю, нам обоим не стоило отвечать на этот вопрос. Непосредственно к теме он не относится.
И вообще, всё сообщение от TeXpertх лучше бы смотрелось в теме http://forum.ru-board.com/topic.cgi?forum=93&topic=3514
Автор: LonerDergunov
Дата сообщения: 08.02.2013 22:56
monday2000

Цитата:
Попробуйте другой Ctrl, с другой стороны клавиатуры.

И с другой стороны, и вообще на другой клавиатуре на другом компьютере.
Да и был бы Ctrl недожатым - искажение было бы намного большим, а так углы почти-почти возвращаются в свои прежние координаты.

Кто-то ещё может проверить и прокомментировать ситуацию, описанную в моём предыдущем посте?

monday2000
Кстати, а вот это подтверждаете:

Код: интересный нюанс (наверное тоже относится к этому багу). Если с зажатым Ctrl взять прямоугольное выделение за угол (например, правый верхний) и потянуть его влево вниз за пределы левой нижней точки - то фигура исказится очень сильно, и после возврата этого угла в исходную точку - фигура значительно отличается от прямоугольника.
Автор: TeXpert
Дата сообщения: 09.02.2013 11:28
monday2000
Цитата:
Ничего не понятно, что Вам нужно? Просто обработать сканы в СТ обычным образом нельзя?
Да вроде бы ясно написал: есть книга, составленная из грязных (внутренние поля с черными вертикальными полосами, если непонятно --- у четных страниц справа, у нечетных --- слева, ясно же, что книгу несильно раскрывали при скане) сканов, надо отрезать эти полосы. Я так же ясно написал, что новичок в этом деле, поэтому мне непонятен Ваш "Просто обработать обычным образом" --- прикажете гадать, что такое "обычным образом"?
Цитата:
Это как? Это вообще в Скан Тейлоре?
А где же еще? Думаете, зачем я сюда пишу?
Цитата:
Тоже непонятно. Если размеры полезных областей сильно разнятся от страницы к странице - притом, что это сканы одной книги - значит, сканы разнобойны по размерам, и их надо предварительно уравнять в размерах.
Я же спрашиваю как раз об этом! Устанавливаю на одной из заполненных страниц размеры полезной области, указываю, чтобы эти параметры принять для всех страниц, но почему-то слабо заполненные страницы остаются маленькими же
Цитата:
Посмотрите, одинаковы ли пиксельные размеры и DPI у всех сканов. Если нет - значит, это разнобой. Если разнобой - то обычно размеры отличаются в 2 или целочисленное число раз
Посмотрел в gimp --- размеры страниц слегка отличаются, а DPI одинаков --- 600
Вот, к примеру, для 2 страниц:

Цитата:
2846 x 4634
600 x 600

2844 x 4564
600 x 600


LazyKent
Цитата:
Кстати, какой дистрибутив?
RHEL 6.1 Workstation, версия программы --- 0.9.11.1
Насчет другой темы --- они бы оттуда направили бы сюда, потому как по конкретной программе вопрос

Страницы: 12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758596061

Предыдущая тема: CmCkA v4


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.