Ru-Board.club
← Вернуться в раздел «Программы»

» Scan Tailor: Часть 2

Автор: Tulon
Дата сообщения: 07.03.2010 23:36
Первая сборка с регулируемым деспеклом: http://www.onlinedisk.ru/file/371938/
Регулировку не стал делать плавной (трудно сбалансировать параметры), а вместо этого сделал три уровня плюс четвертый - отключено. Планируется сделать еще пару улучшений, не связанных с качеством удаления пятен, а в остальном все уже имеется.

Прошу потестировать и сообщать случаи, когда на крайних режимах (не считая отключенного) не удается достичь желаемого эффекта.
Автор: denver 22
Дата сообщения: 08.03.2010 00:14
Правильно ли я понимаю, что красным обозначаются зоны удаления контента? Если так, то...
Самый жесткий уровень делает губительные ошибки. Причем на страницах содержания удаляет не точки (беда прежнего алгоритма), а текст.
Tulon
Просто интересно, а изначальный алгоритм какому из нынешних уровней очистки соответствовал? Или их теперь сравнивать уже нельзя?

Добавлено:
Мда... Dewarp создает причудливые формы на выходе ))). Да, знаю, что он в сыром виде.
Ожин раз программа вылетела. Но, думаю, это по моей вине: нажал на вывод, прога стала обрабатывать скан, а я сразу нажал Dewarp. Если повторится - извещу.
Tulon
Спасибо за деспекл! По предварительному тестированию средний уровень хорошо справляется. Будем тестировать дальше... на рабочих материалах.
Автор: Tulon
Дата сообщения: 08.03.2010 00:45
denver 22

Цитата:
Правильно ли я понимаю, что красным обозначаются зоны удаления контента? Если так, то...
Самый жесткий уровень делает губительные ошибки. Причем на страницах содержания удаляет не точки (беда прежнего алгоритма), а текст.

Ну так давайте примеры. Может там DPI неправильный или еще чего. А если ничего такого, то можно и параметры подкрутить. Для этого собственно говоря и прошу тестировать.


Цитата:
Просто интересно, а изначальный алгоритм какому из нынешних уровней очистки соответствовал? Или их теперь сравнивать уже нельзя?

Было сделано два изменения в алгоритме, из-за которых точного соответствия уже не получится. В частности, близость по горизонтали теперь ценится больше, чем по вертикали.


Цитата:
Мда... Dewarp создает причудливые формы на выходе ))). Да, знаю, что он в сыром виде.
Ожин раз программа вылетела. Но, думаю, это по моей вине: нажал на вывод, прога стала обрабатывать скан, а я сразу нажал Dewarp. Если повторится - извещу.

Dewarp я в релизе вообще отключу, иначе меня задолбают баг репортами.
Падать не должна, даже в таком случае. В этой сборке я отключил обработчик падений, но если надо - включу в следующей.
Автор: U235
Дата сообщения: 08.03.2010 01:42
Tulon
По поводу Dewarp'а: алгоритм в том виде в котором есть сейчас будет давать искажения на страницах типа содержаний, т.к. вертикальное положение центра тяжести букв и отточий изначально различаются.
Самый простой выход могу предложить такой: в cc_box поудалять слишком маленькие прямоугольники, соответствующие точкам, запятым и т.д. Т.е. вообще не учитывать их при расчете линии строки.
Автор: VidelSamogO
Дата сообщения: 08.03.2010 02:20
Tulon
Ух! Спасибища! Главное неудобство для про-обработки, учтено! Всё, можно подработать свои запасы.

Добавлено:
Благодарность Вам от имени Infanata! Вас там очень ценят. И ваши разработки.
Автор: StanFreeWare
Дата сообщения: 08.03.2010 07:45
Спасибо за ваш труд!

1. Даже в смешанном режиме картинка на вкладке depesking остается битональной, и находит точки для удаления в области автозоны.
2. Чтобы разглядеть удаленную песчинку на фоне depesking-пятна приходится сильно увеличивать масштаб, почему бы не рисовать ее черной?
3. Мне одному кажется очень странной пустая кнопка? Может быть, все-таки чекбокс + ползунок на три положения? Сейчас с учетом кнопки Применить панель Depeskling выглядит несколько громоздко..
4. Не забудьте поправить заголовок окна "Применить к.."
Автор: Tulon
Дата сообщения: 08.03.2010 09:57

Цитата:
1. Даже в смешанном режиме картинка на вкладке depesking остается битональной, и находит точки для удаления в области автозоны.

Деталь реализации. Возможно в релизе сделаю смешанный вывод.


Цитата:
2. Чтобы разглядеть удаленную песчинку на фоне depesking-пятна приходится сильно увеличивать масштаб, почему бы не рисовать ее черной?

Представьте, что две песчинки были рядом и одна удалилась, а другая нет. В этом случае пятно от удалившейся покроет и оставшуюся, но оставшаяся останется черной. Можно попробовать и другие способы повышения разборчивости удаленных объектов, например сделать пятна бледнее. На практике однако очень редко нужно смотреть, а что именно там удалилось - достаточно издалека взглянуть, где оно было и какой размер имело.


Цитата:
3. Мне одному кажется очень странной пустая кнопка? Может быть, все-таки чекбокс + ползунок на три положения? Сейчас с учетом кнопки Применить панель Depeskling выглядит несколько громоздко..

Изначально было с ползунком, но получилось, что три кнопки - гораздо удобнее эргономически. А насчет пустой кнопки - можете нарисовать перечеркнутый веник, или что-то еще. Сам то я рисовать не умею.


Цитата:
4. Не забудьте поправить заголовок окна "Применить к.."

OK

Добавлено:
U235

Цитата:
По поводу Dewarp'а: алгоритм в том виде в котором есть сейчас будет давать искажения на страницах типа содержаний, т.к. вертикальное положение центра тяжести букв и отточий изначально различаются.
Самый простой выход могу предложить такой: в cc_box поудалять слишком маленькие прямоугольники, соответствующие точкам, запятым и т.д. Т.е. вообще не учитывать их при расчете линии строки.

Учту.

Добавлено:
VidelSamogO
Спасибо за позитив.
Автор: Olive77
Дата сообщения: 08.03.2010 12:46
Tulon

Цитата:
Первая сборка с регулируемым деспеклом: http://www.onlinedisk.ru/file/371938/

у меня под WS2008, к сожалению, после загрузки файлов вылетает.

Пока не разбирался, времени вчера не было.
Может быть проблема и у меня. Чего я туда только не установил.
Автор: Tulon
Дата сообщения: 08.03.2010 14:28
Olive77
Вечером выложу сборку с краш репортером.
Автор: StanFreeWare
Дата сообщения: 08.03.2010 15:20
Tulon
1. Дело не только в смешанном выводе - а в том, что, повторюсь, в автозоне ищутся и находятся песчинки..

2. Перечеркнутый веник никак не впишется. Да и неясно, какого размера брать размер веник для перечеркивания.
В данном случае оптимум - это, imho, чекбокс + три кнопки (неактивные при выключенном чекбоксе). Такое решение уже привычно по панели Выравнивание этапа Макет страниц. Плюс уйдет ненужный дребезг границ кнопок (воспринимаемый как неряшливость) из-за того, что ширина кнопки Применить примерно равна ширине двух кнопок с веником.

Добавлено:
А примерно, в сравнении с типографской точкой чему каждый веник соответствует?
Автор: Tulon
Дата сообщения: 08.03.2010 22:02
Вчерашняя сборка, только с краш репортером: http://www.onlinedisk.ru/file/372680/

StanFreeWare

Цитата:
1. Дело не только в смешанном выводе - а в том, что, повторюсь, в автозоне ищутся и находятся песчинки..

Это не важно. Зона, в которой они находятся, все равно накроется картинкой. В общем не беспокойтесь на этот счет, а подождите до релиза.


Цитата:
2. Перечеркнутый веник никак не впишется. Да и неясно, какого размера брать размер веник для перечеркивания.
В данном случае оптимум - это, imho, чекбокс + три кнопки (неактивные при выключенном чекбоксе). Такое решение уже привычно по панели Выравнивание этапа Макет страниц. Плюс уйдет ненужный дребезг границ кнопок (воспринимаемый как неряшливость) из-за того, что ширина кнопки Применить примерно равна ширине двух кнопок с веником.

Мне все же четыре кнопки в ряд больше нравятся.


Цитата:
А примерно, в сравнении с типографской точкой чему каждый веник соответствует?

Это не просто фильтр по размеру, там все сложнее:
Есть верхний предел по размеру, достигнув которого объект определенно удален не будет. Он достаточно высок, с таким расчетом, чтобы буквы его достигли, а пунктуация и другая мелочь - нет. Ну а дальше строится такая модель:
Объект может удерживать другой объект, если тот не сильно большой и не сильно далеко. Тот в свою очередь тоже может удерживать другие объекты. Потом для каждого объекта проверяем, есть ли в цепочке его удерживающих объект, достигший верхнего предела по размеру. По аналогии с небесными телами в общем.

Добавлено:
Olive77
Падает при попытке использовать OpenGL. Возможно связано с новой версией Qt. Может быть 3D ускорение тоже стоит в релизе отключть - больше проблем от него чем толку.
Автор: denver 22
Дата сообщения: 08.03.2010 23:16
Tulon

Цитата:
Может быть 3D ускорение тоже стоит в релизе отключть

Так Вы же вроде давно его отключили в настройках по-умолчанию. Снова вернули? ИМХО, лучше отключить
Автор: Olive77
Дата сообщения: 08.03.2010 23:35
Tulon

Цитата:
Падает при попытке использовать OpenGL. Возможно связано с новой версией Qt. Может быть 3D ускорение тоже стоит в релизе отключть - больше проблем от него чем толку.

Так и есть.
Правда в начальных версиях использующих 3D ускорение проблем не было.

На выходных потестю с пристрастием.
Спасибо за новую версию.
Автор: Mandor Sawall
Дата сообщения: 09.03.2010 08:55
Вчера вечером попробовал на маленкую книжку (80 стр.) – все на самый сильный деспекл. Только на одну страницу удалила три тире – вот на ету (левый разворот).
Мои заметки:
1. По моему, даже самый сильный деспекл немножко недостаточен. На одну страницу заметил пятно, которое входит в квадрат 3х3 пикселя.
2. Почему-то настройки деспекля не записываются в проект. Каждий раз после загрузки проекта начинает с средный режим.
3. Если на страницу нет контента (пустая страница), закладка Despecle вылетает с ошибкой.
Кстати, болгарский перевод еще старый – с множество опечатками. Пожалуйста, не выпускайте релийз с етим переводом.

Надеюсь, что внятно обяснил (словарь у меня бедный…)

Добавлено:
Да, и еще – что думаете о возможность удалять (запрещать) конретний деспекл через правый клик на красные пятна?
Автор: Tulon
Дата сообщения: 09.03.2010 11:18
denver 22

Цитата:
Так Вы же вроде давно его отключили в настройках по-умолчанию. Снова вернули? ИМХО, лучше отключить

Я имел в виду что лучше его совсем убрать. Еще не встречал человека, у которого эта фича не просто работает, а работает лучше чем режим по умолчанию.

Mandor Sawall

Цитата:
1. По моему, даже самый сильный деспекл немножко недостаточен. На одну страницу заметил пятно, которое входит в квадрат 3х3 пикселя.

Значит оно совсем близко от чего-то более крупного.


Цитата:
2. Почему-то настройки деспекля не записываются в проект. Каждий раз после загрузки проекта начинает с средный режим.
3. Если на страницу нет контента (пустая страница), закладка Despecle вылетает с ошибкой.

Вечером посмотрю.


Цитата:
Да, и еще – что думаете о возможность удалять (запрещать) конретний деспекл через правый клик на красные пятна?

Пока нет.
Автор: monday2000
Дата сообщения: 14.03.2010 21:46
Tulon
Возможно, следует сделать (в отдалённом будущем) возможность вращения зон (авто- и пользовательских).
Автор: U235
Дата сообщения: 15.03.2010 01:25
monday2000
Не представляю, зачем поворачивать картинки отдельно...?
Есть реальный пример такого скана, где это необходимо?
Автор: Tulon
Дата сообщения: 15.03.2010 01:28
Второй пререлиз версии 0.9.8: http://www.onlinedisk.ru/file/378694/

Теперь планирую исправить пару мелочей и посмотреть, нет ли мест, где легко можно поднять производительность. Потом, если к тому времени не пропадет желание, спрошу здешних форумчан на предмет того, какие еще мелочи стоит исправить к релизу. А сам релиз будет через пару недель.

Dewarp и 3D ускорение, которое до сих пор падает, я в релизе уберу. В этой сборке и то и другое еще есть.

Кстати до сих пор мне не предоставили ни одного примера, где деспекл работет сильно плохо. Если есть такие примеры - выкладывайте пока не поздно.
Автор: iit512
Дата сообщения: 15.03.2010 04:13

Цитата:
какие еще мелочи стоит исправить к релизу

Если будет возможность -- можно увеличить линейку бинаризации, скажем, до -30 ... +30 (в тех же единицах)?
Автор: monday2000
Дата сообщения: 15.03.2010 11:36
U235

Цитата:
Не представляю, зачем поворачивать картинки отдельно...?

Для взыскательных сканировщиков, думаю.

Цитата:
Есть реальный пример такого скана, где это необходимо?

Под рукой нет, но изредка бывала такая нужда. Типичный пример - повернули скан по Deskew - а картинки после этого просятся, чтобы их ещё чуть крутануть - до точно горизонтального положения. Это, конечно, на сканах не самого хорошего качества (скажем, неравномерно от верха к низу по вертикали - "гнутых" или "раздутых").
Автор: U235
Дата сообщения: 15.03.2010 13:26
monday2000

Цитата:
Типичный пример - повернули скан по Deskew - а картинки после этого просятся, чтобы их ещё чуть крутануть - до точно горизонтального положения. Это, конечно, на сканах не самого хорошего качества (скажем, неравномерно от верха к низу по вертикали - "гнутых" или "раздутых").

Не бывает такого, чтобы при сканировании картинки поворачивались на один угол, а текст на другой. Да, бывают геометрические искажения у корешка книги или у фотографий, но в этом случае правильнее не deskew каждого рисунка делать, а dewarping всей страницы.
Автор: monday2000
Дата сообщения: 15.03.2010 18:16
U235

Цитата:
но в этом случае правильнее не deskew каждого рисунка делать, а dewarping всей страницы.

Надо смотреть на жизнь реально - dewarping не всегда может работать идеально. Сколь ни говори "сахар", во рту слаще не станет.

По крайней мере, в СК-5.93 вроде бы сделано ручное вращение Picture-зон - и это правильно.

Добавлено:

Цитата:
Не бывает такого, чтобы при сканировании картинки поворачивались на один угол, а текст на другой.

Вот, вспомнил. Бывает - в старых советских книгах - полиграфические неточности, когда рисунок напечатан с наклоном - и его неплохо бы "подкрутить".

И Deskew может сработать не идеально - скажем, для текста его действие окажется приемлемым - а на картинках будет заметно, что поворот негоризонтален на 100%.
Автор: U235
Дата сообщения: 16.03.2010 00:28
monday2000


Цитата:
Надо смотреть на жизнь реально - dewarping не всегда может работать идеально.

Идеального ничего нет, достаточно чтобы работал хорошо. В крайнем случае, также как и для deskew, для dewarpingа всегда можно предусмотреть интерактивное взаимодействие с пользователем (типа сетки из сплайнов, которую можно деформировать вручную).


Цитата:
По крайней мере, в СК-5.93 вроде бы сделано ручное вращение Picture-зон - и это правильно.

изВращение зон в SK, как я понимаю, это своего рода костыль, т.к. в SK зоны накладываются на исходный, неповернутый скан и приходится:
а) размещать каждую зону на скане вручную
б) вращать зоны на угол, на который изначально повернут скан страницы.
В ST же есть:
а) автомаска для растровых картинок (причем на приличного качества сканах может быть достаточно только её) .
б) пользовательские зоны накладываются на уже повернутый скан (если автомаска сработала плохо) .


Цитата:
Бывает - в старых советских книгах - полиграфические неточности, когда рисунок напечатан с наклоном - и его неплохо бы "подкрутить".
Хотелось бы посмотреть на такого рода неточности. Сдвиг при печати разными красками в несколько проходов видел, а вращение картинок относительно текста при однопроходной печати - нет.
Автор: Tulon
Дата сообщения: 16.03.2010 02:02
Активнее тестируем пре-релизы. Сейчас случайно наткнулся на ошибку в деспеклинге, из-за которой аггрессивность росла с понижением DPI вывода. По хорошему пользователи сами должны сообщать о таких проблемах, но увы.

В новой сборке исправил эту проблему и немного ускорил деспеклинг:
http://www.onlinedisk.ru/file/379814/
Автор: Tulon
Дата сообщения: 16.03.2010 23:53
Mandor Sawall
Насчет болгарского перевода:
Сегодня спросил автора перевода, собирается ли он его обновлять. Жду ответа. В любом случае, советую подписаться на список рассылки scantailor-translators. Если автор собирается его обновлять, сможете указать ему на неточности, а если нет - может быть сами возьметесь за поддержку этого перевода.

Добавлено:
Исправил падение, сообщенное через crash reporter. Также отключил и убрал из интерфейса 3D ускорение и выпрямление строк. Новая сборка тут.
Посмотрим, сможет ли кто уронить эту.
Автор: iit512
Дата сообщения: 17.03.2010 09:06
Тестировал предыдущую сборку на сложных (хотя и черно-белых) сканах. Все отлично, спасибо Вам! Особенно впечатлило, как происходит сейчас выравнивание освещения в темных областях у корешка. Просто здОрово!
===
Вы не могли бы исправить одну вещь? Когда пакетный вывод заканчивается, ST переходит на первую страницу и еще раз ее обрабатывает. Это очень неудобно, поскольку первая страница, как правило, нуждается в дополнительной обработке, особенно если это обложка. Чтобы сэкономить время, я, пока идет вывод, обрабатываю первые страницы, а ST портит результат, переписывая первую страницу поверх обработанной. Конечно, я знаю, что это можно предусмотреть и принять меры. Но все-таки, может быть, отключить повторную обработку первой страницы? Я уже писал об этом, и Вы даже вроде бы соглашались со мной.
И очень хочется расширить диапазон бинаризации.
Автор: Olive77
Дата сообщения: 18.03.2010 00:27
Tulon
потестировал.
Удалятель пятен со своей работой справляется хорошо.
Там где раньше удалялись цифры в сносках, такого теперь не происходит.

Но:
у меня почему-то при загрузке файлов их иконки полностью черные, до тех пор пока не пройду последнего этапа.
- > http://www.onlinedisk.ru/file/381757/

На этом же файле видно, что линейки бинаризации от -15 до +15 не хватает (см. таблицу).
Также заметил, что если после прохождения всех этапов кликнуть на "Fix orientation" и затем на "Output" (не меняя никаких параметров), то проходить какое-то время, прежде чем уже вобщем-то обработанный файл будет показан.

Отработка выбора полезной области очень не надежна.
Часто ошибается, если внизу страницы график, номер страницы в цветном прямоугольнике, название главы и т.д. сверху крупными буквами.

Что мешает дать возможность скопировать границы полезной области с одной страницы на другие?

P.S.: к сожалению, уронить не удалось
Автор: StanFreeWare
Дата сообщения: 18.03.2010 06:26

Цитата:
Что мешает дать возможность скопировать границы полезной области с одной страницы на другие?

Тогда мы с большой вероятностью будем получать на несколько пикселов обрезанные по высоте строчки.
Боюсь, для качественных (предобработанных) сканов решение лежит только через переключатель грязные/чистые сканы, отключающий поиск черных полос по периметру.

Tulon
При масштабировании до 600dpi 300dpi-скана высотой, скажем, 1999pix можем в СТ получить результат высотой 3999 пикселей.
Это усложняет кодирование оптимальной вариацией метода разделённых сканов - "текст в 600 dpi, иллюстрации в разрешении сканирования", т.к. csepdjvu считает, что 300dpi-скан должен в таком случае иметь высоту 2000pix:
width = (int)((width+(bsf-1))/bsf),
height = (int)((height+(bsf-1))/bsf)
где bsf - коэффициент деления размеров background относительно foreground,
и отказывается кодировать субсканы, для которых данное соотношение не выполняется.
Фактически, приходится вручную отрезать лишний пиксел 600dpi-вывода в сторонних программах.

Просьба:
по минимуму - добиться точной пиксельной кратности вывода при масштабировании к 600dpi.
По максимуму - рассмотреть возможность приведения пиксельных размеров к величинам, кратным
для 600dpi - 12pix
для 300dpi - 6pix
для 200dpi - 4pix...
чтобы масштабировались без округления.
Автор: Mandor Sawall
Дата сообщения: 18.03.2010 09:28
Tulon
Протестил pre4 на еще одну книжку, проблемы с деспекля не обнаружил. Заметил другое:
1. Если меняю режим деспекля, после обработки знак вопроса остаеться на страницу в превю-бар (только если активна закладка „Despecling“).
2. Если на странице нет контента, на превю-бар вообще не отображаеться последний етап – знак вопроса стоит.
3. Если на странице нет контента, на превю-бар выводиться только нижная половина странице. Думаю, что понимаю почему ето так, но все-таки неприятно смотриться. Два раза етот (д)ефект появился на все страницы в превю, хотя тогда изчезала нижная 1/4 странице, а верхные 3/4 показывались нормально (только на превю; страницы были обработаны нормально), но так и не сумел воспроизвести.

Болгарский перевод – да, если автор забросит ето, я возмусь. Пожалуйста, сообщите когда есть информация об етом.

Добавлено:
Да, и еще – если добавить новой файл в проект через „Insert after“ после етапа „2. Split pages“ (для двойной скан), новой файл появляеться между левого и правого разворота, а не после правого разворота.
Автор: Dashout
Дата сообщения: 18.03.2010 18:25
Olive77

Цитата:
Что мешает дать возможность скопировать границы полезной области с одной страницы на другие?

Присоединяюсь
StanFreeWare

Цитата:
Тогда мы с большой вероятностью будем получать на несколько пикселов обрезанные по высоте строчки.

откуда такой вывод..., исходя из чего, каких допущений...?

Добавлено:
Tulon
в настоящее время, операция ориентации страниц в СТ настроена на горизонталь текстовой строки.
не понятно, что лучше, по вертикали, по горизонтали если страница искривлена (угол не прямой).
по логике, нужно измерять диагональ (по обеим позициям) и если есть расхождение - приводить изображение к прямоугольному (исправлять призму).
можно ли это учесть?

Страницы: 12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758596061

Предыдущая тема: CmCkA v4


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.