Ru-Board.club
← Вернуться в раздел «Программы»

» Scan Tailor: Часть 2

Автор: monday2000
Дата сообщения: 24.05.2013 20:29
После краевого деворпинга желательно прогонять обработанный им скан через Deskew. Видимо, это одна из особенностей этого алгоритма, что он порождает небольшой угловой перекос скана. Сейчас я думаю над тем, чтобы добавить автоматический Deskew к результату краевого деворпинга.
Автор: iit512
Дата сообщения: 29.05.2013 05:18
Может быть, в Featured можно реализовать две простые вещи? Их уже тут предлагали несколько раз, но пока безрезультатно...
1) Посадить на цифры (1, 2, 3) горячие клавиши перехода от этапа к этапу обработки. Очень упростит работу на сложных сканах.
2) Сделать так, чтобы выделение страниц сохранялось при переходе на другой этап обработки. Тогда можно будет, например, обработать страницы определенной высоты определенным деспеклом, и т.д. В ранних версиях выделение сохранялось, но потом это куда-то пропало.
И еще одна вещь, я ее уже тут подробно описывал. Нельзя ли как-то заставить СТ не обрабатывать страницы в тот момент, когда пользователь их просто выделяет (чтобы, скажем, поменять им тип вывода)? Это очень сэкономит батарею ноутбука.
Ну и такая мелочь. СТ, завершая обработку, опять переходит на первую страницу. Первая страница -- это обычно обложка, и ее часто требуется обработать дополнительно где-то еще. Так вот, если, пока идет вывод,ее обработать и оставить в папке вывода, СТ ее сотрет А можно как-то ему сказать оставаться на последней странице?
Автор: monday2000
Дата сообщения: 29.05.2013 08:52
iit512
Одного меня мало - явно нужен ещё один человек, чтобы он также сделал какой-нибудь свой клон СТ.

Цитата:
2) Сделать так, чтобы выделение страниц сохранялось при переходе на другой этап обработки. Тогда можно будет, например, обработать страницы определенной высоты определенным деспеклом, и т.д.

Непонятно.

Цитата:
Ну и такая мелочь.

Мелочами заниматься пока что неинтересно. Времени на реализацию они потребляют столько же, а эффект - мизерный.

Добавлено:
Мне тоже можно помочь - если кто-то хочет. Помочь в плане деворпинга. Помочь можно так:

1. Возьмите сырой скан (искривленный, требующий деворпинга). Обрежьте до одной страницы, поверните, чтобы строки были горизонтальны, сделайте Deskew (возможно ещё и бинаризацию).

2. Обрежьте скан так, как это делает "Полезная область" - т.е. чтобы остался только текст. Примерно, не сильно строго.

3. Посмотрите на самую верхнюю и самую нижнюю строку текста. Попробуйте программно автоматически построить полилинию (в виде набора точек), максимально точно повторяющую изгиб самой верхней строки текста. То же самое - для самой нижней строки текста.

Что значит "полилиния"? Представьте обычную строку текста. Её ориентацию можно выразить прямой линией. А искривленную строку можно выразить кривой (называется "сплайн"), или полилинией, представляющую из себя отдельные точки сплайна (взятые через одинаковые расстояния), соединенные отрезками прямой. Полилиния - это сэмплированный сплайн.

Это будет модель искривления, достаточная для СТ. Т.е. достаточно просто научиться строить такую модель искривления (в виде 2 полилиний) - и проблема деворпинга будет решена. Tulon'ский и мой автоматический деворпинги недостаточно точно (не идеально) строят такие полилинии (автоматически).

По запросу "Dewarping" в Яндексе можно найти кучу PDF-описаний разных алгоритмов деворпинга. Их можно почитать, как они строят такие полилинии.
Автор: iit512
Дата сообщения: 29.05.2013 18:14
Да, все понимаю. У каждого, кто хоть сколько-нибудь активен, полно своих проектов и очень мало времени. Обычная проблема Open Source. Но Вы этим уже занялись -- вдруг у Вас найдется время и желание помочь другим пользователям?
> ... Непонятно.
Я имел в виду следующее. Если выделить несколько страниц, то при переходе на другой этап обработки (щелчке на одном из пунктов в верхнем левом углу) выделение пропадает.
Автор: GameKowal
Дата сообщения: 30.05.2013 18:38
Scan Tailor Featured 2013.05.23 почему-то постоянно самопроизвольно закрывается при запуске финальной обработки файлов.
Файлы tiff b/w 300 dpi, размером по 400-600 кб. Из 20 файлов обрабатывается только 4-6, после чего прога падает
Автор: monday2000
Дата сообщения: 31.05.2013 09:41
GameKowal
Давайте эти файлы вместе с файлом-заданием.

Добавлено:
Новая сборка - 2013.05.31

https://sourceforge.net/projects/scantailor/files/scantailor-devel/featured/

Добавлено автоматическое Deskew, применяемое автоматически к результату краевого и ручного деворпинга. Пока что это сделано не самым оптимальным образом - не различаются разные случаи ручного деворпинга - ручной после авто-деворпинга и ручной после краевого. Но лучше так, чем никак.
Автор: LazyKent
Дата сообщения: 31.05.2013 10:34
monday2000

Ошибка компиляции в Linux:

Код:
[ 46s] /home/abuild/rpmbuild/BUILD/scantailor-featured-2013.05.31/filters/output/OutputGenerator.cpp: In member function 'QImage output::OutputGenerator::processWithDewarping(const TaskStatus&, const FilterData&, ZoneSet&, const ZoneSet&, output::DewarpingMode, dewarping::DistortionModel&, const output::DepthPerception&, bool, bool, imageproc::BinaryImage*, imageproc::BinaryImage*, DebugImages*, output::PictureShape, PageId*, IntrusivePtr<output::Settings>*) const':
[ 46s] /home/abuild/rpmbuild/BUILD/scantailor-featured-2013.05.31/filters/output/OutputGenerator.cpp:1683:69: error: no matching function for call to 'output::OutputGenerator::maybe_deskew(QImage, output::DewarpingMode&) const'
[ 46s] /home/abuild/rpmbuild/BUILD/scantailor-featured-2013.05.31/filters/output/OutputGenerator.cpp:1683:69: note: candidate is:
[ 46s] In file included from /home/abuild/rpmbuild/BUILD/scantailor-featured-2013.05.31/filters/output/OutputGenerator.cpp:19:0:
[ 46s] /home/abuild/rpmbuild/BUILD/scantailor-featured-2013.05.31/filters/output/OutputGenerator.h:232:10: note: QImage& output::OutputGenerator::maybe_deskew(QImage&, output::DewarpingMode) const
[ 46s] /home/abuild/rpmbuild/BUILD/scantailor-featured-2013.05.31/filters/output/OutputGenerator.h:232:10: note: no known conversion for argument 1 from 'QImage' to 'QImage&'
[ 46s] make[2]: *** [filters/output/CMakeFiles/output.dir/OutputGenerator.cpp.o] Error 1
Автор: monday2000
Дата сообщения: 31.05.2013 10:59
LazyKent
Попробуйте это:

http://rghost.ru/46396499
Автор: LazyKent
Дата сообщения: 31.05.2013 11:22
monday2000
Спасибо. Скомпилировалось нормально. Работоспособность пока не проверял.
Автор: monday2000
Дата сообщения: 31.05.2013 11:47
LazyKent
Не любит линуксовый компилятор ссылки. Поэтому в подобных случаях приходится менять ссылки на разыменованные указатели - как в СИ.

Добавлено:
Залил на оффсайт исправленную версию:

https://sourceforge.net/projects/scantailor/files/scantailor-devel/featured/
Автор: Myxb
Дата сообщения: 31.05.2013 21:47
Под Debian Wheezy все время валится при включении краевого деворпинга. Иногда также при ручном, при перетаскивании точек. Segmentation fault. У всех так или у меня чего-то не хватает в системе просто?
Автор: monday2000
Дата сообщения: 01.06.2013 08:17
Myxb
Выложите, пожалуйста, свои сканы (с файлом-заданием) на которых происходит ошибка.
Автор: Salvatorul
Дата сообщения: 08.06.2013 10:30

Цитата:
Под Debian Wheezy все время валится при включении краевого деворпинга. Иногда также при ручном, при перетаскивании точек. Segmentation fault. У всех так или у меня чего-то не хватает в системе просто?

Сегфолтится при создании новых точек регулярно, иногда при перетаскивании, причем так и на оригинальном СТ и на всех форках, не только от monday2000. Ubuntu 12.04 - 13.04. На неделе проверю как оно ведет себя под виндой в аналогичных случаях.
Автор: lakoum
Дата сообщения: 09.06.2013 21:28
Уважаемый monday2000, коллеги,


Объясните, пожалуйста: следует ли каким-то образом указывать разный dpi для текста и иллюстраций? Или при разделённых сканах автоматически используется исходное разрешение для иллюстраций?
Автор: monday2000
Дата сообщения: 09.06.2013 21:58
lakoum

Цитата:
следует ли каким-то образом указывать разный dpi для текста и иллюстраций?

Нет.

Цитата:
Или при разделённых сканах автоматически используется исходное разрешение для иллюстраций?

Разумеется. Сканы ведь разделяются на субсканы внутри Scan Tailor - из исходного скана.

Однако, задние субсканы могут быть в 2..12 раз меньше (по пиксельным размерам) на входе у DjVu Imager - и он это автоматически воспримет как соответствующий ДЗФ (делитель заднего фона).
Автор: lakoum
Дата сообщения: 09.06.2013 22:01
Спасибо огромное! Как-то получилось, что я ST пользуюсь вроде бы давно, а о Featured узнал только сейчас — впервые столкнулся с цветными иллюстрациями. Низкий поклон!
!
Автор: lakoum
Дата сообщения: 10.06.2013 08:06
Помогите, пожалуйста!

(Возможно, вопрос не для этого форума, тогда подскажите, где задать, пожалуйста).

В djvu после ST — зоны картинок размыты. Текст тоже заметно хуже оригинала. На исходных полноцветных картинках чёткость гораздо выше — как текста, так и иллюстраций.

Пытаюсь понять, что я делаю не так. Зоны картинок указал отдельно, собирал с помощью DJVu Imager. Может быть дело в том, что я указал в DJVu Imager ДЗФ 4, а надо было 2 или не указывать вообще?
Есть ли какая-то возможность максимально сохранить качество исходника, если не принципиален размер (мне главное было устранить наклон)? Или же если я делаю поворот и обрезку, то всё равно появится размытость, даже если я всё сохраню просто в цвете с исходным разрешением?

Сорри, что одни вопросы, просто раньше делал всё только чёрное-белое и исходники были плохие, так что от результатов был в восторге — а тут исходники хорошие, просто чуть подправить геометрию, сшить и сделать оглавление. Не знаю, в каком порядке искать решение.
Автор: monday2000
Дата сообщения: 10.06.2013 19:25
lakoum

Цитата:
Пытаюсь понять, что я делаю не так.

Всё очень просто. Делайте по инструкции http://djvu-soft.narod.ru/scan/djvu_imager.htm

Цитата:
Может быть дело в том, что я указал в DJVu Imager ДЗФ 4, а надо было 2 или не указывать вообще?

Да, можно и так.

Цитата:
Есть ли какая-то возможность максимально сохранить качество исходника, если не принципиален размер (мне главное было устранить наклон)?

DjVu Imager - это и есть максимальное качество при минимальном размере. Лучшего варианта не найти (максимального качества при минимальном размере). Если же нужно высокое качество - попробуйте сжать в PhotoDjVu - только размер будет огромным (или в JBIG2 PDF можно попробовать).
Автор: lakoum
Дата сообщения: 10.06.2013 21:48
monday2000

Спасибо большое!
Автор: unreal666
Дата сообщения: 11.06.2013 06:05
monday2000

Цитата:
или в JBIG2 PDF можно попробовать

В смысле JBIG2 ? JBIG2 - это же только для монохромных изображений.
Автор: amaid
Дата сообщения: 12.06.2013 07:04
monday2000, а нет ли планов со временем заняться юзабильностью скантэйлора?
Вчера, после очередного вечера, который я провел, кликая по одним и тем же клавишам (собрание сочинений перегонял в djvu), пришло в голову, как хорошо было бы для типовых работ в ST иметь профили, в которых запоминались бы общие для всех страниц установки, особенно полей (2 шт.) и вывода (4 шт.). Загружаешь профиль, поправил пару страничек вручную и - вперед и с песней. Сэкономилось бы море кликов. Не знаю, правда, насколько трудоемко и вообще возможно такое добавление в ST. Но помечтать не запретишь же
Автор: monday2000
Дата сообщения: 12.06.2013 17:21
unreal666

Цитата:
В смысле JBIG2 ? JBIG2 - это же только для монохромных изображений.

Оговорился. Конечно же, для картинок - JPEG2000.

Добавлено:
amaid

Цитата:
monday2000, а нет ли планов со временем заняться юзабильностью скантэйлора?

Таких планов у меня нет. Но никто ведь не запрещает желающим сделать свой клон СТ.
Автор: amaid
Дата сообщения: 12.06.2013 18:05
да, как-то не пришел в голову такой простой выход
спасибо за подсказку, дружище monday!
дело за пустячком - научиться программировать
Автор: monday2000
Дата сообщения: 12.06.2013 18:30
amaid

Цитата:
дело за пустячком - научиться программировать

Кстати, в данном случае всё сильно облегчается тем, что Tulon очень хорошо помогает (создавать клон СТ) - советами и объяснениями. Без этого мне было бы практически немыслимо сделать свой клон СТ. Я думаю, что достаточно изучить язык СИ, а затем основные положения языка СИ++ (сильно в дебри можно не вдаваться). Фактически надо просто прочитать (правда, внимательно) 2-3 книги-учебника - одну по языку СИ, вторую (или ещё одну) по языку СИ++. Этого должно хватить. Я учился по таким книгам:

Язык программирования СИ. Керниган, Ритчи (её можно и не читать кстати).
Как программировать на СИ Дейтел, Дейтел - изумительно классная книжка
Как программировать на СИ++ Дейтел, Дейтел - тоже изумительно классная книжка

Всё - никаких других книг по СИ или СИ++ я не читал, мне этого хватило с головой. Я, правда, совсем не знаю STL - ну да пока она мне и не нужна.

Да - ещё я прочитал в своё время Charles Petzold - Programming Windows - отличная книжечка (но для СТ она, возможно, не нужна).

Вот и все мои познания.

А мне одному на все пожелания (реализовать ту или иную фичу) просто не разорваться. Мне кажется, что программировать - это не очень сложно, это просто тяжело (ломать себе мозг). Это как копание земли - просто, но тяжело. Так что, когда меня просят реализовать ту или иную фичу, это всё равно, как если бы меня попросили выкопать траншею в земле - сделать это можно, но требует сходных трудозатрат. Поэтому я вынужден быть весьма избирательным в реализации пожеланий пользователей.
Автор: amaid
Дата сообщения: 12.06.2013 20:49
да я не имел в виду предъявлять что-то, всё понимаю, и пример Тулона перед глазами
а профили прикрутить - задача явно не из простых
просто пошутил немножко, лет мне уже много, чтобы программировать учиться, успеть бы те дела переделать, в которых соображаю малость

Автор: StanFreeWare
Дата сообщения: 15.06.2013 04:12
monday2000

Падает ST и STF.
Архив с проектом и сканами отправил в личку.


Добавлено:
Еще забавный глючек
на процентах пяти сканов типа PackBits RLE TIFF (формат экспорта по-умолчанию для XChange Pdf Viewer), например, http://yadi.sk/d/kAHGIvQE5pW28, получаем примерно такие искажения картинки: http://yadi.sk/d/BiLoHjtx5pW4e
Автор: monday2000
Дата сообщения: 16.06.2013 07:46
StanFreeWare
Спасибо. Я посмотрю.
Автор: woodyfon
Дата сообщения: 18.06.2013 11:50
Маленькое пожелание:
В режиме "Смешанный" дать возможность пользователю выбирать отдельно разрешение для цветной/серой и бинарной части изображения и выводить отдельно такие части. При экспорте бинарные изображения сохранять в сжатии без потерь (CCIT Group 4).
Пожелания не такие, что обязательно хочется видеть, но было бы неплохо.
Автор: monday2000
Дата сообщения: 18.06.2013 21:44
woodyfon

Цитата:
В режиме "Смешанный" дать возможность пользователю выбирать отдельно разрешение для цветной/серой и бинарной части изображения и выводить отдельно такие части.

А зачем это?
Автор: woodyfon
Дата сообщения: 19.06.2013 12:54
Зачастую высокое разрешение для иллюстраций не требуется. На скане могут быть иллюстрации и текст - режим смешанный. Иллюстрации оставить с текущим разрешением (например, в 300), а разрешение текста поднять (например, до 600). И обрабатывать отдельно текст и иллюстрацию. Если так сделать, то это ускорит процесс обработки и сэкономит место на диске.
Касательно изменений интерфейса программы:
В режиме "Смешанный" с галочкой "Разделенный вывод" появляется в области разрешения две колонки: для текста и иллюстраций, где можно и выставить соответствующее разрешение.
+
Хочется видеть экспорт для выбранных изображений (уже обработанных), а не всех сразу.

Страницы: 12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758596061

Предыдущая тема: CmCkA v4


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.