Ru-Board.club
← Вернуться в раздел «Программы»

» Scan Tailor

Автор: KlsAlex
Дата сообщения: 26.11.2009 12:39
Спасибо за пояснения. Брал информацию отсюда, там это не описано. Заглянуть в wiki-документацию не догадался. Извините за невнимательность.
Автор: monday2000
Дата сообщения: 26.11.2009 14:08
StanFreeWare

Цитата:
И как-то нужно обновить зеркало документации - оно устарело.

Я, кстати, как раз собирался спросить "как пользоваться зонами в СТ?". Сижу, читаю. Весьма оригинально. Я тут как раз в топике по СК спрашивал на тему автораспознавания зон. Зеркало документации у себя обновлю, разумеется.

Добавлено:
Tulon
Сделаете ли вы версию с патчем от anagnost96? Если да, то не могли бы Вы там дополнительно сделать следующее:

1. Вывод сканов без бинаризации (а только прошедших все стадии). (Хотя в идеале вообще сделать бы отключение стадий по желанию).

2. Вывод текстового файлика (или в XML) с мета-информацией о зонах на каждом скане пакета: количество, форма, координаты.

Это нужно для того, чтобы использовать СТ для предварительной обработки сканов - с последующей загрузкой их в СК и докрамсыванием уже там (текстовый файлик из п.2. можно будет преобразовать в формат out-task для СК - я могу это сделать).

Сделать сканобрабатывающую связку "СТ + СК" - по-моему, это было бы мощно.

Добавлено:
Tulon
А в основной версии СТ - почему-то в папке "automask" чёрно-белые трафаретки создаются по форме авто-распознанных зон. А если я, скажем, отгрыз кусок автораспознанной зоны - то всё равно при выводе трафаретка не меняется соответствующим образом (или я не нашел как этого добиться). Это ведь неправильно - на DjVu Imager такой вывод не подашь.
Автор: anagnost96
Дата сообщения: 26.11.2009 14:41
monday2000


Цитата:
1. Вывод сканов без бинаризации (а только прошедших все стадии). (Хотя в идеале вообще сделать бы отключение стадий по желанию).


А чем это будет отличаться от вывода в режиме "цветной"?


Цитата:
2. Вывод текстового файлика (или в XML) с мета-информацией о зонах на каждом скане пакета: количество, форма, координаты.


А что мешает парсить файл проекта СТ? Там как раз XML.
Автор: monday2000
Дата сообщения: 26.11.2009 14:48
anagnost96

Цитата:
А чем это будет отличаться от вывода в режиме "цветной"?

Точно - ничем. Я просто сразу не заметил этот режим.

Цитата:
А что мешает парсить файл проекта СТ? Там как раз XML.

Да, смотрю его уже. Но что-то не вижу я там информации о зонах. Она там есть?

Добавлено:

Цитата:
Сделать сканобрабатывающую связку "СТ + СК"

Тогда пользователь мог бы выбирать: в случае простых и качественных сканов - обрабатывать их полностью в СТ. В случае же трудных сканов - начинать обработку в СТ, автораспознавать зоны - далее перегружать в СК и там докрамсывать.

Добавлено:
anagnost96

Цитата:
А чем это будет отличаться от вывода в режиме "цветной"?

Пожалуй, тем, что нужно будет одновременно выводить сканы в сером виде + файлик метаданных о зонах. Сейчас-то зоны работают, как я понял, только в режиме "Смешанный"?

Добавлено:
И ещё я не вижу, как делать "смешанный режим" пакетно. Т.е. не каждой странице по-отдельности ставить "смешанный режим" - а лучше бы пробежаться быстренько по сканам, натыкать быстро некую галочку "будет в смешанном режиме" - и тогда уже и запустить пакетный перевод выбранных страниц в "смешанный режим".

Кстати, при выборе вкладки "Зоны картинок" можно было бы автоматом переключать в "смешанный режим" - а сейчас выводится предупреждение "Зоны картинок доступны только в режиме "Смешанный"".
Автор: monday2000
Дата сообщения: 26.11.2009 17:12
Tulon
У меня возникла такая мысль: как бы мне "вытащить" алгоритм авто-распознавания зон из СТ? Я бы хотел его "перебить" под FreeImage. Где мне смотреть в исходниках ST?

Добавлено:
Нет ли у Вас исходников этого алгоритма в каком-то более простом для понимания виде, нежели чем зашитый в исходники СТ? Если нет - то не могли бы Вы сделать, скажем, консольное приложение, авто-определяющее на 1 скане зоны и выдающее сведения о них в виде массивов координат и т.п. А то ведь извлечь этот алгоритм из исходников СТ явно непросто.
Автор: ndch
Дата сообщения: 26.11.2009 17:52
vkni

Цитата:
Спасибо за ответ. Но, прошу прощения, что я ввёл вас в заблуждение. Естественно, я могу сделать и поддерживать патч для меню. Но это совершеннейшая мелочь, которую либо нужно внести в Авторский код (на мой взгляд, очень качественный), либо выбросить из головы.
Чем второй вариант не нравится ? Во многих религиях смирение - добродетель. Это применительно пояснения "правильности" в нижеследующей цитате.


Цитата:
Я постараюсь проконсультироваться с авторитетным товарищем - Андреем Черепановым, который уже много лет локализует различные версии KDE. Он должен был уже давно сформировать "чувство правильного русского языка в меню" .


"Правильность" это по-большому счёту религия. Спорить - глупо.

Хочется что бы было так как нравится тебе - делай и юзай сам. Уговаривать "большинство" - дело не благодарное.
Автор: Tulon
Дата сообщения: 26.11.2009 23:30
StanFreeWare
Отвечая на ваш вопрос про принцип despeckling'а ST: я выкладывал тут док на эту тему некоторе время назад. Сделайте поиск на Despeckle.odt или Despeckling.odt

monday2000

Цитата:
Сделаете ли вы версию с патчем от anagnost96?

Патченную версию я сюда выкладывал некоторое время назад. Как найдете, киньте ссылку в шапку, если вам не сложно.


Цитата:
А в основной версии СТ - почему-то в папке "automask" чёрно-белые трафаретки создаются по форме авто-распознанных зон. А если я, скажем, отгрыз кусок автораспознанной зоны - то всё равно при выводе трафаретка не меняется соответствующим образом (или я не нашел как этого добиться). Это ведь неправильно - на DjVu Imager такой вывод не подашь.

Эти файлы пишутся не с целью скармливания их в сторонние программы, а для того, чтобы не прогонять авто-определение зон, когда требуется их всего-лишь отобразить в редакторе зон.


Цитата:
Пожалуй, тем, что нужно будет одновременно выводить сканы в сером виде + файлик метаданных о зонах. Сейчас-то зоны работают, как я понял, только в режиме "Смешанный"?

В режиме "Серый / Цветной" зоны не играют роли. Зоны фактически определяют участки, которые не нужно бинаризовывать. В режиме "Серый / Цветной" вообще ничего не бинаризуется, так что от зон толку нет. Если уж вам сильно нужна и информация о зонах, и серый вывод, то можете определять зоны в режиме Смешанный, а для вывода переключаться в "Серый / Цветной". Информация о зонах никуда не денется из проекта в результате переключения в другой режим.


Цитата:
Кстати, при выборе вкладки "Зоны картинок" можно было бы автоматом переключать в "смешанный режим" - а сейчас выводится предупреждение "Зоны картинок доступны только в режиме "Смешанный"".

Меня бы такое раздражало, особенно если учесть, что переключение режима ведет к повторному выводу текущей страницы в новом режиме.


Цитата:
У меня возникла такая мысль: как бы мне "вытащить" алгоритм авто-распознавания зон из СТ? Я бы хотел его "перебить" под FreeImage. Где мне смотреть в исходниках ST?

Тут


Цитата:
Нет ли у Вас исходников этого алгоритма в каком-то более простом для понимания виде, нежели чем зашитый в исходники СТ?

У U235, который кстати и придумал этот алгоритм, на домашней страничке есть скрипт на матлабе. Собственно с него я и переносил реализацию в ST. Только не обольщайтесь маленькими размерами скрипта. Для начала вам придется реализовать серую морфологию под FreeImage, а это солидный объем кода. Кстати автообнаружение картинок сносно работает только при условии, что мусор по краям уже обрезан и освещение уже выровняно.
Автор: monday2000
Дата сообщения: 27.11.2009 08:36
StanFreeWare

Цитата:
2. ST_default_gauss.png - это djvu, получаемый программой DjVu Small после фильтрации изображений фильтром Гаусса,

В принципе, я мог бы встроить в DjVu Imager фильтр Гауссово размытие (из Гимпа) - для картинок. Но надо ли? Ведь в самом DjVu (насколько я знаю) есть аналогичное размытие - делается параметрами "ДЗФ" и "Качество задн. фона" в DjVu Imager.

Вот что ИМХО действительно надо - так это сделать регулирование яркости для картинок в DjVu Imager. А то они слишком тёмные в итоге получаются, как правило.

Добавлено:
Tulon

Цитата:
Тут

Спасибо, посмотрю как-нибудь.

Цитата:
найдете, киньте ссылку в шапку, если вам не сложно.

Закинул.

Добавлено:
Tulon
Не могли бы Вы сделать экспорт мета-информации о зонах в текстовый файлик (XML предпочтительней)? (причём не просто авто-определённые зоны как сейчас, а авто-определённые зоны, подправленные пользователем - с удалёнными-добавленными частями). (Кстати, такая фича, по-видимому, устранит нужду в патченном СТ от anagnost96).

Это чтобы я мог подать вывод СТ на вход DjVu Imager.

Добавлено:
Сделал зеркало: http://djvu-soft0001.nxt.ru/scantailor_0_9_7_1_anagnost96.rar (6,30 МБ)
Автор: anagnost96
Дата сообщения: 27.11.2009 09:45
monday2000

Я так понимаю, информацию об автоопределенной зоне нельзя скинуть в текстовый файл, ибо она растровая. Именно поэтому и нужны картинки automask. А что касается пользовательских зон, то они и так записываются в файл проекта. Что тут еще выводить?
Автор: monday2000
Дата сообщения: 27.11.2009 10:30
anagnost96

Цитата:
Я так понимаю, информацию об автоопределенной зоне нельзя скинуть в текстовый файл, ибо она растровая.

Ах, вон оно что. А я как-то сразу и не сообразил. Значит, Ваша патченная версия имеет смысл только в том случае, если пользователь делал свои пользовательские зоны, верно?

Тогда моя просьба к Tulon снимается (насчёт вывода координат зон в текстовый файлик).
Автор: anagnost96
Дата сообщения: 27.11.2009 10:48

Цитата:
Значит, Ваша патченная версия имеет смысл только в том случае, если пользователь делал свои пользовательские зоны, верно?


Нет, вывод неверен. Патч ведь не имеет дела ни с какими файлами, а просто вступает в действие в тот момент, когда внутри СТ текст отделен от картинок.
Автор: monday2000
Дата сообщения: 27.11.2009 11:01
Tulon
Могут ли авто-определённые формы быть произвольной формы? Или всегда прямоугольные? А круглые?

Добавлено:
anagnost96
Ну я имел в виду, что, если довольствоваться лишь авто-определёнными зонами, то Ваш патч не нужен - т.к. у нас есть чёрно-белые шаблоны - т.е. информация о зонах.
Автор: StanFreeWare
Дата сообщения: 27.11.2009 11:22
monday2000
Я наблюдал автоопределенные зоны произвольной формы - например серое слово LINUX гиганскими буквами в заголовке книги.
Автор: anagnost96
Дата сообщения: 27.11.2009 11:30
monday2000


Цитата:
Могут ли авто-определённые формы быть произвольной формы? Или всегда прямоугольные? А круглые?


Я ж говорю, они растровые. Т. е. такая зона представляет собой просто набор связанных пикселей, зачастую абсолютно неправильной формы.


Цитата:
Ну я имел в виду, что, если довольствоваться лишь авто-определёнными зонами, то Ваш патч не нужен - т.к. у нас есть чёрно-белые шаблоны - т.е. информация о зонах.


А, в этом смысле... Ну, если на то пошло, пользовательские зоны у нас тоже есть -- в виде набора вершин, указанных в файле проекта. Однако патч как-никак избавляет от необходимости писать постобработчик, который бы всё это задействовал, а также полностью исключает необходимость вывода картинок в разрешении 600 dpi (даже в качестве промежуточного этапа), за счет чего экономится место на диске.

К тому же патч удобен и в других отношениях. При выводе смешанных страниц в режиме "только текст" сразу же бросаются в глаза все косяки определения зон, причем их легко заметить даже на ленте предпросмотра. Кроме того, я теперь иногда использую зоны вместо отсутствующего ластика. Например, заключаю библиотечный штамп в зону, а потом выбираю режим вывода "только текст".
Автор: monday2000
Дата сообщения: 27.11.2009 12:56
anagnost96

Цитата:
Однако патч как-никак избавляет от необходимости писать постобработчик, который бы всё это задействовал

Да я, собственно, этим интересуюсь лишь для того, чтобы суметь загрузить СТ-авто-распознанные зоны в СК - с автоматическим преобразованием их в Piсture-зоны (при загрузке в СК).
Автор: monday2000
Дата сообщения: 28.11.2009 10:16
anagnost96

Цитата:
Т. е. такая зона представляет собой просто набор связанных пикселей, зачастую абсолютно неправильной формы.

Да, так и есть. То есть я сейчас одну книжку попробовал СканТейлором обработать - и возникли авто-зоны самой прихотливой формы.

Добавлено:

Цитата:
суметь загрузить СТ-авто-распознанные зоны в СК

Это вынужденная мера, т.к. в СТ нет возможности вывода после произвольной стадии (ИМХО на сегодня это единственный принциальный порок СТ, из-за чего, скажем, мне просто ничего не остаётся, кроме как рекомендовать всем новичкам к использованию именно СК, а не СТ, несмотря на явно бОльшую эргономичность интерфейса СТ).
Автор: monday2000
Дата сообщения: 28.11.2009 12:17
anagnost96

Цитата:
К тому же патч удобен и в других отношениях.

Я, разумеется, нисколько не возражаю против Вашего патча, просто, если можно обойтись основной версией - зачем мучаться и делать патчи.

Добавлено:
А не могли бы Вы сделать другой патч СТ - "пропуск любой стадии обработки (по выбору)"? Вот это ИМХО было бы чрезвычайно полезно. Например, напротив каждой стадии (сразу после номера) сделать чекбокс (делать-не делать) и чтобы по-умолчанию все флажки стояли.

Добавлено:
Например, меня интересует возможность загрузить в СТ (уже порезанные постранично в СК) сырые сканы, сделать Deskew, и авто-распознать зоны - и перегрузить всё это дело в СК (чтобы авто-распознанные зоны при перегрузке "превратились" в Picture-зоны СК) и докромсать сканы финишно уже в СК.
Автор: StanFreeWare
Дата сообщения: 29.11.2009 11:26
Tulon
Хочу на главной странице wiki сделать топик "Советы по созданию DjVu на бесплатном софте из обработанных ST сканов".
Как вы считаете, не будет ли такой топик избыточным - ведь в сети уже есть масса документации на эту тему (с другой стороны, 99% ее заточена под SK). Особенно смущает тот факт, что ради объективности придется описывать преимущества подхода раздельного вывода текст-изображения через патч anagnost96, что на офстранице непропатченной программы будет выглядеть достаточно щекотливо.
Автор: Tulon
Дата сообщения: 29.11.2009 12:01
StanFreeWare
Не возражаю. Страницу предлагаю назвать "Создание DjVu без использования коммерческого софта".
Автор: U235
Дата сообщения: 29.11.2009 12:02
StanFreeWare
Раздельный вывод текста и изображений можно делать и с помощью непатченой версии + простого bat-скрипта и Graphick/ImageMagick'а. Минус в том, полигональные зоны не будут обрабатываться (конечно возможно извлекать координаты вершин из файла проекта и генерировать растровые полигональные зоны с помощью IM, но это уже сложнее). Думаю, что с помощью IM возможно сделать автоматическое определение наличия заднего слоя, для того, чтобы не удалять "белые" файлы вручную.
Автор: StanFreeWare
Дата сообщения: 29.11.2009 12:36
U235
Да, я уже прочитал про батник на инфанате. Без ручных зон - не вариант.
А вот необходимость в нескольких прогонах патченного ST людей там тоже напрягает.. Но без значительных изменений интерфейса этого уже не сделать (я имею в виду под разными dpi)..

Добавлено:
Tulon
Начал свой проектик на SF по автоматизации создания bookmark-оглавления. Не найду как вставить скриншот и как начать wiki-документацию..
Автор: Tulon
Дата сообщения: 29.11.2009 13:11
StanFreeWare
Скриншоты:
Develop (не самый верхний) -> Develop (он же) -> Screenshots

Активация wiki:
Develop -> Project Admin -> Feature Settings -> Available Features -> [x] MediaWiki

Адрес wiki будет такой: http://sourceforge.net/apps/mediawiki/djvubookmarker/
Автор: StanFreeWare
Дата сообщения: 29.11.2009 17:28
Tulon
Благодарю. Все получилось.
Автор: ukpyr
Дата сообщения: 29.11.2009 18:41

Цитата:
А не могли бы Вы сделать другой патч СТ - "пропуск любой стадии обработки (по выбору)"?
имхо жесткое ограничение обработки - плохая идея, нужно как минимум дать пользователю возможность выбрать последовательность действий, индивидуальные настройки фильтров, и возможность выбрать слои/зоны для обработки (на основе редактируемых атрибутов/свойств и т.д).


Цитата:
Не могли бы Вы сделать экспорт мета-информации о зонах в текстовый файлик (XML предпочтительней)?
пора сделать свой открытый формат хранения сканов (на основе XML или JSON), главное чтобы легко можно было манипулировать объектами страниц/слоев, там же хранить зоны, распознанный текст и т.д. если для граф.слоев использовать стандартное сжатие (png/jpeg), такой файл может отображаться прямо в бровсере без дополнительных программ (тем более если начнут массово внедрять поддержку Jpeg2000).
Автор: monday2000
Дата сообщения: 29.11.2009 22:58
StanFreeWare

Цитата:
Начал свой проектик на SF по автоматизации создания bookmark-оглавления.

А как пользоваться Вашей программой? Или её нужно предварительно скомпилировать? Я не нашёл там, какой экзешник запускать.

Цитата:
Раздельный вывод текста и изображений можно делать и с помощью непатченой версии + простого bat-скрипта и Graphick/ImageMagick'а.

ИХМО Tulon имело бы смысл сделать такую возможность в официальной версии СТ. В СК же есть такое, так почему бы и в СТ это не сделать. Естественно, на выходе авто-распознанные зоны должны соответствующим образом комбинироваться с ручными зонами.

Если такая функциональность появится в СТ, то я быстренько подправлю DjVu Imager и DjVu Small, чтобы они могли напрямую воспринимать имена файлов разделённого вывода из СТ (в какой бы нотации имён они ни были).
ukpyr

Цитата:
пора сделать свой открытый формат хранения сканов

Жаль, что bolega наверняка не поддержит это - у него вон всё в ini-файлах хранится, т.е. все эти его task-файлы - не разберёшь, что там за данные внутри. XML для хранения мета-данных используют СТ и WinDjView. Ну, и я мог бы - если возникнет нужда.
Автор: Tulon
Дата сообщения: 30.11.2009 00:53
Выпустил версию 0.9.7.2
Брать на офстайте. Эта версия ничем не отличается от 0.9.7.2rc, которую я тут выкладывал некоторое время назад.

monday2000

Цитата:
Раздельный вывод текста и изображений можно делать и с помощью непатченой версии + простого bat-скрипта и Graphick/ImageMagick'а.

ИХМО Tulon имело бы смысл сделать такую возможность в официальной версии СТ. В СК же есть такое, так почему бы и в СТ это не сделать. Естественно, на выходе авто-распознанные зоны должны соответствующим образом комбинироваться с ручными зонами.

Меня бы устроил вариант с дополнительными слоями в ST'шных TIFF файлах. По моему FineReader делает что-то похожее. Размер TIFF'ов возрастет не сильно - посмотрите хотя бы на размер automask файлов. Скорость тоже не должна особо пострадать - думаю на пару процентов не больше. С аргументом о желательности вывода картинок в более низком разрешении - не соглашусь. Понижение разрешения для кодирования картинок - это задача программы кодирования но никак не пост-обработки. Ну а если предпочитаете не трогать сам кодировщик, можно и в оболочке (DjVu Small) реализовать масштабирование. Костыль в этом случае будет поменьше, и не у меня
Что касается опасений о потере качества при масштабировании, предлагаю провести такой эксперимент:
В ST расчет маски делается всегда в 300 DPI не зависимо от разрешения вывода - это для производительности. Так вот сравните вывод в 300 и в 600 DPI одной и той же страницы. В одном случае маска будет отмасштабирована, в другом - нет. И потом попытайтесь найти разницу на границах областей картинок, и аргументированно, со скриншотами, показать что вариант с 600 DPI хуже.

Добавлено:
Вариант-то устроил бы, но я в любом случае занят сейчас другими вещами. Так что либо кто-то другой реализует это, либо ждать придется неопределенно долгое время.
Автор: StanFreeWare
Дата сообщения: 30.11.2009 05:43
monday2000

Цитата:
Я не нашёл там, какой экзешник запускать

Все описано здесь:

Цитата:
Адрес wiki будет такой: http://sourceforge.net/apps/mediawiki/djvubookmarker/


Tulon

Возможно потенциальная проблема со слоями TIF будет в том, что формат не даст сохранить ч/б слой в G4FAX, что может значительно увеличить размер результирующих файлов.
Автор: monday2000
Дата сообщения: 30.11.2009 09:19
Tulon

Цитата:
Меня бы устроил вариант с дополнительными слоями в ST'шных TIFF файлах.

Вы имеете в виду многостраничные TIF-файлы? DjVu Small с ними не умеет работать - для этого туда пришлось бы запхнуть freeimage.dll - а делать этого не хочется, т.к. увеличение размера дистрибутива.

Добавлено:
То же самое касается масштабирования.

P.S. Подобную функциональность не проблема реализовать в DjVu Imager, т.к. там есть в составе freeimage.dll.

Добавлено:

Цитата:
либо ждать придется неопределенно долгое время

Да ничего страшного, ИМХО подождём, сколько нужно .
Автор: Tulon
Дата сообщения: 30.11.2009 09:41
StanFreeWare

Цитата:
Возможно потенциальная проблема со слоями TIF будет в том, что формат не даст сохранить ч/б слой в G4FAX, что может значительно увеличить размер результирующих файлов.

Это не проблема. Черно-белые изображения простой формы можно сжимать чем угодно, хоть RLE, и все равно получить очень маленький размер. Файлы automask кстати сжаты LZW.
Автор: monday2000
Дата сообщения: 30.11.2009 12:10
Сижу вот и думаю: как бы мне подсунуть в СТ сканы с полутоновыми иллюстрациями, прошедшие выравнивание освещённости в BR. Причём картинки портятся после выравнивания освещённости в BR.

Получается, что пока никак.

Хорошо хоть, что исправление искривленных строк в BR вроде бы работает для серых сканов.

Страницы: 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172

Предыдущая тема: Невозможно установить Acronis True Image Home v10.0.4940


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.