Ru-Board.club
← Вернуться в раздел «Программы»

» ScanKromsator СканКромсатор (Часть 3)

Автор: ghosty
Дата сообщения: 26.03.2011 21:04
bolega

Цитата:
В опциях draft на закладке Advanced есть этот регулятор: Text vert. sensitivity.
Я почему-то был уверен, что этот регулятор именно для чувствительности по вертикали (как я ее понимаю) - т.е. для определения колонтитулов внизу и вверху страницы (напр., номеров страниц). Ошибаюсь?


Цитата:
На самом деле распознавание значков (номеров страниц, вынесенных буковок и т.п.), расположенных сбоку от основного габарита страницы - это самая сложная и нетривиальная задача.
Спасибо за разъяснения.

Я придумал, как отличить нумерацию строк по бокам текста от мусора:
- все эти символы лежат на одной линии с символами строк.
- эти символы выровнены в столбик по левой стороне.
- еще один косвенный признак - нумерация идет то с левой стороны страницы, то с правой.
С этим можно что-то сделать?


Цитата:
Кстати, в версии 5.93 и далее усложнился также анализ горизонтальных краев. СК проводит теперь анализ на наличие номеров страниц, а также некоторых математических символов (интеграла и символа суммирования), т.к. под или над ними могут быть небольшие буковки-циферки (пределы суммирования или интегрирования).
Т.е. теперь есть даже что-то внутреннего OCR-движка?
Автор: bolega
Дата сообщения: 26.03.2011 21:24
ghosty

Цитата:
Ошибаюсь?

Да


Цитата:
все эти символы лежат на одной линии с символами строк.
- эти символы выровнены в столбик по левой стороне.

Это я все учитываю. Учитывается также количество подряд идущих символов. Чем их больше и чем ровнее они лежат (напр., на одной базовой линии), чем больше вес. Хуже всего когда один символ, либо когда они сливаются и воспринимаются как один большой кусок грязи. Тут как говорится 50 на 50.
Косвенный признак не учитывается. При драфте анализируется только текущая страница. Почему драфт я не сделал обучаемым, я уже как-то писал. Повторяться не буду. Кроме того, все зависит от того, в каком порядке идут страницы в задании. У меня например, всегда идут все нечетные, потом четные. Перемешиваю в нужном порядке уже после обработки и чистки (через команду Edit->rearrange). На это есть веская причина: порог бинаризации очень часто выбирается один для всех четных, и другой (но тоже один) для всех нечетных. Это связано с особенностью типографии советских книжек. Аналогичные закономерности бывают и в качестве половинок разворота.
Кстати, напомню, что СК поддерживает произвольные изменения в списке файлов: удаление, добавление, вставку перемещением (Copy-Paste или мышкой), смещение: по одиночке или произвольным выделенным набором. При этом выходные файлы автоматически переименовываются в соотвествии с новым порядком.


Цитата:
Т.е. теперь есть даже что-то внутреннего OCR-движка?

Нет, до этого еще далеко. Все делается более грубо.
Автор: ndch
Дата сообщения: 26.03.2011 21:51
monday2000

Цитата:
Если кому-то нужна поддержка JPEG2000 в DjVu - напишите письмо Леону Боту.

И как он связан с WinDjView ?

Добавлено:

Цитата:
Ведь время декодирования JPEG2000 в 3 раза больше, чем таковое у IW44

Да, при использовании jasPer, в который кроме открытости особо ничем не примечателен.
Автор: shch_vg
Дата сообщения: 26.03.2011 23:23
bolega

Цитата:
У меня например, всегда идут все нечетные, потом четные.

А чем Ваш метод лучше обычного?
Вы ведь предварительно должны разбить развороты на страницы, затем каким-то способом загрузить в СК в нужном Вам порядке, а в конце всего этого еще делать rearrange. Не пойму, чем хуже сразу, не разбивая на страницы, проставить нужный порог через select alternate и Ctrl+Alt->All selected?

Заодно еще просьба.
Нельзя ли сделать, чтобы после добавления скана в задание и выполнения для него команды Move to top фокус оставался именно на этом скане, а не переходил на самый первый перед выполнением этой команды? Ведь сейчас тратится время на загрузку в главное окно скана, который вряд ли нужен будет сразу после этого перемещения.
Автор: juvaforza
Дата сообщения: 26.03.2011 23:35
bolega
ghosty
Спасибо за подробный ответ.

bolega

Цитата:

Цитата: Ошибаюсь?

Да
Автор: bolega
Дата сообщения: 27.03.2011 01:01
shch_vg

Цитата:
А чем Ваш метод лучше обычного?
Вы ведь предварительно должны разбить развороты на страницы, затем каким-то способом загрузить в СК в нужном Вам порядке

Лично мне так удобнее.
Разворотов у меня не бывает, т.к. сканю на оптикбуке сначала нечетные, потом четные. В таком же порядке и обрабатываю.
На чужие сканы упомянутые предпочтения как правило не распространяются, т.к. они действительно чаще всего развороты, поэтому последовательность страниц сразу правильная, и я ее не меняю.

juvaforza

Цитата:
посчитал, что это копия настройки (или алгоритма) из вкладки Options, которая учитывается при автоматическом определении границ

Настройки у обработки и драфта абсолютно не зависят друг от друга, т.к. у них разные задачи, и алгоритмы разные.
Более того, в последних версиях СК (точно не помню, кажется с 5.9) опция обработки text sens-ty с закладки Options морально устарела, т.к. улучшился сам алгоритм определения габарита, он стал практически безошибочным, и опция text sens-ty мало что дает. Чего не скажешь к сожалению о драфте.
Автор: shch_vg
Дата сообщения: 27.03.2011 01:04
bolega
Если на оптикбуке, тогда понятно...
Автор: bolega
Дата сообщения: 27.03.2011 01:13
Рекомендую также обработку всегда проводить в режиме без финализации. Это позволяет полностью контролировать (и изменять) правильность габаритов, выравнивания, размеров и полей книги, и все это делать без необходимости переобработки.
Здесь еще надо помнить, что определенные СК габариты (границы страницы) - это не та грань, за которой будет все отрезаться (как например, в СТ). Поэтому небольшие ошибки в определении габаритов (в 1-3 буквы, а чаще и больше) не приведут к их утере, скорее, это скажется только на точности заданного выравнивания.
Автор: ghosty
Дата сообщения: 27.03.2011 03:49
bolega

Цитата:
сканю на оптикбуке сначала нечетные, потом четные
Как хитрО А что это дает?
Автор: shch_vg
Дата сообщения: 27.03.2011 15:15
ghosty

Цитата:
А что это дает?

Не надо крутить книгу
Автор: monday2000
Дата сообщения: 28.03.2011 08:03
ndch

Цитата:
И как он связан с WinDjView ?

А при чём здесь WinDjView?
Автор: monday2000
Дата сообщения: 30.03.2011 11:29
Новое письмо от Леона Боту (по поводу JPEG2000):

http://www.djvu-scan.ru/forum/index.php?topic=108.msg1687#msg1687
Автор: ghosty
Дата сообщения: 29.04.2011 13:29
bolega
А что делать, если на входе скан с нестандартным разрешением (у меня сейчас 500 ppi)? В соответствующем поле никакого Custom не предусмотрено. Странно, что на выходе можно выставлять 500 dpi.
Автор: shch_vg
Дата сообщения: 29.04.2011 21:36
ghosty

Цитата:
А что делать, если на входе скан с нестандартным разрешением (у меня сейчас 500 ppi)?

А чем Вас Auto не устраивает?
Автор: ghosty
Дата сообщения: 29.04.2011 22:11
shch_vg

Цитата:
А чем Вас Auto не устраивает?
А дело в том, что это нестандартное разрешение в TIFFах не прописано
Автор: shch_vg
Дата сообщения: 29.04.2011 22:15
ghosty

Цитата:
это нестандартное разрешение в TIFFах не прописано

Так пропишите сами: в меню Service->Correct DPI...

P.S. Можете даже прописать, например, 543 .
Автор: ghosty
Дата сообщения: 29.04.2011 22:39
shch_vg
Кромсатор неисчерпаем! Спасибо!
Автор: shch_vg
Дата сообщения: 30.04.2011 11:06
ghosty
Если не секрет, как удалось получить тифы без дпи?
Автор: ghosty
Дата сообщения: 30.04.2011 11:27
shch_vg

Цитата:
Если не секрет, как удалось получить тифы без дпи?
Путем конвертации из JP2, полученных с фотосканера...
Автор: Gajver100
Дата сообщения: 10.05.2011 18:08
Народ! КОманада Create separate files for non b/w zones не работает в СК 5.91! Короче должны в отдельный файл сливаться зоны и фон делаться белый, а вместо этого зоны вгоняються в обработанные страницы. Что делать не знаю. Вот книга польностью:
http://zalil.ru/31010796

Короче смысл тот что мне нужно будет потом это обработать в FSD, а я не могу никак (

Какие-нибудь новшества появлялись в Кромсаторе?

Добавлено:
Ух... разобрался. Там я с зонами нахимичил ) Короче изменил файлы зон чуток оттого и результат.
Автор: Gajver100
Дата сообщения: 11.05.2011 01:53
Народ! Помогите. Короче обработал файлы в кромсаторе получились файлы объемом 50 Мб, рисунки влиты в отдельные зоны. Обработал FSD и получился файл объемом 224 мб. Что за ерунда? Вот файлы. http://zalil.ru/31014484
Автор: bolega
Дата сообщения: 11.05.2011 08:08
Gajver100
А можно получить out-задание (из основного задания дать команду file->create out-task) и out-файлы, только чтобы зоны были обязательно отдельно, не слиты. Я поэкспериментирую с новой версией. Она сама создает djvu, но требует, чтобы зоны не были слиты.
Автор: Gajver100
Дата сообщения: 11.05.2011 14:37
http://zalil.ru/31016739 - вот ) Я уже два или три года не делал ДЖВУ книгу ) позабыл все и вся ) Третий день мучаюсь делаю ) Дожили до счастливого момента ) Сканкромсатор может делать сразу ДЖВУ )

Bolega, финпомощь нужна?
Автор: bolega
Дата сообщения: 11.05.2011 17:05
Gajver100
Спасибо, но Вы забыли вложить out-task (out.spt). Без него нет информации, как расположились зоны на выходных файлах.


Цитата:
финпомощь нужна?

Спасибо, не надо.


Цитата:
Дожили до счастливого момента

Скорее, это уже закат...
Автор: woodyfon
Дата сообщения: 11.05.2011 18:54
SK имеет официальную локализацию на версию 5.93?. Надо даже не мне, а людям, которые будут обучаться обработке отсканированных изображений.
Автор: Gajver100
Дата сообщения: 11.05.2011 19:37
http://zalil.ru/31018985

Цитата:
Gajver100
Спасибо, но Вы забыли вложить out-task (out.spt). Без него нет информации, как расположились зоны на выходных файлах.


А почему закат?


Цитата:
Скорее, это уже закат...

Автор: bolega
Дата сообщения: 11.05.2011 22:39
Gajver100
Вот так устроит? http://www.onlinedisk.ru/file/660909/
Проблема с этими файлами в том, что там иллюстрации очень плохого качества - абсолютно не подавлен растр/муар. От того и размер вылез. И судя по всему, исходник у Вас - не скан, а чей-то уже неудачно обработанный результат. Поэтому облагородить иллюстрации практически невозможно. Я насколько мог, подавил растр. Растр конечно нужно давить на оригинальном скане, после любой обработки его уже полностью не убрать, т.к. нарушен спектр скана.


Цитата:
А почему закат?

Надоел он мне.

woodyfon

Цитата:
Надо даже не мне, а людям, которые будут обучаться обработке отсканированных изображений.

Для обучения лучше юзать СТ.
Автор: Gajver100
Дата сообщения: 12.05.2011 01:40
Я сам сконировал через программу Ирфанвью. Но забыл поставить сжатие CCIT Fax Group 4. Файлы получились по 8 Мб. Потом я понял ошибку и изменил формат (дбавил сжатие CCIT Fax Group 4) при пмощи программы Айсидиси. Объем файлов уменьшился. Качество фотографий такое же как и в книге. Они и там не очень-то четкие. Скажите какие параметры на сканере поставить, я пробно могу сканировать пару страниц.


Цитата:
Gajver100
Вот так устроит? http://www.onlinedisk.ru/file/660909/
Проблема с этими файлами в том, что там иллюстрации очень плохого качества - абсолютно не подавлен растр/муар. От того и размер вылез. И судя по всему, исходник у Вас - не скан, а чей-то уже неудачно обработанный результат. Поэтому облагородить иллюстрации практически невозможно. Я насколько мог, подавил растр. Растр конечно нужно давить на оригинальном скане, после любой обработки его уже полностью не убрать, т.к. нарушен спектр скана.



Добавлено:
Книгу заказывал с США. Все обошлось не дешево, аж 1600 руб. Кстати в ней много рассказано про вечный двигатель ) Может тоже займешься? ) Развеешься от кромсатора? )


Цитата:
Надоел он мне.



Добавлено:
Сравнил качество... немного хуже чем в оригинале качество ДЖВУ, лучше думаю пересканить странице с рисунками. Жду рекомендаций по поводу сканирования )
Автор: bolega
Дата сообщения: 12.05.2011 07:31
Gajver100

Цитата:
Потом я понял ошибку и изменил формат (дбавил сжатие CCIT Fax Group 4) при пмощи программы Айсидиси

А, тогда все понятно. Когда Вы добавили это сжатие, тем самым бинаризовали скан, угробив иллюстрации. Оттого они такие и получились. Только не пойму, как они у Вас снова оказались 8-битными. Лучше отсканируйте пару страниц в оттенках серого 300dpi, я покажу какие есть варианты с этим делать.
Но для начала почитайте статью "Создание djvu-книг. Черно-белые и полутоновые иллюстрации": http://mirknig.com/knigi/raznoe/1181388216-sozdanie-djvu-knig.html, чтобы иметь представление, что происходит с подобными иллюстрациями при кодировании. К сожалению в статье не описан еще один способ, на мой взгляд самый лучший. А именно, подавление растра методом descreen.
Автор: shch_vg
Дата сообщения: 12.05.2011 09:37
bolega

Цитата:
К сожалению в статье не описан еще один способ, на мой взгляд самый лучший. А именно, подавление растра методом descreen.

А Вы не могли бы добавить это описание или указать, где оно есть?

Страницы: 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102

Предыдущая тема: мнение о Maxthon


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.