Ru-Board.club
← Вернуться в раздел «Программы»

» ScanKromsator СканКромсатор (Часть 3)

Автор: shch_vg
Дата сообщения: 05.06.2016 22:13
daa2013

Цитата:
Мне, например, в основном окне это даже и не надо.

Для себя в RV я это решил через хоткеи.
На Alt+Q повесил Fit height, a на Alt+W - Fit width.
Переход со скана на скан я как правило делаю через Q и W, так что подключить для перехода с ширины на высоту большой палец на Alt мне очень удобно.
Причем по высоте получается даже чуть меньшего размера, что меня даже больше устраивает.

Добавлено:
TelecomUral

Цитата:
Некоторые функции СК используют значение DPI скана при работе с пикселями. Например, "мусором" для деспекла будет считаться группа точек с разными пиксельными размерами - как раз в зависимости от dpi.

Это Вы точно знаете или предполагаете?
Нигде в Options я не встречал dpi, просто там задается размер спекла, который будет удаляться при очистке выбранной области.
Автор: TelecomUral
Дата сообщения: 06.06.2016 04:35
shch_vg
Абсолютное знание недостижимо В рамочке "Despecle sizes for current task" на вкладке Processing стоят числа, над которыми шкала диапазонов dpi. Когда-то читал сообщение bolega здесь на руборде, зачем это надо. Но сам экспериментов не проводил, поэтому знание "не точное".

добавлено:
ай, ёпрст!
В СК 5.96 и в СК 6 вкладки разные. А я как раз перехожу на новую версию, то один открою, то другой.

Автор: BKSRU
Дата сообщения: 06.06.2016 15:53
В окне редактирования оказалось удобно заниматься подгонкой сканов под страницу следующим образом: Выставляем линейки и выравниваем пунктирной рамкой.
Но не нашел кнопки - финализировать все. Есть ли такая возможность?
Автор: shch_vg
Дата сообщения: 06.06.2016 15:57
BKSRU

Цитата:
Но не нашел кнопки - финализировать все. Есть ли такая возможность?

В главном окне в меню Рrocess.
Автор: BKSRU
Дата сообщения: 06.06.2016 16:24
shch_vg

Цитата:
В главном окне в меню Рrocess.

Это не собъет настройки выравнивания в окне редактирования?

P.S. Сделал копию, проверил. В порядке, не сбились настройки.

Добавлено:
Так все таки, что надо сделать, если нет необходимости менять исходники, а достаточно только выправить и подрезать их?
Достаточно ли для этого нажать кнопку Сбросить все опции и отмаркировать все файлы?
Автор: Benoni50
Дата сообщения: 06.06.2016 18:43
BKSRU

Цитата:
оказалось удобно заниматься подгонкой сканов под страницу

Прошу пояснить. Сканы обработанные? Под какую страницу?

Цитата:
Выставляем линейки и выравниваем пунктирной рамкой.

О какой линейке идет речь? Рисунок можно?
Автор: BKSRU
Дата сообщения: 06.06.2016 20:17
Benoni50

Цитата:
О какой линейке идет речь? Рисунок можно?

Я начинающий. Просто надо оформить книгу, выровнять сканы относительно листа. Использую сторонние пиксельные линейки. http://forum.ru-board.com/topic.cgi?forum=5&topic=29984&start=2900#10

В окне редактирования выставляю несколько линеек в области каких либо базовых ориентиров и с помощью пунктирной рамки подгоняю полезную часть под область линеек:


Так же в крупном масштабе таким образом подогнал под линейку номера страниц. Но в это раз просто выделял номера и с помощью команды Двигать выделенную часть подравнял номера каждой страницы под одну пару базовых линеек.
Автор: daa2013
Дата сообщения: 06.06.2016 23:03
Методом вивисекции руборды
сконструировал мегабомбический материал про СканКромсатор.

Инджой

https://dropmefiles.com/fOo9d
Автор: shch_vg
Дата сообщения: 06.06.2016 23:20

Цитата:
Инджой

Для Инджоя нужно сначала скачать, но увы...
М.б. выложите не на мегабомбический, а на более нормальный обменник?
Автор: daa2013
Дата сообщения: 06.06.2016 23:29
Странно, у меня это сейчас самый стабильный обменник. Вот еще два:

http://rusfolder.com/45066960

http://rgho.st/7ClXsc492
Автор: shch_vg
Дата сообщения: 07.06.2016 00:48
daa2013

Цитата:
сконструировал мегабомбический материал про СканКромсатор.

Да, работа проделана просто титаническая.
Устал просто пролистывать пдф.
Когда-то хотел сделать нечто подобное, правда не в таком объеме и не так красиво, но кишка оказалась слаба. Лет двадцать бы скинуть, может быть и осилил бы, но сейчас уже нужно думать о вечном .
После просмотра почему-то вспомнился Гоголь Николай Васильевич с его знаменитым высказыванием: "Редкая птица долетит до середины Днепра..."
Хотелось бы взглянуть на начинающего и горящего желанием вникнуть в работу этой программы, который осилит эту гору информации.
А если серьезно, это очень полезный документ для желающего узнать для себя что-то новое по СК.
Теперь есть возможность отправлять сюда по любому вопросу, задаваемому по Сканкромсатору.
Возникает только вопрос.
Что делать, если что-то написано не (совсем) верно, изменяется или дополняется.
М.б. имеет смысл сделать вариант этого документа в виде html, который легче подвергать изменениям, а потом ссылку на него поместить в шапку?
Благодарю Вас за проделанную гигантскую работу.

Инджойялся!!!
Нашел в нем материалы периода начала создания программы, которые мне не удалось найти.
Автор: TelecomUral
Дата сообщения: 07.06.2016 04:54

Цитата:
html, который легче подвергать изменениям

кто подвергать будет? Автор там говорит про восемь лет моратория
Ещё бы исходник (в word?)

Добавлено:
А что это за пункты про символы Юникода:

?
Автор: daa2013
Дата сообщения: 07.06.2016 05:23

Цитата:
который осилит эту гору информации.

Эта гора вся разбита по параграфам. Хочешь освоить какой-то участок - читай полностью соответствующий параграф. По частям и осилит.


Цитата:
которые мне не удалось найти.

В смысле, что вы их ранее не видели ? Или в смысле, что ссылки на источник дефектные и не видите сейчас ?
Или что я свои архивы расковырял и некоторые давным-давно умершие на форуме картинки нашёл ?
К сожалению, только некоторые.


Цитата:
Что делать, если что-то написано не (совсем) верно, изменяется или дополняется.

а) Если несколько разбирающихся пользователей изготовят свой комплект комментариев с уточнениями/правок/сносок, то их внести - не проблема
б) если объявится "мейнтейнер"-верстальщик, то я ему вордовский исходник отдам
в) все замеченные неточности я помечал . Чего совсем уже нету и ответ 100% устарел - не включал. (таковых было совсем немного). Чего сейчас работает не совсем так - делал сноски с объяснением и ставил пиктограмму. Смена названий функций - зачеркивал и в скобках давал современные. Другое дело, что я мог что-то и прошляпить.
Некоторые вопросы по типу: "что делать с этим сканом?" - "жать кнопку Z" - также не включались, так как примеров и даже текстовых описаний нет, а без них бесполезно.
Может, впрочем, у кого что ещё в архивах осталось.


Цитата:
сделать вариант этого документа в виде html, который легче подвергать изменениям

Я против того, чтобы плодить миллион версий. Особенно на ранних стадиях жизни документа, пока есть вероятность, что его коллективно улучшат.
Тем более человеку плохо знающему СК путем изменений проще ухудшить, чем наоборот.
Например, функция сейчас не так называется (хотя точно также в другом месте работает), а он ее не находит - и "улучшая" выкидывает.

Update:

Заметил, что в pdf вообще пропали сноски 61 и далее.
Не знаю, что делать. переделать сноски в концевые ? Этого не хотелось.
Верстать в InDesign -- так хотелось бы уже радикально улучшенный вариант.
Попробую на кафедре последнюю версию Ворда заюзать.


Добавлено:
Update2

Вынул сноски отдельно.
Подклейте их там себе что-ли.

http://rusfolder.com/45067241
http://rgho.st/6PGrKVXrX

Я вот и думал, что если кто-то такое похожее изготовит, то я по тексту уж раскидаю.
(А сейчас сомневаюсь).
Автор: ComboFZ
Дата сообщения: 07.06.2016 08:27
Добавил закладки. Добавил линки в Contens и в Перевод оглавления для удобной навигации по документу от daa2013:
ScanKromsator_Answers_1.0.1.pdf
Автор: shch_vg
Дата сообщения: 07.06.2016 14:35
daa2013

Цитата:
В смысле, что вы их ранее не видели ?

В смысле, что я их не смог ранее увидеть...
Автор: asku
Дата сообщения: 07.06.2016 23:11
Если изменить какой-нибудь параметр и поставить галочку, удерживая Ctrl, то появляется окно с вопросом распросраняется ли изменения на все маркированные файлы.

Заметил, что у меня в СК на блоке Image enchsnce filters (это на котором вкладки Contrast, Illumination и т.д.) если включать галочку Enable с Ctrl и нажимать ОК, то изменения опций на некоторых вкладках почему-то не распространяются на все файлы. Например, на вкладке Blur — по умолчанию 2. Меняю на 1 и ставлю галочку. На текущем (том, который на экране) скане Blur 1, на других же — 2.

Кто-нибудь сталкивался с такой проблемой? У меня версия 6.00.5
Автор: alterEgo16
Дата сообщения: 07.06.2016 23:44
asku

Цитата:
изменения опций на некоторых вкладках почему-то не распространяются на все файлы

лучше щелкнуть пкм в окне параметра и выбрать apply option to...
или другой вариант - после изменения параметра скинуть и снова установить галочку(с ctrl).
Автор: asku
Дата сообщения: 08.06.2016 00:01

Цитата:
лучше щелкнуть пкм в окне параметра и выбрать apply option to...


Получилось! ) Только там не apply option to..., а copy to...
Автор: BKSRU
Дата сообщения: 08.06.2016 16:53
Имеются рисунки на весь разворот. Симметрично разрезать не получается без потерь небольшой части рисунка. Предварительно в главном окне не плохо бы сдвинуть одну часть рисунка. Не нашел такой возможности. Нет такой?
Автор: daa2013
Дата сообщения: 08.06.2016 17:25

Цитата:
Имеются рисунки на весь разворот. Симметрично разрезать не получается без потерь небольшой части рисунка. Предварительно в главном окне не плохо бы сдвинуть одну часть рисунка. Не нашел такой возможности. Нет такой?


Я бы развороты клонировал. И из одного изготавливал левую, а из другого - правую стр.
Автор: BKSRU
Дата сообщения: 08.06.2016 18:30
daa2013

Цитата:
Я бы развороты клонировал. И из одного изготавливал левую, а из другого - правую стр.

Не понял как это может помочь?
Середка разворота не симметричная относительно текста. И если я хочу сделать поля одинаковыми, при этом не потерять стык половинок рисунка, то как то надо сдвинуть одну часть до линии резака. Это было бы удобно сделать в главном окне.

P.S. Разобрался. Режем как есть. В окне редактирования сдвигаем большую часть на необходимый шаг. Желтой рамкой кропим по новый край рисунка. Финализируем.
Автор: Benoni50
Дата сообщения: 08.06.2016 19:27
BKSRU
Или Выделяем ту часть рисунка, которую надо сдвинуть. Дальше Ctrl+M. И эту частью продолжаем сдвигать, поднимать, опускать.
Автор: BKSRU
Дата сообщения: 08.06.2016 19:53
Benoni50

Цитата:
Или Выделяем ту часть рисунка, которую надо сдвинуть. Дальше Ctrl+M. И эту частью продолжаем сдвигать, поднимать, опускать.

На самом деле оба варианта не годятся. Поспешил сделать выводы. При желтой рамке редактирование не возможно.

Но все таки способ нашел:
- Режем по линии стыка.
- Выравниваем обрезки по краю страниц в стык картинок.
- В редакторе финализируем страницы.
- На странице с большим выступающим рисунком выделяем не сам рисунок, а текстовый блок. Если блоки сверху и снизу рисунка, то через Shift оба блока.
- Сдвигаем к краю выделенные блоки, выравнивая отступ от центра разворота под размер отступа второй половинки.

Опять же жаль, что нет возможности пиксельной точности сдвига при мелких масштабах (кроме описанного выше).
Автор: Benoni50
Дата сообщения: 08.06.2016 20:12
BKSRU

Цитата:
При желтой рамке редактирование не возможно.

Правильно, нужна финализация. А после неё

Цитата:
Выделяем ту часть рисунка, которую надо сдвинуть. Дальше Ctrl+M. И эту частью продолжаем сдвигать, поднимать, опускать.
Автор: BKSRU
Дата сообщения: 08.06.2016 20:19
Benoni50
Рисунок не получится сдвинуть. Как раз надо добиться, что бы не было его кропа. Сдвигая рисунок, конечно можно добиться одинакового сдвига края рисунка от текста. Но затем надо будет двигать весь скан обратно к краю страницы, для совмещения рисунков в стык. Приемлемо, но на одну операцию больше .

Ну в общем выходы есть.
Автор: kardamon2
Дата сообщения: 08.06.2016 21:12
Раз уж речь зашла о рисунках на стыке разворота, да и вообще о рисунках на краях.
Опишу как делаю я.
Если разворот, то как правильно указал daa2013, клонируем в списке файлов, чтобы каждую половику резать отдельно, причем с явным перехлестом. Это не страшно, потом отрежется лишнее. Для левой части ставим гориз. выравнивание=right, для правой = left. Кроме того, для левой страницы ставим галку на Spec.gaps (на R), для правой - на L. Это означает, что поля в этих местах будут нулевые. Для страниц, где зоны касаются краев страницы, также взводим соответствующие spec.gaps.
После обработки нужно до финализации и расчета размеров, откропить все зоны, которые касаются краев. СК не позволяет чистить/изменять страницы до финализации, но для зон можно делать все. Я зоны кроплю так: чищу периметр зоны, удаляя все лишнее. Затем hotkey Autocrop. Либо в параметрах VR выставляю опцию autocrop, тогда перед сохранением зон СК сам будет кропить (т.е. уменьшать размеры зоны за счет чисто белых рядов пикселей, если они есть). Затем ПКМ > Show > show page bounds by zones panel. Будет панелька с 8 кнопками. Например, если нажать на кнопку со стрелкой вправо, то правая сторона желтого габарита страницы встанет на самый правый край из всех зон. Т.е. получится идеальное совмещение стороны зоны и края страницы. Никаких линеек и ручных сдвигов.
Если картинка на разворот, то после расчета размеров книги и до финализации еще раз проверка: режим показа двух страниц и визуальный контроль совпадения половинок по высоте. Если не совпадают, подвигать верхний/нижний край желтого габарита до нужного совпадения. Не факт, что совпадут и низ, и вверх: часто не совпадает сам оригинал.
Надеюсь, описал доходчиво.


Добавлено:
asku

Цитата:
то изменения опций на некоторых вкладках почему-то не распространяются на все файлы

Так и задумано. Дело в том, что копирование каждой такой под-опции, напр., радиуса фильтра, не предусмотрено. Можно копировать только все параметры фильтра целиком.

shch_vg

Цитата:
Нигде в Options я не встречал dpi, просто там задается размер спекла, который будет удаляться при очистке выбранной области.

Есть размер Despeckle, которые СК использует при обработке, и он разный для разных dpi. А есть размер, который задается в окне VR, и он используется только при ручной чистке, т.е. красной метелкой.

TelecomUral

Цитата:
Некоторые функции СК используют значение DPI скана при работе с пикселями

Да, DPI является метрикой для многих алгоритмов СК, начиная с draft и кончая upsample/downsample (масштабирование), despeckl-ом, удалением фона и т.п.
Автор: BKSRU
Дата сообщения: 09.06.2016 04:38
kardamon2

Цитата:
...
Если картинка на разворот, то после расчета размеров книги и до финализации еще раз проверка: режим показа двух страниц и визуальный контроль совпадения половинок по высоте. Если не совпадают, подвигать верхний/нижний край желтого габарита до нужного совпадения. Не факт, что совпадут и низ, и вверх: часто не совпадает сам оригинал.
Надеюсь, описал доходчиво.

Более/менее ясно. Но не ясно где это пересекается с моим случаем?
Ситуация на самом деле не сложная:
Рисунок на весь разворот. На развороте достаточно ясная граница раздела, но она не по центру текстовых блоков левой и правой страницы. Т.е. если необходимы одинаковые поля от края текстовых блоков страниц разворота и при этом не потерять полезную часть рисунка, надо либо выдвинуть один или задвинуть другой рисунок (вернее часть рисунка). Т.е. перемещение по горизонтали. Как бы вы поступили, что бы работа была произведена точно и быстро?
Автор: TelecomUral
Дата сообщения: 09.06.2016 05:00
BKSRU
покажите скан, пожалуйста.
Автор: BKSRU
Дата сообщения: 09.06.2016 05:21
TelecomUral

Цитата:
покажите скан, пожалуйста.

http://rgho.st/6FkFfbYD5

Для моих скромных целей оказалось, чем меньше использование улучшайзеров тем лучше распознавание текста. Отключил все настройки улучшайзеров, только разрезаю, выравниваю и чищу от мусора. Разрешение оставил как есть, оно не высоко 200dpi, но при этом ошибок распознавания куда меньше и распознанный текст выглядит куда ровнее и структурнее. Однако, при этом СК некоторые страницы не смог выровнять, приходится вручную.
Автор: BKSRU
Дата сообщения: 09.06.2016 12:53
Поэкспериментировал с влиянием улучшайзеров на распознавание в FineReader 12.

Исходник tif рисунки книги на 60 страниц: серые/200dpi.

1. Удвоение до 400 dpi дает положительный результат. Увеличение/уменьшение дает больше ошибок. Дальше экспериментировал с 400dpi.

2. Черно-белый вариант дает больше ошибок. Может это для этого конкретного случая или отсутствие опыта повышения общего качества. Но эксперименты с бинаризацией и с прочими улучшайзерами не дали результат.

Далее экспериментировал с серым вариантом и апскейлом до 400dpi. Ну понятно вроде, что бинаризация в этом случае не влияет ни на что.

3. Эксперименты с ресемплом. Здесь довольно сложно уловить разницу. Дело в том, что она есть, но ошибки разные и приходиться субъективно оценивать количество и качество ошибок просматривая одновременно распознанных несколько страниц.
В целом субъективно наиболее меньше ошибок выдают: Lanczos3/FastLinear/Bicubic. Дают разные ошибки распознавания, на одних страницах одних ошибок больше на других других.
Но путем волевого решения принято, что все таки Lanczos3 дает меньше всего ошибок. Причем дело не только в ошибках распознавания, но и в том, что FineReader как то красивее оформил текст.

4. Далее попытался поэкспериментировать с улучшайзерами: smooth/blur/sharpen. Дают ухудшение распознавания. Хотя с blur долго не мог решить. Вроде бы ошибок меньше и в целом на странице меньше красноты (word), но все таки пришел к выводу, что blur не вариант. Дело в том, что основная проблема с интервалами между букв (возможно для данных конкретных сканов в 200dpi). И больше всего ошибок в том, что слова сливаются в одно слово. С blur таких ошибок меньше, но появляются наоборот разрывы в словах. Но все же ошибок вроде меньше в целом и это бросается в глаза. Однако, как показалось качество распознавания ухудшилось, т.е. настоящих ошибок больше.

Однако улучшайзеры применял раздельно и все со значением 1.
5. Решил проверить пару blur/sharpen. По началу показалось, наконец то нашел то, что искал. Там лучше, там хуже. Не выбор.
Вторая пара smooth/blur. Я бы сказал, что это лучший вариант из всех пока найденных. Явно ошибок меньше. Опять же дело в каких ошибках? Если бы дело заключалось в количестве одних и тех же ошибках. А так одно лечим, другое калечим...
Третья пара smooth/sharpen. Преимуществ не нашел.

6. Чем черт не шутит, опробовал связку smooth/blur/sharpe. Ничего хорошего не получил.

7. Опробовал blur2/sharpen2. Не наш вариант.

8. sharpe со значением 2. Вариант отметается.
blur со значением 2. Все таки не лучший вариант.

9. Последнее на что хватило сил: smooth со значением 1 + blur со значением 2. В целом не плохо, и скорее всего ошибок в среднем меньше. Но все таки не мой выбор.

Так, что в поисках чаши грааля, не нашел таковой. Конечно тут все субъективно и в глобальные настройки я не лез в силу неопытности. Одни ошибки характерны для одних настроек, другие для других. Для многих настроек явных фаворитов нет. Так, что линейной зависимости нет и приходится делать усредненный субъективный выбор.
Типичные ошибки для данной книги:
- Промежутки между слов - слова либо сливаются, либо слоги расходятся.
- Для некоторых характерно:
ll распознавать как U.
е как с.
l как i

Однако учитывая, что на самом деле с ошибками распознавания не так все плохо и беря во внимание их количество/качество/внешний вид распознанного макета в word после распознавания/простоты настроек, мой вариант:
400dpi(удвоение)/Lanczos3/без всяких улучшайзеров.

Страницы: 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102

Предыдущая тема: мнение о Maxthon


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.