» ScanKromsator СканКромсатор (Часть 2)

Автор: ghosty
Дата сообщения: 10.02.2008 20:42

Не могу импортировать из этого файла: http://rapidshare.com/files/90720888/Plato_s_Parmenides_Samuel_Scolnicov.rar.html
Импортируются только первые две картинки

Автор: tukktukk
Дата сообщения: 10.02.2008 23:29

Пытаюсь откромсать одну книжку с тенью от разворота. Тень убирается на ура с помощью иллюминации однако на некоторых страницах также пропадают буквы, которые в тени. Игрался со многими опциями (b/w thresshold, etc.), но приемлего результата не достиг. Пока что остановился на dithering проблемной области. Прошу подсказать мне что еще можно сделать. Прилагаю пример скана плюс мой вариант.

Ссылка

Автор: BooBoo
Дата сообщения: 11.02.2008 01:50

tukktukk

Вариант
_http://rapidshare.com/files/90792636/test.rar
Ещё один
_http://rapidshare.com/files/90892872/test1.rar
И ещё
_http://rapidshare.com/files/90895823/test.rar
Исходное изображение из папки удалено

Автор: bolega
Дата сообщения: 11.02.2008 12:10

BooBoo
Очень правильно сделали. Для сканов, где контраст между тенью и текстом очень мал, следует применять background clean (+опционально corr.illum). Можно и CI, но safe mode. Почему-то BC забросили, а он ведь в тяжелых случаях работает намного аккуратнее чем CI.

Добавлено:
ghosty

Цитата:

Не могу импортировать из этого файла:

Так я ж не раз предупреждал, что векторные pdf кромсатор не импортирует

Иначе sk нужно превращать в аж целый GhostScript.

Автор: BooBoo
Дата сообщения: 11.02.2008 12:35

bolega
Принято к сведению

Автор: Torino
Дата сообщения: 11.02.2008 13:33

Цитата:

Почему-то BC забросили, а он ведь в тяжелых случаях работает намного аккуратнее чем CI

А что такое BC? ))

Автор: ghosty
Дата сообщения: 11.02.2008 13:59

bolega

Цитата:

Так я ж не раз предупреждал, что векторные pdf кромсатор не импортирует

Ну вот

А ведь можно и GhostScript подключить, наверное?
Ответьте, пожалуйста, очень ли сложно будет ввести функцию деления страницы на две половинки (соотв-но разворота - на четыре части) - так, чтобы разрезающая линия приходилась на пространство между строками (не портила текст). Просто до сих пор нет нормального инструмента для подготовки электронных книг для чтения в устройствах типа Sony eReader, Lbook, Irex. В SK есть все для обработки, но не хватает какой-то мелочи - возможности разрезать странички.
Владельцы подобных устройств были бы очень благодарны

Получилось ли воспроизвести "мой" глюк с разрезанием символов при чистке спеклов? Или это только у меня такое безобразие?

Добавлено:
Torino

Цитата:

А что такое BC? ))

Background Cleaner.

Автор: Torino
Дата сообщения: 11.02.2008 14:28

Цитата:

Background Cleaner.

Пасиб!

Автор: RuBorTex
Дата сообщения: 11.02.2008 15:44

ghosty

Цитата:

чтобы разрезающая линия приходилась на пространство между строками (не портила текст). Просто до сих пор нет нормального инструмента для подготовки электронных книг для чтения в устройствах типа Sony eReader, Lbook, Irex.

Для Sony Reader я пользуюсь pdflrf - в нём есть такая функция. При конвертации вполне прилично режет пополам страницы и PDF, и DjVu файлов.

Автор: ghosty
Дата сообщения: 11.02.2008 15:56

RuBorTex
Там проблема, прежде всего, в том, что многие файлы перед разрезкой обрабатывать надо - PDF c тонкими шрифтами без ужирнения на E-Ink не почитаешь особо. А из 2-х известных мне утилит ни одна ужирнять не умеет - только режут

К тому же у меня Лбук

Автор: RuBorTex
Дата сообщения: 11.02.2008 16:27

ghosty
pdflrf умеет ужирнять (от 1 до 4 чего-то - не выяснял, в каких единицах жирность). А вот Лбук - это да, тут LRF не катит. Я поначалу волновался, как книги читать буду: Лбук djvu понимает (у меня большинство книг в djvu), а сонька - нет. А оказалось всё очень даже просто. Без конвертации/разрезания всё равно читать не комфортно (тот же pdf - мелковато, особо если исходник под A4 форматирован) , а после нарезки этой утилитой - нормально.

Хотя, конечно, такая функция в кромсаторе не помешала бы.

Автор: ghosty
Дата сообщения: 11.02.2008 16:33

RuBorTex

Цитата:

Лбук djvu понимает

Это только V3 умеет...

Получил только что такую ошибку во время обработки:

Прошу прощения, если уже было.

Автор: bolega
Дата сообщения: 11.02.2008 16:34

ghosty

Цитата:

А ведь можно и GhostScript подключить, наверное?

Можно. Но я не знаю, как мне обрабатывать его глюки и ошибки. Дело в том, что иногда он не может воспроизветсти какой-нибудь шрифт (или сделать замену). Причем, шрифт возможно используется для вывода гпример, нескольких символов в формуле. Если это тихо пропустить-не заметить, то сразу это не всегда увидишь, а потом будет уже поздно. Да честно говоря я импортировать векторные pdf принципиально не хочу.

Цитата:

Ответьте, пожалуйста, очень ли сложно будет ввести функцию деления страницы на две половинки

Алгоритмически - не сложно. А сделать для этого интерфейс и спец. функции по обработке, отображению результата и т.д. - целый геморр. Поэтому не знаю, в ближайшее время вряд ли.

Цитата:

Получилось ли воспроизвести "мой" глюк с разрезанием символов при чистке спеклов

И да, и нет. Да в том смысле, что он мне самому пару раз попался, но я не придал ему значения, думал, случайно переключился в режим auto-clean. Нет в том смысле, что после того, как Вы открыли мне глаза на него, он паразит больше не случается. В коде все вроде бы нормально, вообщем нужно ловить момент, и тогда под отладчиком узнаю, в чем дело.

Автор: ghosty
Дата сообщения: 11.02.2008 17:01

bolega

Цитата:

А сделать для этого интерфейс и спец. функции по обработке, отображению результата и т.д.

А этого всего и не нужно - в готовых PDF и DJVU чистить уже ничего не надо, и просмотр результатов не нужен.
Не нужен даже резак лишний
От алгоритма требуется только одно - резать страницу наиболее близко к центру - по белому полю (по возможности не отсекая элементы текста). Проверяем параметры обработки в обычном режиме. Затем ставим галочку "Cut pages into halves" и обрабатываем.
Если полоснет немного по тексту - тоже не страшно. Главное, чтобы не по середине строки

Если это действительно несложно (а аналог такого алгоритма уже, насколько понимаю, имеется - разрезка разворотов), то такая реализация была бы, ИМХО, идеальна.

Добавлено:

Цитата:

Нет в том смысле, что после того, как Вы открыли мне глаза на него, он паразит больше не случается.

Вот и у меня через раз - на одной странице нормально, на другой режет. Странно.

Автор: bolega
Дата сообщения: 11.02.2008 17:23

ghosty

Цитата:

От алгоритма требуется только одно - резать страницу наиболее близко к центру

ОК, поработаем над этим

Автор: BooBoo
Дата сообщения: 11.02.2008 20:18

bolega
Изображения Merge перешёл на следующую страницу, потом вернулся, а там это._http://rapidshare.com/files/90974988/Snap.rar
В таком виде и сохранилось в out.
Это что такое с программой не знаете?

Автор: StudentFS
Дата сообщения: 11.02.2008 21:58

bolega
Спасибо за picture-zones - все что я предлагал для рисунков оказывается там было уже реализовано. Теперь самыми трудоемкими остаются три этапа:
1. Не очень понимаю как расставляются резаки. На чистых сканах на одной странице съедает край буковок, на другой точно такой же странице в сантиметре от текста. Вобщем конечно в целом наплевать, но если эстетизм начинает превалировать и хочется все сделать красиво, приходится поправлять почти каждый резак. Также регулярно номера страниц уходят за поле. Может быть имело бы смысл сделать несколько Art режимов расстановки резаков, например, по разному для чистых и грязных сканов и дать юзеру самому выставлять чувствительность например на отдельные циферки. Также может имело бы смысл сделать ителлектуальную проверку краевых мест, циферка это или грязное пятно. Сейчас расстановка резаков на книгу занимает минут 10. Плевать, если 10 мин станут тридцатью.
2. Часа два занимает сама обработка (process). Все пни сейчас как минимум с эмуляцией двух процессоров - может сделать параллельную обработку двух страниц одновременно или дать юзеру выбор сколько страниц обрабатывать в параллель. Не знаю как организованы потоки в Вашей прогоамме, но создается впечатление что проц недогружен.
3. Может это и не про кромсатор, но около-фэки и методички не помогают. Заманался просто с фотографиями в серых полутонах. Если перегонять их в блек-вайт, невозможно выставить чувствительность Middle dark и т.д. чтобы сохранить все полутона. Если делать в градациях серого а потом перегонять в дежавю как Scanned то ета скатина размазывает рисунок и получается большая серая клякса. Например, серая фото чегото типа сот оставила тока половину ячеек, а остальное стало серой грязью. Можно конечно загонять в дежавю как фото, но тогда каждая страница ето мегабайт. Вощем угандошился с каждой картинкой по индивидуальной прогоамме работать. Что будет советом - может надо както в блек-вайт на разрешении 2400 скажем перегонять а далее делать тифф с 600dpi для текста и 2400 для рисунка одновременно?

Автор: ghosty
Дата сообщения: 11.02.2008 22:06

StudentFS
Вы в курсе, что резаки нужны ТОЛЬКО для отсечения всего лишнего, и их совсем не обязательно расстанавливать "красиво"

Автор: StudentFS
Дата сообщения: 11.02.2008 22:47

ghosty
я делаю с нулевыми полями по краям чтоб при печати высталять чё хочется. Поэтому если не двигать то текст получается прижатым например к одному краю.

Автор: Torino
Дата сообщения: 11.02.2008 23:07

StudentFS
Насколько я понял, синие резаки в Кромсаторе предназначены для отсечения мусора на полях.
Нет необходимости их выставлять точно за текстом.
После запуска Process определение границ текста все равно будет выполнено по новому и более точно, но в пределах синих резаков.

Автор: bolega
Дата сообщения: 12.02.2008 08:45

StudentFS
Я как-то объяснял, почему нельзя ставить нулевые поля. Это абсурд. Скан - это не идеальный векторный текст, определить край с точностью до пикселя невозможно! Поэтому в сам расчет изначально заложена точность определения контура в 4-8 пикселей. Учитывайте это. Если уж хочется делать без полей, то ставьте поля по крайней мере хотя бы в значение 20.
Если бы была гарантия, что на скане после обработки не осталось ни одного спекла (!), тогда можно было определять контур и с пиксельной точностью (и то не всегда, представьте, к крайней букве прилип спекл и выпирает на 3-5 пикселя, вот вам уже и неправильный контур, если ориентироваться исключительно на крайний пиксел. Кромсатор именно поэтому так не делает). Но такого практически не бывает. Но если у Вас именно такие сканы, то поставьте на закладке Options2 чувствительность в самое правое положение, тогда контур будет определяться с точностью не более 4 пикселей.

Добавлено:
Torino
Да, именно так

Автор: Dracula
Дата сообщения: 12.02.2008 20:31

StudentFS

Цитата:

Все пни сейчас как минимум с эмуляцией двух процессоров

Ну у кого двухпроцессорные, а у кого всего 1 и то всего 2,5 Гц (с оперативой 256 Мб) как у меня.

Автор: Dimock
Дата сообщения: 12.02.2008 22:29

Болега, ты можешь добавить в программу функцию экспорта в Ворд и поиска по тексту сканов?

Автор: Kiljes
Дата сообщения: 12.02.2008 22:57

Dimock

Цитата:

Болега, ты можешь добавить в программу функцию экспорта в Ворд и поиска по тексту сканов?

Для этого есть DjvuOCR.

Автор: bolega
Дата сообщения: 12.02.2008 23:31

Dimock
Т.е. написать свой Файнридер?? Боюсь, мне это не по силам. И если бы смог, то я бы уже жил в Силиконовой долине, рядом с билом

Автор: Dimock
Дата сообщения: 13.02.2008 00:16

Понятно. Увидишь Билла - не убивай его. Просто передай привет.

Автор: StudentFS
Дата сообщения: 13.02.2008 02:05

Ну я хотел как лучше

Автор: bolega
Дата сообщения: 13.02.2008 17:15

Недавно делал очень сложную в отношении зон книгу. После обработки каждых xx страниц столкнулся опять с проблемой out of memory. Вышел из положения так: добавил в опции спец. опцию, если во время обработки происходит ошибка нехватки памяти, то кромсатор выводит предупреждение "Reload task?" с кнопками yes и no, если юзер в течении 30 сек ничего не нажал, то кромсатор автоматически сохраняет задание (spt), прерванное задание (skt), закрывается, одновременно запуская новый экземпляр кромсатора, который продолжает выполнять прерванное задание с того места, где кончилась память. А то я запарился следить за этими сбоями. А так запустил задание на ночь, к утру после десятка авто-перезапусков все было готово

Автор: vitaly1
Дата сообщения: 14.02.2008 12:03

bolega
А почему на офсайте нет ехе-шника последней версии - 5.91?

Автор: Torino
Дата сообщения: 14.02.2008 21:06

_http://bolega.hotmail.ru/

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70

Предыдущая тема: MoleskinSoft Clone Remover

Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.