Ru-Board.club
← Вернуться в раздел «Программы»

» ScanKromsator СканКромсатор

Автор: Melirius
Дата сообщения: 13.01.2007 19:36
Можно вопрос - а почему Вы Кромсатор UPX-ом не жмёте? Он тогда еще меньше по размерам, чем Ваш RAR на hotmail'е получается.
Автор: ghosty
Дата сообщения: 13.01.2007 19:46
izograv

Цитата:
У меня такая совершенно дурная просьба: вот у bolega в примере к последней версии описывается процесс создания.
Дайте линк, пожалуйста. Не понимаю, зачем вначале делать PDF...
bolega

Цитата:
Я использую его только если мне надо обрабатывать паршивые 150dpi-сканы.
Это для меня тоже весьма актуально. Объяснитесь, пожалуйста Чем бикубик лучше для 150дпи?
Автор: trigliff
Дата сообщения: 13.01.2007 20:19
bolega

Цитата:
SK серые/цветные сканы делает с LZW-сжатием, а мой лицензионный FR 7 (не знаю, может у нелиценз-го таких проблем нет ) не хочет понимать такие тифы.

Принимать сканы с LZW-сжатием FR 7 (русский) научился только в последнем из выпущенных билдов семёрки, т.е в 7.0.0.1006. Обновляйтесь, лиценьзия же позволяет.


Автор: Alexx S
Дата сообщения: 13.01.2007 20:40
bolega

Цитата:
Слияние заданий я сделаю.

Спасибо большое.


Цитата:
Но не пойму, почему Вы все-таки не хотите использовать fixed-размеры, лучше заданные в мм. В крайнем случае, можно ведь линейкой померить на книге нужные размеры и тогда кромсатор будет выдерживать их изначально, не тратя время на унификацию, и возня с resume тогда не нужна будет.


Можно и фиксированные делать. Но я часто делаю старые книги 60-70х гг.
Там размеры текстового поля иногда гуляют в довольно широких пределах. В самом начале изучения кромсатора я задавал размеры вручную и часто оказывалось, что размер полученного изображения не совпадал с моим. Как потом выяснилось - из-за того, что некоторые страницы просто в этот размер не влазили.
Поэтому я и не хочу вначале задавать размер - могут попасться страницы, к примеру, с таблицами, которые не впишутся в этот размер. А обработку часто приходится начинать до окончания сканирования.

Да и вообще, мое мнение - поля во время обработки и поля в результирующем PDF или DjWu - это разные вещи. Когда делаешь готовую книгу часто возникает желание эти поля изменить, а во время обработки гораздо важнее подобрать параметры преобразования, а о полях просто забываешь. А переделывать скурпулезно вычещенные сканы...
Поэтому я и определяю окончательный размер страницы когда все уже готово, кроме того, пока нет какой-нибудь разметки удобно центривать страницу относительно маленьких полей.


Цитата:
И про переделку полей тоже подумаю, это действительно полезно иметь.


Так это одно и тоже Почти.
Все, что я прошу - это возможность переделки полей. Автоматического определения области текста не надо - если мусор и помешал, выровнять такую страницу можно и вручную.
А вот задать новые размеры страницы добавлением или обрезкой или задать новый размер для всех страниц - то, что надо. Конечно, в идеале, хотелось бы, чтобы Кромсатор и в этом случае определял реальное положение текста, но идеал недостижим...

Так что моя просьба была не совсем корректна - да, хорошо бы иметь возможность повторного драфта уже обработанных сканов с зонами, но под мою аргументации подходит простое обрезание/увеличение страниц.

З.Ы. Кстати, обнаружил одно неудобство - курсор часто наезжает на Ruler, из-за чего цыфры им перекрываются
З.Ы.Ы. Когда подбирал различные режимы чистки фона/коррекции освещенности несколько раз получалось неправильное descrew. Точнее в понедельник могу сказать. Тогда же порошу совета с одной старой книжкой с интенсивным серым фоном - пока не получаеся использовать коррекцию освещенности. Даже на Safe выбеливание есть. Кроме того, края букв получаются зубчатыми.
З.Ы.Ы.Ы. Как правильнее выделять зоны - максимально близко к границам изображения или оставлять вокруг зоны поля под последующую ее обрезку?
Автор: ghosty
Дата сообщения: 13.01.2007 20:54

Цитата:
1. Делать поля после обработки сканов, поскольку на качество обработки эта операция не влияет, а вот из-за неправильного определения полей или ошибочного выставления их размера переделывать уже обработанные и вычешенные вручную сканы приходилось.
Я не призываю убрать эту функцию, при обработке предварительное добавление полей нужно, не хватает возможности у практически готовой книги изменить размер полей не прибегая к повторной обоработке. Может, не совсем корректный пример, но составляя любой документ прежде всего заботишься о качестве содержимого, а поля и другое форматирование делаются в последнюю очередь.
Если реализация такой функции достаточно сложная, можно упростить задачу - вместо повторного определения полей можно добавлять/обрезать существующие поля по типу того, как это делается в Фотошопе или других редакторах. С указением стороны, к оторой добаляем или отрезаем поля и с заданием величины полей или размеров изображения. Можно только небольшую проверку сделать - если обрезается поле, содержащее цвета, отличные от белого - сообщить пользователю. Иначе можно случайно испортить один из сотен файлов и не заметить этого.
По-моему, очень удачное рационализаторское предложение. Сейчас-то нам приходится для определения оптимальных фиксированных размеров вначале делать обработку 20-30 файлов.
А так на стадии постобработки можно ввести функцию выравнивания размеров всех страниц. Правильно я понимаю?

Добавлено:
Хотя нет, придется вновь править ориентацию текстового блока на странице - в том случае, если он значительно меньше размеров страницы...
Автор: bolega
Дата сообщения: 13.01.2007 21:13
Alexx S

Цитата:
Там размеры текстового поля иногда гуляют в довольно широких пределах. В самом начале изучения кромсатора я задавал размеры вручную и часто оказывалось, что размер полученного изображения не совпадал с моим. Как потом выяснилось - из-за того, что некоторые страницы просто в этот размер не влазили.


Да. такие книги бывают. Размеры нужно задать средние. И пускай некоторые страницы на выходе будут больше (кромсатор не станет любой ценой обрезать текст, чтобы вписаться в заданные вами размеры, если видит, что это приведет к обрезанию содержания). Во-первых, так и в оригинале. Во-вторых, если всю книгу делать исходя из максимального размера, то получится неэстетично как-то (по крайней мере, на экране): основная масса страниц будет иметь чересчур большие поля, пусть уж лучше несколько страниц будут чуть большего размера.


Цитата:
Все, что я прошу - это возможность переделки полей. Автоматического определения области текста не надо - если мусор и помешал, выровнять такую страницу можно и вручную

Нет, как раз автоматически это сделать не сложно. Ведь сканы уже будут вычищенные, и можно применить упрощенный, но более быстрый и надежный способ по новой определить контур. Это не проблема.


Цитата:
несколько раз получалось неправильное descrew

Включите тогда опцию Art-deskew для таких страниц. Еще это может говорить о том, что занижен порог threshold преобразования gray->b/w.


Цитата:
Тогда же порошу совета с одной старой книжкой с интенсивным серым фоном - пока не получаеся использовать коррекцию освещенности. Даже на Safe выбеливание есть

Интересно взгянуть. И режим smart не помогает?


Цитата:
Кроме того, края букв получаются зубчатыми

В страрых книгах они и в оригинале такие. Но задание blur=sharp=2 (3) может помочь.


Цитата:
Как правильнее выделять зоны - максимально близко к границам изображения или оставлять вокруг зоны поля под последующую ее обрезку

Лично мне удобнее не тратить время на точное выцеливание. Я ставлю с небольшим запасом. После чистки зон делаю crop (или autocrop). Можно и вообще crop не делать, если нет угрозы экранирования зоной близлежащего текста, все равно ведь потом сливать, поэтому какой будет размер зоны, не имеет никакого значения. Экранирование может возникнуть, если исходный скан был сильно перекошен, а кромсатор, как известно поддерживает только прямоугольные зоны, ортогональные осям координат.
Автор: Alexx S
Дата сообщения: 13.01.2007 21:24
ghosty
Тут дело в том, что я изначально просил другое, а про поля уже добавил "по ходу".
То есть варавнивание размеров страницы мне нужно после окончания обработки. Это можно сделать тремя способами
1. Заново покромсать и обработать файлы. Лучший результат, но долго, проблемы с зонами и трудоемко
2. Доверить определение области текста Кромсатору. Но он может и ошибиться, встретив случайную точку, а весь смысл обработки в том, что мусора у обработанного файла быть не должно и вычищать ничего нельзя
3. Механически изменить поля. Полезная штука, к сожалению не имеющая всех преимуществ, но относительно просто реализуемая.

Таким образом, поля (3) не заменят полностью имеющуюся функцию, но нужны независимо от того, получится ли сдеать (1) - (2).

В идеале хотелось бы еще увидеть опцию "переопределить поля для выходных файлов". Т.е когда мы увеличим или уменьшим поля, Кромсатор, исходя из ранее определенных областей текста их еще раз просматривает на предмет их уменьшения и сдвига после ручной чистки и делает поля. Насколько это сложно определить не могу, тут дело за автором.
Автор: bolega
Дата сообщения: 13.01.2007 21:31
Melirius

Цитата:
Можно вопрос - а почему Вы Кромсатор UPX-ом не жмёте?

Учту.

ghosty

Цитата:
Не понимаю, зачем вначале делать PDF...

Это пример универсальный, расчитан на всех пользователей, в том числе и тех, которые признают только pdf. Раз кромсатор поддерживает pdf, я обязан дать пример и на него. Кроме того, представленные мною 2 варианта одной страницы - pdf и djvu наглядно демонстрирует преимущество djvu по части размера, а также то, что в pdf картинки выглядят менее размытыми, чем в djvu (для некоторых пользователей sk качество имеет гораздо большее значение, чем размер, возможно, что pdf делаются только для себя и проблем с передачей больших объемов по инету не возникает). Еще один довод - многие упорно делают монстро-образные pdf, другие пытаются их ужать ценой безобразного падения качества и т.д. Может быть возможности SK по созданию pdf с премлимым соотношением размер/качество хоть кому-нибудь помогут, раз уж они не хотят делать нормальные djvu.


Цитата:
Чем бикубик лучше для 150дпи?

Бикубик делает однозначно более сглаженные контуры букв для плохих сканов.


Цитата:
По-моему, очень удачное рационализаторское предложение.

Несомненно. Поэтому буду делать.
Автор: Alexx S
Дата сообщения: 13.01.2007 21:46
bolega

Цитата:
Да. такие книги бывают. Размеры нужно задать средние. И пускай некоторые страницы на выходе будут больше (кромсатор не станет любой ценой обрезать текст, чтобы вписаться в заданные вами размеры, если видит, что это приведет к обрезанию содержания). Во-первых, так и в оригинале. Во-вторых, если всю книгу делать исходя из максимального размера, то получится неэстетично как-то (по крайней мере, на экране): основная масса страниц будет иметь чересчур большие поля, пусть уж лучше несколько страниц будут чуть большего размера.


Да нет, получалось сделать нормально книгу со стнаницами одинакового размера. На проблемных оставались очень маленькие поля, а на остальных - чуть побольше. Тут еще дело в том, что впоследствии книга печатается и если сделать страницы разного размера, то они будут при печати смаштабированы, что не очень хорошо.


Цитата:
Нет, как раз автоматически это сделать не сложно. Ведь сканы уже будут вычищенные, и можно применить упрощенный, но более быстрый и надежный способ по новой определить контур. Это не проблема.


Это внушает надежду


Цитата:
Включите тогда опцию Art-deskew для таких страниц. Еще это может говорить о том, что занижен порог threshold преобразования gray->b/w.


Это было при подборе порога преобразования и threshold мог сыграть свою роль, это так.


Цитата:
Интересно взгянуть. И режим smart не помогает?


Из всех вариантов, что я пробовла нормальные результаты у
1. Low Dark + BG cleaner с одним проходом
2. Middle Dark + BG cleaner с одним проходом + Safe illumination
Кстати, при всключении Safe illumination порог практически не имеет верхней границы. Middle Dark, High Dark и Smoth дают практически одинаковый результат.

По поводу зубчатости - размыты границы букв и серый фон делают свое черное дело. Тут нужна контурная резкость, да и то результат не очень. Сглаживание blur=sharp=2 мне не нравится. Размер выходного файла для меня не важен, а Акробат и так нормально сглаживает.

Добавлено:

Цитата:
для некоторых пользователей sk качество имеет гораздо большее значение, чем размер, возможно, что pdf делаются только для себя и проблем с передачей больших объемов по инету не возникает). Еще один довод - многие упорно делают монстро-образные pdf, другие пытаются их ужать ценой безобразного падения качества и т.д. Может быть возможности SK по созданию pdf с премлимым соотношением размер/качество хоть кому-нибудь помогут, раз уж они не хотят делать нормальные djvu.


Мой случай. Для собственного пользования PDF для меня гораздо предпочтительнее. Размер порядка 50-80МБ меня устраивает. Но это при тщательной очистки, если ее не делать, то будет больше, естесственно.
А Дажавю всегда можно из него сделать.
Крме того, мне не нравится именно размытость текста и изображений во втором.
Автор: ghosty
Дата сообщения: 13.01.2007 23:20
bolega

Цитата:
Это пример универсальный, расчитан на всех пользователей, в том числе и тех, которые признают только pdf. Раз кромсатор поддерживает pdf, я обязан дать пример и на него. Кроме того, представленные мною 2 варианта одной страницы - pdf и djvu наглядно демонстрирует преимущество djvu по части размера, а также то, что в pdf картинки выглядят менее размытыми, чем в djvu (для некоторых пользователей sk качество имеет гораздо большее значение, чем размер, возможно, что pdf делаются только для себя и проблем с передачей больших объемов по инету не возникает). Еще один довод - многие упорно делают монстро-образные pdf, другие пытаются их ужать ценой безобразного падения качества и т.д. Может быть возможности SK по созданию pdf с премлимым соотношением размер/качество хоть кому-нибудь помогут, раз уж они не хотят делать нормальные djvu.
А, тогда я предложил бы Вам реализовать алгоритм JBIG2 (opensource) во избежание этой самой монстрообразности. Меня, к примеру, эти 50-80Мб как-то пугают все-таки. Да и не почитаешь их на каком-нибудь старом ноутбуке...
Два дня назад я как раз пытался устроить обсуждение перспектив кодирования в JBIG2, но поддержки не нашел, к сожалению.
Особой разницы в качестве графических PDF (JBIG2) и DJVU (JB2) я так и не нашел (размеры файлов уже сопоставимы). Все зависит, на самом деле от просмотрщика и применямых в нем алгоритмов сглаживания. Последний плагин от Лизарда, ИМХО, дает то же качество, что и последний Акробат Ридер.
Автор: bolega
Дата сообщения: 14.01.2007 00:41
ghosty

Цитата:
А, тогда я предложил бы Вам реализовать алгоритм JBIG2 (opensource) во избежание этой самой монстрообразности


А зачем? Это и Acrobat прекрасно делает. Я наоборот, делаю несжатый pdf, чтобы потом юзер мог наиболее эффективнее сжать другими специализированными средствами.
Говоря о монстрообразности, я имел ввиду, что pdf делают непосредственно из серых или цветных сканов, без обработки. Поскольку не знают, как еще можно делать pdf из комбинированных сканов, в которых не только чекст, но и иллюстрации.

Недавно на одном книжном сайте один юзер залил небольшую книгу: pdf, сделанный из серых сканов, с очень неравномерным фоном, 8M. Я за 5 минут пропустил через кромсатор, удалил начисто фон, сделал 3 зоны, остальное перевел в 600dpi b/w. Получился отличного качества pdf 800кБ (после оптимизации JBIG2). Результат выложил там же, так автор поста так и не удосужился скачать мой вариант, потому что написал, что он мне не верит, потому что такое сокращение размера якобы в принципе невозможно и у меня, мол, наверняка ничего разобрать в итоге нельзя. Упертость неизличимая. Вот поэтому монстры до сих пор и рождаются. Потому что для многих все программное обеспечение начинается и заканчивается на FR, они считают, что если FR лучше не сделал, значит это в принципе невозможно.
Автор: ghosty
Дата сообщения: 14.01.2007 08:03
bolega

Цитата:
Результат выложил там же, так автор поста так и не удосужился скачать мой вариант, потому что написал, что он мне не верит, потому что такое сокращение размера якобы в принципе невозможно и у меня, мол, наверняка ничего разобрать в итоге нельзя.
Ну да, у меня нечто подобное часто случается. Поэтому и предлагаю по умолчанию использовать JBIG2 - 95% пользователей о его существовании вообще не догадываются...
А так слух поползет, что вот, есть, вроде, такая программка, которая графические PDF делает очень маленькими, а качество при этом улучшается. Удивительно!
Автор: Alexx S
Дата сообщения: 14.01.2007 08:18

Цитата:
Недавно на одном книжном сайте один юзер залил небольшую книгу: pdf, сделанный из серых сканов, с очень неравномерным фоном, 8M.


Мне часто попадаются DjWu такого размера (или больше - мегов в 15). Из серых сканов, причем с жуткой компрессией и сильно размытым содержимым. Человеку не нужно иметь хорошую программу, в которой он может все правильно сделать, ему нужна программа чтобы не делать ничего. Сказали - дежавю круто, можно маленькие файлы делать - он и делает в дежавю маленькие файлы. А что качество уродское - значит программа плохая, дайте ему другую.
Автор: djdtyfhu
Дата сообщения: 14.01.2007 21:03
bolega

Можно вопрос напрямую не относящийся к SK?

Предположим, у меня есть PDF с текстовым слоем, он сделан из серых сканов и занимает 80 МБ на 1100 Страниц. Выше Вы обсуждали
Цитата:
JBIG2
и хотелось бы узнать:

1) Что такое JBIG?
2) Как можно малой кровью уменьшить размер PDF с текстовым слоем (идеально бы переделать в DJVU, но как не знаю. В ScanAndShare на этот счет ничего нет)?

Заранее спасибо.
Автор: Alexx S
Дата сообщения: 15.01.2007 08:46
bolega

Фрагменты книги, о которой я говорил.
http://rapidshare.com/files/11771550/Illumination_test.rar.html ~1.4Mb

Остановился на двух вариантах - lowdark+bgcleader и highdark+correct illumination. bgcleader во втором случае отключен, посколку мне пока не понятно взаимодействие illumination с bgcleader.
В принципе, результаты неплохие, но первый мне пока нравится больше из-з более жирных букв. Обратите внимание на ошибки descreew во втором случае. На другой книге результат был противоположный.
В архиве два фрагмета - с интренсивным серым фоном и посветлее. В книге фон меняется от первого до второго, причем от страницы к странице довольно сильно.

Ну и, раз уж он к вам попадет, хотелось бы совета по оптимальным настройкам для данной книги. Может быть, я чего-нибудь не учел.
Автор: Arcand
Дата сообщения: 15.01.2007 09:32
bolega
Цитата:
Кроме того, представленные мною 2 варианта одной страницы - pdf и djvu наглядно демонстрирует преимущество djvu по части размера, а также то, что в pdf картинки выглядят менее размытыми, чем в djvu
Со вторым пунктом не совсем согласен. Да, при стандартных настройках фона картинки будут в некоторой степени размытыми. Увеличивая качество фона и его разрешение можно получить (ценой увеличения размера) нужное качество картинок.
Автор: ghosty
Дата сообщения: 15.01.2007 12:02
djdtyfhu

Цитата:
и хотелось бы узнать:

Об этом лучше узнать из этого топика (последние несколько страниц).
Автор: terminat0r
Дата сообщения: 15.01.2007 15:30
Alexx S

Цитата:
А Дажавю всегда можно из него сделать.
Крме того, мне не нравится именно размытость текста и изображений во втором.

кодируйте с профилем ФОТО в дежавю- никакой размытости не будет, а размер все-равно будет где-то в два раза меньше
Автор: Alexx S
Дата сообщения: 15.01.2007 17:48
terminat0r

Размер для меня важен в последнюю очередь, а кроме размера у дежавю я преимуществ не вижу. Я часто пользуюсь обеими форматами и ПДФ для меня удобнее. Размер в 40-60Мб меня устраивает, а если будет потроебность перекодироватьв дежавю, то это можно будте сделать без проблем.

bolega

Есть у меня книжка, чено-белая, но названия разделов, номера страниц и часть графиков и схем выполнена красным цветом, довольно бледным.
Раньше я не задумываясь сделал бы их все в черно-белом, а теперь могу позволить себе роскошь сделать все в цвете.

Вопроса два:
1. Если я буду в Кромсаторе переводить цветные изображения в 4bit, можно ли изначально делать их в GIF, размер файлов будет около 2Мб против 15 TIFF
2. После обработки изображения заметно бледее. Можно ли в кромсаторе увеличить яркость зоны, или надо будет в графическом редакторе поработать.
3. Чистка мусора. Как чистить фон вы объясняли, а как вычистить цветные пятна и прочий мусор?
Автор: mramor
Дата сообщения: 15.01.2007 21:00
хочу представить вниманию общественности описание своего знакомства с Кромсатором
[more] История одного кромсания

Предисловие
Сразу оговорюсь: кромсание - обработка сканированных книг ScanKromsator-ом.
Эта статья не является пособием по ScanKromsator-у и в ней не рассказывается, как правильно создавать электронные книги. Данной статьей я лишь хотел рассказать о своих впечатлениях при создании djvu-книги и показать, какие проблемы могут возникнуть в процессе работы.

Вступление
Началось с того, что меня заинтересовал процесс перевода книг в формат djvu. К тому времени в моей электронной библиотеке было довольно много книг в этом формате, но сам я до этого ни одной электронной книги не сделал. Причин в этом две. Во-первых, отсутствие мотивации. Вот есть у меня бумажная книга в хорошем переплете и с не менее хорошим качеством. Так зачем мне ее электрофицировать если бумажной пользоваться в сто раз удобней. Те электронные книги, что у меня имеются я читаю только с экрана и не могу сказать, что несказанно рад этому обстоятельству. Во-вторых, у меня нет сканера. Конечно, если бы мне понадобилось сделать е-книгу, то я бы спросил сканер у друзей и обязательно ее сделал. Но, к сожалению, такой надобности ни когда не возникало. Посему все книги из моей электронной библиотеки сделаны добрыми людьми из Интернета, откуда и были извлечены. Думаю, в подобной ситуации находится большинство любителей е-книг.
Естественно, спасибо всем добрым людям, помещающим плоды своего труда в Сеть. Но, несмотря на их доброту, качество некоторых книг для меня казалось неприемлемым. Посему я или читал их выборочно или откладывал до лучших времен. Но как-то раз появилось желание переоформить одно электронное издание (честно даже и не помню, что за книга была). Начал разбираться, искать программы и статьи. Начал, естественно, с самого формата djvu. Почитал о структуре фалов, принципах и алгоритмах сжатия. Все статьи, прочтенные мной, нашел на сайте http://djvu-soft.narod.ru/ . Но сайт этот ценен, в первую очередь, подборкой программ, предназначенных для работы с djvu-файлами и обработки сканированных книг.
Первое, что я скачал, был набор "DjVu Small", собранный автором сайта. Содержащихся в нем консольных утилит оказалось достаточно для преобразования djvu-книги в набор изображений в формате tiff, а так же для обратной сборки tiff-ов в один файл djvu.
Далее задумался о программе обработки изображений (тех самых tiff-ов). Большинству обывателей, возможно, в голову сразу приходит Adobe Photoshop, а особо извращенным личностям ACDSee. Но существует и несколько программ, специализирующихся на обработке сканированных книг. Об одной из них я читал неоднократно и впервые встретил на форуме http://forum.ru-board.com/ . Я говорю о ScanKromsator-е, автором которого является bolega ( http://bolega.hotmail.ru/ ). Первое впечатление от утилиты - мощь. Множество настроек, параметров, непонятных обозначений внушают именно это чувство. Но как со всем этим справится? Почитал официальную справку к версии 1.0. Понял общий порядок действий, но описание всего того множества настроек я там так и не нашел. Пришлось действовать "на ощупь". Несколько раз пытался сделать что-либо вразумительное, но до этапа непосредственной обработки так и не добрался. После этих тщетных попыток самостоятельно разобраться с непростым интерфейсом отправился в поисках правды на уже упомянутый сайт http://djvu-soft.narod.ru/ , где ее и нашел в разделе, посвященном ScanKromsator-у, в виде подборке статей. Прочитав несколько из них, понял, что узнать все это самостоятельно, т. е. эмпирически, было невозможно. Тут же переделал пару книг, правда, следуя не всем даваемым советам, а просто в целях эксперимента. В общем-то, те книги были мне не очень нужны и интересны, поэтому и получившемся результатом я был доволен.

Эффективное использование C++
Нет, я не призываю ни кого программировать. Такое название имеет замечательная книга Скотта Мейерса, экзекуция которой и будет описана ниже. Несмотря на свою замечательность эта, имевшаяся у меня в электронном виде, книга так и не была прочитана. Ни одной главы, ни одного правила (книга состоит из 50 правил того, что стоит в ее названии). А все по причине убогого качества сканов, из которых была получена книга. Именно сильное желание прочитать книгу без извращений подтолкнули меня к мысли ее "покромсать". Задача представлялась мне нетривиальной, так как моего опыта работы со ScanKromsator-ом было явно недостаточно, чтобы устранить артефакты, встреченные в этой е-книге.
Во-первых, в глаза бросается серость страниц. Увидев некоторые из них, я, было уж, испугался и задумался о впустую потраченном времени и тщетности попыток исправить это. Но все обошлось.
Во-вторых, тени на разворотах. Этому факту я огорчился не сильно, так как читал про возможности ScanKromsator-а и помнил, что с этим он вроде бы справляется. Даже несмотря на то, что тени залазят далеко на текст.
В-третьих, проступающие с обратной стороны буквы. На сколько я понимаю, вины сканирующего в этом нет и виновато в этом издательство, сэкономившее на бумаге.
Еще был текст, сползающий вниз в районе переплёта, но с ним я бороться не собирался, а посему большого значения и не предавал.

Рефакторинг
Итак, преобразовав djvu-файл с книгой в 236 (по количеству страниц) отдельных tiff-ов скормил их ScanKromsator-у. Обложка была цветная, поэтому решил обрабатывать ее отдельно и принялся за "кромсание" самой книги.
Как написано во всех статьях и на что указывает логика, сначала провел черновое кромсание (Draft Kromsate). В ходе него ни каких преобразований с документов не производится, просто программа автоматически расставляет резаки. Резаки – это линии, по которым будут отсекать ненужные края книги. Такое отсечение необходимо для более точного обнаружения границ основного текста. Так как книги (и данная – не исключение) сканируются неровно, то резаки приходится выставлять отдельно для каждой страницы, что немного утомляет. Для автоматизации данного процесса и предназначен инструмент "Draft Kromsate". Естественно его работа не идеальна, особенно на плохих сканах, но все проще скорректировать несколько страниц после его работы, чем полностью делать все вручную.
После этого этапа необходимо задать параметры преобразования и выходной формат книги. Это самый интересный этап работы с программой. Настройки на вкладке "Pages" могут быть заданы для каждой страницы индивидуально, но особого интереса не представляют. На вкладке "Book" задаются параметры, общие для всех страниц книги. Как раз с этой вкладкой у меня и не сложились отношения. Сначала нужно установить значения полей, которые будут добавляться к тексту обработанных страниц по горизонтали и по вертикали. Я задаю 200, так как кто-то рекомендовал ставить именно такое значение для книг разрешением 600 dpi (об этом позже). Параметры же определяющие ширину и высоту страницы предлагается оставить в положении Auto. Не знаю, не знаю. Каждый раз, когда я пытался сделать книгу с таким значением этих параметров, размеры получавшихся страниц все время отличались. Данное поведение программы меня не устроило и, измерив размеры страницы в пикселях (используя инструмент "Ruler"), задал их вручную с запасом. Теперь размеры прыгать не будут.
На вкладке "Files" указал выходной каталог и (важный момент!) выходные параметры книги: сжатие - TIFF G4FAX, DPI - 600, цвет - Ч/Б. Именно здесь я допустил ошибку, поставив 8-битный цвет, но заметил это слишком поздно. Далее, проведя несколько пробных попыток обработки, обнаружил проступание букв с обратной стороны сканов и бледность букв на этой стороне. В поисках подходящего инструмента полез на вкладку "Quality". Проставив там галки напротив "Blur" и "Sharpen" (все рекомендуют, вот и я туда же), перешел в раздел "Grey enhance...". Находящиеся там настройки помогают убрать серость с изображения. Поставив в поле "Cleaner passes" единицу и установив галку напротив "Correct low contrast", включил эту улучшалку серых изображений галкой "Enabled". К моему счастью, тень на развороте и серость страниц исчезли, однако следы от букв с обратной стороны оставались, к тому же некоторые из символов на лицевой стороне были бледней остальных. Решение обнаружилось в том же разделе "Grey enhance..." на вкладке "Contrast". Подобрав методом проб оптимальное значение контраста (остановился на 20), убедился, что все что хотел сделал и теперь можно запускать процесс для всех страниц. Однако обнаружилось, что настройки из диалога "Grey enhance..." применяются только к текущей странице, даже если ставить галочки с нажатым Ctrl (как для остальных настроек). Проделывать все это для каждой страницы я, конечно, не собирался, понимая, что какой-то способ это автоматизировать должен быть, и начал думать. Тут вспомнилось, что, читая одну из статей, обратил внимание на частое появление на скриншотах программы изображения различных контекстных меню. Дай, думаю, и я попробую. Ну, конечно, все получилось. На всех галочках и ползунках в контекстном меню нашлись пункты "Copy to all marked". На этом с настройками закончил и приступил к обработке.

Обработка
Основное время при обработке страницы тратится на изменение DPI и улучшение серых изображений (то, о чем предыдущий параграф). Так как процедура долгая, решил чем-нибудь заняться и неожиданно нашел чем. Оказалось (вдруг), что в данный момент я должен быть в поликлинике у врача, так как на это время у меня талон. Естественно побежал. По возвращении, спустя какое-то время, обнаружил, что процесс стал и ScanKromsator сообщает, что не может сохранить файл. Оказывается, закончилось место на диске! Да, такое тоже иногда случается. Дело в том, что после "распаковки" исходного djvu-файла в набор tiff-ов они заняли на диске 2 Гб (в среднем, 8 Мб на файл). А преобразованные мною через ScanKromsator окончательно "съели" все свободное место. Но остановился ScanKromsator не сразу после заполнения диска, а файлов через двадцать. Уж не знаю, чем вызвано такое поведение программы, может тем, что диск, на котором происходила обработка, разбит под NTFS со сжатием, но это не более чем предположение. В итоге имеем: один недообработанный файл (на котором и остановился ScanKromsator), кучу файлов нулевого размера и, к моему удивлению, еще кучу файлов нормального размера, но не открывающихся графическим просмотрщиком. В этот момент мое внимание привлекли размеры выходных файлов, которые составляли от 2 до 5 Мб. Таким образом обнаружилась ошибка с цветностью выходных файлов в ScanKromsator-е.

Рефакторинг-2
Естественно, оставшуюся половину файлов, я преобразовывал уже в Ч/Б вариант. Однако снова поиграться с опциями не додумался. После сборки книги, обнаружил, что если жать в Ч/Б, то пресловутый "Grey enhance..." не нужен вовсе. Опять время потрачено зря. Но это было уже потом, а после обработки второй части я в окне "Result view" подчистил все артефакты, исправил наклон нескольких страниц. Затем пережал в Ч/Б первую половину файлов с такой же последующей чисткой.
В последнюю очередь обработал обложку: подрезал, пережал в 8 бит (так как была цветная, с цветностью 24 бита).

Заключение
Осталось только собрать книгу. Вот только обложка по размеру не подходила, а хотелось все сделать красиво и аккуратно. После нескольких попыток подогнать размер обложки под размер остальных страниц решил вообще ее в книгу не вставлять. К тому же с ней нумерация сбивалась на одну страницу.
В итоге собрал книгу в djvu. Размер немного уменьшился и это после преобразования 400 dpi -> 600 dpi. А вот качество увеличилось на порядок. Аж глаз радуется, к тому же сделана своими руками и головой.

P.S. Говорят, что умные учатся на чужих ошибках, а дураки на своих. А мне кажется, что дураки вообще не учатся. Надеюсь, мой опыт поможет вам не ошибаться самим. А если и допустите ошибку, то постарайтесь её не повторять.[/more]
не думаю, что она будет интересна кому-то из корифеев данного топика. однако не пропадать же рукописи . когда ее писал (несколько месяцев назад), то собирался опубликовать на совсем другом ресурсе, но тогда что-то не сложилось, а сегодня попалась на глаза. естественно, с того времени познакомился с Кромсатором более близко и переделал им несколько книг, но первый опыт - он самый яркий.
Автор: Alexx S
Дата сообщения: 15.01.2007 21:30
mramor
Читать твою статью было очень приятно. Во-первых потому что там описаны все ошибки, которые я делал, приступив к освоению Кромсатора, а во-вторых потому что некоторых я не совершил
Главная ошибка - ты прошел мимо порога преобразования, одной из самых главных опций, впрочем, как и я, в свое время.
Опция называется "Convert to b/w threshold" и расположена она на вкладке "Convert". Это как проявка в фотографии - можно недодержать или передержать. Если параметр будет слишком маленький для скана - результат будет осветлен и много информации потеряется, если большой - появится много мусора.
Автор: seka1894
Дата сообщения: 16.01.2007 01:02
bolega

А что, русифицировать или русскую версию Кромсатора сделать не светит? Так и будут здесь люди по топику лазать чего эти загадочные слова на Инглише означают то или точно не то? Могет мы в нем не рубаем как переводчики. Ведь Кромсатор давно стал народной прогойю. Или вы не согласны? Зачем же выложили его, разве не для того чтобы тоже пользовалиь им? Или хомяки из каког-нибудь Хиндустана будет лучше рудить в Кросаторе только благодаря тому, что Английский его второй родной язык наряд у с Хинди? Или русский вариант настолько сложно сделать чем English? Ведь такая классная прога, а иногда непонятно, что сии надписи значат, может я убиваю скан этим, тем что славлю галочку напротив непонятных Алайсов и Шииров? Или может надо помочь коллективно в это добром начинании? Кинем клич!!!
Автор: max_well
Дата сообщения: 16.01.2007 03:49
может кто подскажет
я обработал сканы разворотов книги. В опциях поставил, чтоб кромсатор разрезал разворот, но забыл указать, чтоб потом страницы были слиты обратно.
Есть ли возможность слить их обратно уже после обработки?
Если кромсатор не может делать этого, то каким софтом под виндоуз можно быстро объединить 2 страницы в один разворот?
Автор: Alexx S
Дата сообщения: 16.01.2007 08:22
bolega

Касательно цветных сканов, о которых я говорил выше. Методом тыка я подобрал параметры, которые меня более-менне устраивают.
Апсемпл картинки вдвое (с последующим даунсемплом), плюс контраст на 10, после обработки - Magic clear всей зоны с высокой пушистостью (140-160). Минус - Color treshold for magic clear придется подбирать почти для каждой зоны

Может быть, посоветуюет что-нибудь другое?

Скан, с которым я экспериментировал и задание (890К)
http://rapidshare.com/files/11918308/Color.rar.html

Добавлено:
max_well
А зачем Вам, если не секрет? Просмотрщики могут отображать страницы рядом, если у Вас есть иллюстрации, которые расположены по развороту, то точного совпадения все равно не выйдет. А неудобство от таких разворотов будет, особенно для владельцев маленьких мониторов.
Если не убедил - в Ирфане есть опция по созданию панорамного изображения, но придется каждую пару страниц сливать вручную.
Автор: sergeant20
Дата сообщения: 16.01.2007 13:00
2 bolega
Отличный апдейт! На то, что раньше у меня уходили часы, когда я вставлял картинки в фотошопе, сейчас уйдут минуты.
Небольшие пожелания на будущее:
1. Не могли бы вы даже при небольших изменениях менять номер версии программы. Иначе легко запутаться.
2. Нет ли у Вас планов заняться сглаживанием букв про примеру кодирования-декодирования CPCToll. Может есть возможность не изобретать велосипед и подключить как внешний модуль кодер-декодер от CARTESIAN.
Автор: Arcand
Дата сообщения: 16.01.2007 13:07
Alexx S
Из интереса сделал сделал Ваш скан http://abab.front.ru/color2.tif . Цвет можно подобрать любой. Результат был бы немного получше (и легче делать), если бы не gif (индексированные цвета плохо для обработки цветных сканов).
Автор: bolega
Дата сообщения: 16.01.2007 13:17
Alexx S

Цитата:
Скан, с которым я экспериментировал и задание (890К)


Я бы не стал применять здесь cor.illum. Включил background cleaner, для зон взвел галку, чтобы применять BgCl и для них. Результат получился по-моему отличный. И фона на зонах практически не осталось, а тот, что остался, практически невидим, поэтому легко уберется magic clear даже при небольшом значении отклонения.

max_well

Цитата:
Есть ли возможность слить их обратно уже после обработки?

Создать новое задание, сбросить все опции, кроме merge. Запустить обработку (в которой собственно кроме merge ничего делаться и не будет, поэтому пройдет все быстро).
Чтобы быстро создать новое задание для уже обработанных файлов, находясь в исходном задании, выберите команду File->Create out-task. В новом задании все опции уже будут отключены.
Учтите, ЗОНЫ ЕЩЕ НЕ ПОДДЕРЖИВАЮТСЯ ДЛЯ MERGE-РЕЖИМА!!!


Добавлено:
seka1894
Светит, только не могу придумать русский аналог таких терминов как, например, deskew и despeckle. Но так, чтобы кол-во букв было не больше, иначе не влезит в окошко. На первое время будет по-видимому, смесь из рус/англ. названий.

P.S. Закладка filters в параметрах зон практически пустая. Если есть необходимость добавить туда еще какие-нибудь фильтры (gamma, контурная резкость, ...) говорите.

Добавлено:
Пара слов о зонах. Чтобы сменить тип зоны, нужно выбрать имеющеюся зону и щелкнуть по кнопке с нужным типом зоны - тип сразу же поменяется.

Чтобы обрамить зону другой зоной, нужно выбрать имеющеюся зону, затем держа Ctrl, щелкнуть по кнопке с зоной, которая должна обхватить существующую.

Чтобы удалить зону, нужно выбрать ее и нажать Delete.
Автор: Alexx S
Дата сообщения: 16.01.2007 16:25
bolega

Цитата:
Я бы не стал применять здесь cor.illum. Включил background cleaner, для зон взвел галку, чтобы применять BgCl и для них. Результат получился по-моему отличный. И фона на зонах практически не осталось, а тот, что остался, практически невидим, поэтому легко уберется magic clear даже при небольшом значении отклонения.


А где взводится эта галка? Если это в свойствах зоны "Protect from bgr cleaner and illum correction", то описанного результата при отключении она у меня не дает.

По illum correction мне все еще не понятно - применять ее где возможно или только в "тяжелых" случаях. Вот пример, который я выкладывал выше, подходит для этого?


Цитата:
Фрагменты книги, о которой я говорил.
http://rapidshare.com/files/11771550/Illumination_test.rar.html ~1.4Mb

Остановился на двух вариантах - lowdark+bgcleader и highdark+correct illumination. bgcleader во втором случае отключен, посколку мне пока не понятно взаимодействие illumination с bgcleader.



Добавлено:
Да, и еще - заметил глюк с зонами - открываем зону, делаем Auto-Crop, после него - Crop, но небольшой, я, к примеру, слегка обрезал с одной стороны. После это зона на изображении либо вытягивается, либо съезжает. Причем, глюк проявляется не каждый раз. Такое впечатление, что Кромсатор иногда теряет информацию о новом размере.

Добавлено:
А если добавить background cleaner в options clipboard, то он там отображается отключеным, впрочем, Вы предупреждали, что не все опции туда добавляются
Автор: Alexx S
Дата сообщения: 17.01.2007 19:45
Arcand

Цитата:
Из интереса сделал сделал Ваш скан


Из интереса хотелось бы знать как
Результат очень хороший.

bolega

Вы писали, что в свойствах picture - зон много свободного места
Из личного опыта хотелось бы иметь в свойствах зоны magic clear зоны с установкой чувствительности и autocrop.
Автор: bolega
Дата сообщения: 18.01.2007 14:47
В связи с поломкой компа пока ничего отвечать не могу.
Из ремонта ожидаю недели через 2.

Страницы: 12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758596061626364656667

Предыдущая тема: MSN Search Toolbar with Windows Desktop Search


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.