Ru-Board.club
← Вернуться в раздел «Программы»

» Сканирование и оцифровка текста *.txt, *doc, *.pdf, *.djvu

Автор: estimated
Дата сообщения: 19.08.2004 00:55
DOE_JOHN: для повышения качества на "серых" (т.е. в градациях серого) изображениях, я в DjVu Solo при конвертации задаю в 2 раза меньший DPI, чем реальный. Т.е. в твоем случае - 150. Размер djvu-файла при этом увеличивается в 3-4 раза (также как и время кодирования), но качество деталей сохраняется очень приличное.

Эти GIF'ы - как по виду, получены путем сканирования или из электронного документа? (в последнем случае на страницах не будет мусора в виде мелких точек, границы рамок будут идеально ровные и т.п.)
Автор: kvk
Дата сообщения: 19.08.2004 04:11
DOE_JOHN
мы делали из подобного набора квант при сохранении качества жмется не сильно.
Удачи
Автор: estimated
Дата сообщения: 19.08.2004 04:18
Dickobraz: нельзя ли вкратце о нововведениях в DjVuReader 2.0.0.13 ?
Автор: DOE_JOHN
Дата сообщения: 19.08.2004 23:18
estimated Размер djvu-файла при этом увеличивается в 3-4 раза по моему используем djvu как раз для уменьшения размера.
Цитата:
Эти GIF'ы - как по виду
сканированные, есть с небольшим перекосом. Можно было просто собрать rarом в один файл, но в djvu пользоваться удобнее(использую плагин к explorer нашел который нормально работает с IE60). Уменьшение dpi ухудшает читабельность текста. При 300 dpi и

kvk мы делали из подобного набора квант что такое квант. У меня при сохранении качества размер наоборот увеличился.
Автор: estimated
Дата сообщения: 20.08.2004 00:14
DOE_JOHN
В DjVu Solo при конвертации в DJVU можно задать/изменить DPI. У тебя там, видимо, по умолчанию стоит 300, вот возьми и измени на 150. Это никак не влияет на исходные изображения, а только на то, как DjVu Solo будет их обрабатывать. В данном случае, будет пытаться сохранить больше деталей.

Об увеличении размера конечного DJVU в 3-4 раза я имел ввиду по сравнению не с исходными файлами, а с DJVU, сделанным с установками DPI в DjVu Solo по умолчанию.

Квант - журнал, наверное, имеется ввиду.

Короче, если исходники - это скан 300 dpi, то ставь в DjVu Solo режим Scanned 150 dpi - и сообщи о результатах. (Качество/размер по сравнению с исходным изображением.)

Как открывать исходные изображения, надеюсь, в курсе? Сначала открываешь первое, потом находишь в меню Append и добавляешь все остальные, следя за тем, чтобы они добавились в правильном порядке. Для этого в окне открытия/добавления файлов сначала ставишь курсор на последний файл, потом с нажатым Shift тыкаешь на первый.
Автор: DOE_JOHN
Дата сообщения: 20.08.2004 23:30
estimated Ужалось до 4.5 метров 68 страниц scaned 150dpi. Но неприятные эффект обнаружился. На тексте появились пятна. Т.е. вот строчка текста. Она должна быть одного "цвета" равномерная. А в режиме color на ней проявляются более светлые пятна. Текст уже хуже читается. В Black&White исправляется, но выглядит как то грубо.
Пробовал Photo 150dpi 29,7 МБ. Кстати в нем есть только color и background, остальные режимы чистые.
Может надо пробовать другую программу. С более гибкими настройками. Или они все с 4 предустановленными режимами?
Как открывать исходные изображения, надеюсь, в курсе? не знал. Как то это через одно место
Сейчас нашел програмку deja vu 2.5 Public Beta 3 кто что по нее слышал?
Автор: max67
Дата сообщения: 20.08.2004 23:55
DOE_JOHN
Мне кажется не стоит снижать разрешение до 150dpi. Ничего хорошего из этого не получится.
Может лучше отказаться от полутоновых 4bit рисунков? Насколько они принципиальны для журнала (и для вас)?
Если все сконвертировать в b/w, размер должен получиться примерно 5-10 kb на страницу.
Автор: estimated
Дата сообщения: 21.08.2004 01:10
DOE_JOHN
Давай сделаем так. Ты сбросишь мне на email пару типичных страниц, а я посмотрю, что там можно сделать. email сбросил тебе в ПМ.
Настройки можно попытаться менять в файле documenttodjvu.conf. Но для того, чтобы разобраться что там к чему, какие параметры на что влияют, и как это все работает - придется потратить не один десяток часов...

Цитата:
Как то это через одно место

Наверное. Но предложи лучший метод - и тебе все скажут спасибо.

Цитата:
deja vu 2.5 Public Beta 3

Ссылки?

max67
У меня получались неплохие результаты при этих установках, поэтому и посоветовал человеку. Т.е. у меня скан делался в grayscale 8bit, перегон в DJVU как Scanned 150 dpi. Так сохраняется намного больше деталей (по сравнению со Scanned 300 dpi). Это и понятно, т.к. применяются разные установки для конвертации (см. documenttodjvu.conf, профили H-300dpi и H-150dpi). А почему тебе не понравился такой подход?
Согласен, что если вариант b/w подходит - то это лучше всего в плане степени сжатия.
Автор: max67
Дата сообщения: 21.08.2004 02:55
estimated
Извиняюсь - с наскока не разобрался. Думал, что разговор идет про даунсэмплинг 300->150 dpi.
В данном же случае действительно получается двукратный upsampling. Но тогда стоит обратить внимание на другие параметры, зависящие от dpi:

render-size=
edge-size=
blurring-size=
high-variation-foreground= true
# JB2 clustering must be more conservative
conservative= true
tolerance-percent=
thickening=

Может их стоит взять из профиля для 300dpi, а conservative= true вообще нафиг?
И ещё. Исходные 300 dpi это ведь не так и плохо. Стоит ли их вообще апсэмплить.

p/s
Цитата:
deja vu 2.5 Public Beta 3

Это вьюер и к фоормату djvu ни какого отношения не имеет.
Автор: DOE_JOHN
Дата сообщения: 22.08.2004 00:20
estimated отправил. Сори за дубль, забыл файлы.
Автор: estimated
Дата сообщения: 22.08.2004 14:56
max67
Ты знаешь, я еще только на пути к нормальному пониманию всех этих параметров. И пока не могу так сразу сказать, какие как работают и какие были бы лучше. Какой upsampling ты имеешь ввиду? Основной слой (или как это называется?), вроде бы и там и там остается один-к-одному (updample=1, subsample=1). Background в профиле 150 dpi остается в этом же разрешении, а в профиле 300dpi его разрешение уменьшается в 3 раза...

"conservative= true"
- сейчас вот почитал в help'е, что это означает:

Цитата:
Preserves more detail than the {--normal } option, but slightly increases encoding time and the size of the resulting DjVu file. Use this option when you want the DjVu image to be nearly lossless.

Можно конечно и без него попробовать, но похоже, это как раз один из параметров, за счет которых и достигается улучшение качества...
Короче, экспериментировать нужно.


DOE_JOHN
[email]>Про добавление файлов не по-человечески я имел ввиду их обратный порядок
На самом деле это особенность не DjVu Solo, а самой Windows. В ее стандартном диалоге открытия файлов если ты выбираешь несколько файлов, то можешь в строке чуть ниже видеть, что первый и последний файлы поменялись местами. Некоторые программы потом сами корректируют такое поведение Windows (напр. EAC), некоторые пытаются, но получается еще большая путаница (Adobe Acrobat). В данном случае в DjVu Solo достаточно делать выборку файлов, как я уже чуть выше написал.

Посмотрел я присланные тобой файлы.
Сами исходники имеют плохое качество. Во-первых, их разрешение не 300, а 150 dpi.
В свойствах самих файлов это не указано, но легко вычисляется исходя из количества реальных точек 1062 x 1583 и известного размера исходной бумажной страницы - A4, т.е. 8.3 x 11.7 дюймов. Получается, с учетом легкой обрезки краев, как раз 150 dpi. То, что отображается при конвертации в DjVu Solo, - 300 dpi - является значением по умолчанию Djvu Solo, если в свойствах файла не найдено значение dpi.
Если бы при этих 150 dpi сохранились бы нормальные градации серого (8 бит на пиксел), то можно было бы получить еще вполне приемлемое качество. Но при емеющихся формально 4 bpp, а реально 2bpp (т.е. 4 цвета), контуры текста получились очень корявыми. Для djvu нужны плавные ровные заливки.

В общем, конвертация таких исходников в djvu в градациях серого не имеет смысла. DjVu Solo будет лишь пытаться сохранить имеющиеся артефакты, что негативным образом сказывается как на качестве, так и на размере конечного djvu.


Единственное, что могу тебе предложить в созавшейся ситуации: конвертировать все исходники в djvu bitonal - т.е. черно-белый. Какая-то чаcть информации при этом потеряется (напр. текст на сером фоне, если такой где-то имеется), но учитывая плохое качество исходников, этим можно пренебречь.

Перед этим внеси такие изменения в файл
папка с DjVu Solo\profiles\documenttodjvu.conf :

1. Найди строку

Цитата:
bitonal:

и вставь после нее строку

Цитата:
pages-per-dict=10000


2. И, заоодно уже, вставь точно такую же строку после после строки:

Цитата:
H-normal-quality:


После этого открой первый файл в DjVu Solo, потом добавь все остальные. Сохраняй в DJVU как 150 dpi bitonal.

Результат должен получиться по объему в 2-5 раз меньше, чем исходник.

Ну и пиши, что получилось.
Автор: max67
Дата сообщения: 22.08.2004 16:40
estimated

Цитата:
Какой upsampling ты имеешь ввиду?

Я и сам очень скромно разбираюсь во всех этих нюансах. Имелось в виду следующее:
Для профиля SCANNED в случае 150 dpi по умолчанию прописан upsampling, т.е. используется профиль H-150dpi-up. Для 300 dpi по умолчанию используется обычный профиль H-300dpi. Таким образом, имея на входе 300 dpi gif и используя профиль SCANNED получалось бы:
150 dpi 300 dpi

mask 600 300
forground 50 25
background 200 100

Т.е. двухкратный upsampling.
Ну а раз уж исходники оказались в 150 dpi то теперь это не имеет значения.

DOE_JOHN
По поводу конвертации в b/w. Для сканов в 150 dpi заметно помогает предварительный upsample. Например двухкратный. Делает ли это по умолчанию Djvusolo я не знаю.
Можно поэкспериментировать с программой Skankromsator от bolega из топика по физмат книгам.
Или пошлите и мне (на мыло из профиля) несколько страниц для экспериментов.

p/s Наверное уже жалеете, что связались с такими бодрыми доброжелателями

Автор: estimated
Дата сообщения: 22.08.2004 17:39
max67

Цитата:
Для профиля SCANNED в случае 150 dpi по умолчанию прописан upsampling, т.е. используется профиль H-150dpi-up.

А, точно. Это я в предыдущем посте ошибочно исходил из того, что просто H-150dpi.
Но я что-то все равно не могу понять, как ты пришел к указанным тобой цифрам в случае применения профиля scan150 (H-150dpi-up) к исходникам 300 dpi. Не мог бы объяснить?
И еще: я как то до сих пор толком не представляю, что такое mask? Как это лучше понимать и как это работает?
Автор: max67
Дата сообщения: 22.08.2004 19:33
estimated
Я человек далёкий от полиграфии и соображения по этому поводу у меня смутные.
Как я понимаю, dpi - это не свойство самого рисунка, а параметр либо устройства ввода (сканер) либо устройства вывода (монитор, принтер). Конкретный графический формат файла может, как содержать информацию об исходном/желаемом dpi, так и не содержать.
Для форматов используемых в полиграфии, dpi является важным параметром, например в тифах он как правило прописан (но бывают и обломы).
Формат gif вообще не предусматривает хранения информации о dpi. Просто сжатый bmp. Какое устройство отображения используешь, такой dpi и получишь.

Тем не менее информация об исходном dpi необходима при обработке изображения. Например, при очиске от мусора. Скажем есть у нас один и тот же текст в 300 и 600 dpi. В первом случае точки над i будут шириной ~ 5 пикселей, а во втором 10. Соответсвенно надо и выбирать порог для отсева мусора.

Когда мы подсовываем djvu кодёру gif сосканированный реально в 300 dpi, а говорим что это 150 scaned. То кодёр ни сколько не морочась проводит над этой картинкой апсэмплинг по схеме H-150dpi-up. Т.е. рассчитывает базовый dpi по формуле:
original*2/3
Таким образом формально получается 300*2/3=200 вместо 150*2/3=100. Т.е. за счет эксраполяции кодёр пытается сохранить (сгладить) больше информации для последующего сжатия. В свойства файла на выходе, конечно же запишутся dpi по формуле 150*2/3=100, т.е 300:100:25.

Маска, это чась изображения, которую кодёр считает ровными заливками. Маска кодируется с разрешением не ниже 200 dpi, битонально по алгоритму jb2. Если 0 - маска принимает цвет background'а, еси 1 - forground'а.

p/s извиняюсь за многословность. что-то меня понесло.
Автор: DOE_JOHN
Дата сообщения: 22.08.2004 23:58
estimated вообще то там размер страницы примерно половина А4. Такой формат был у журнала в начале 90-х. Качество исходного материала согласен не блещет. Но все равно спасибо, будем пробовать.
max67
Отправил
Автор: estimated
Дата сообщения: 23.08.2004 01:15
max67: спасибо за подробный ответ. Я наверное от полиграфии еще дальше чем ты
Сейчас даже не могу вспомнить, что такое собственно ресэмплинг и чем он отличается от ресайзинга


Цитата:
рассчитывает базовый dpi по формуле:
original*2/3

Т.е. берем реальный dpi (300 в нашем примере) и умножаем на значение upsample, а потом делим на значение subsample. Стоп, а почему реальный? Может надо подставлять заданный пользователем (150)?
Пока еще не понял, что при этом происходит с обрабатываемым изображением, и итоговое значение - "базовый dpi" - имеет ли какой-нибудь эквивалент в английской терминологии, применяемой в DjVu Solo/Editor ?

Ага, далее все величины вычисляются на основе этого "базового dpi":
"базовый dpi" * mask-upsamle = mask (200*3=600)
"базовый dpi" / bg-subsample = background (200/1=200)
"базовый dpi" / fg-subsample = foreground (200/4=50)

DOE_JOHN
Это ж надо. А в конце 80-х, когда я его последний раз читал, это был А4.
Ну что ж, А5 при таком разрешении - получается где-то 200 dpi.
(Т.е. можно попробовать конвертировать как bitonal 200 dpi.)
Автор: EL
Дата сообщения: 24.08.2004 12:27
[no]
AutoScan 1.6
============
http://labun.com/autoscan.zip

History
-------
...
1.5 [2004-05-12]
[+] IrfanView 3.91 is now supported
minor improvements

1.6 [2004-08-24]
[+] IrfanView 3.92 is now supported
[+] shows next filename before scanning
[+] resume after cancel is possible
[/no]
Автор: Astra55
Дата сообщения: 24.08.2004 16:12
2 EL

А может послать Ирфану свою наработку, пусть поглядит на идею и сделает такое же прямо в IV?
Автор: EL
Дата сообщения: 25.08.2004 13:14
Astra55
Да я и сам собирался написать ему. Там еще и других предложений как раз насобиралось. Но все нет времени, чтобы сесть и все это как следует изложить.
Если вдруг кто-нибудь другой не сочтет за труд написать насчет AutoScan, я возражать не буду.
Автор: Astra55
Дата сообщения: 25.08.2004 17:11
Ирфан - толковый мужик, он потихоньку воплощает мои тайные вишесы . Чего стоит появление в версии 3.92 конвертации многостраничных файлов в любой формат, это же песТня! Получается, что на сегодня IV3.92 - единственный, кто может конвертнуть на автомате djvu во что угодно за пару щелчков мышкой. Еще немного доработать опции сканирования и еще кое-какие мелочи, и тогда IV будет полным фидорулезом для всех, кто занимается OCR и прочими подобными вещами.

BTW, у кого есть возможность, обзаведитесь вполне русской программой RasterID, у меня она с пиратского сидюка, версия 2.1. Суперская штука для обработки изображений. Заточена под чертежи, извлекает из них штампы и все такое прочее. Кое-какие функций нет даже в монстровых редакторах, типа ФотоШопа. В то же время, все просто, понятно и удобно. Сайт программы - http://www.csoft.com/

Автор: DOE_JOHN
Дата сообщения: 27.08.2004 23:28
estimated
max67
в b/w как то не совсем устраивает качество. Но всё равно спасибо за помощь. Вот вопрос м.б. эти gif предварительно конвертнуть в к-н промежуточный формат?
Автор: Dickobraz
Дата сообщения: 30.08.2004 20:27
Давно хотел написать
После сканирования необходимо скорректировать перекосы страницы. Для этого используем FAR + Microsoft Office Document Imaging. В FAR-е выделяем все сканы и выбириаем «Применить команду»(Ctrl+G). Вводим команду:

start /wait C:\PROGRA~1\COMMON~1\MICROS~1\MSPaper\mspview.exe -o !.!

Ключ -o позволяет пропускать файлы, прошедшие через MODI, это полезно, когда обрабатывать сканы приходиться в несколько этапов. Чтобы не запоминать какие прошли обработку, а какие нет, используйте этот ключ. Остальные ключи смотрите в справке. Только не забудьте перед использованием MODI, запустить его и настроить язык распознования, а то может попереворачивать не так как надо.
После того, как это детище M$ отработает, все сканы будут более-менее правильно выравнены. Есть, правда, недостаток: MODI при сохранении использует TIF файл с JPG сжатием внутри (если это grayscale). Для исправления этого, пропускаю сканы через XnView, где в параметрах указываю tiff с LZW и 300dpi.
Автор: Meaningless
Дата сообщения: 31.08.2004 08:53
Dickobraz
Извращенец :)

Возьми Eistream Imaging Pro и используй приблуду под названием Flow. Это типа скрипта сканирования, в том числе со встроенным выравниванием перекосов, и TIFF'ы твои сохранит с любой компрессией, в том числе LZW.
Автор: LevT
Дата сообщения: 31.08.2004 17:21


А вот если надо на сканах провести принудительные линии таблицы, в оригинале отсутствующие (подразумевающиеся). Существует ли пакетный способ?

Задача-минимум - отрезать вертикалями поля, потому что значки на полях важны, но не должны мешаться с текстом.

Задача-максимум - провести и горизонтальные линии между строчками основного текста там, где находятся значки на полях.

Автор: estimated
Дата сообщения: 01.09.2004 19:29
LevT
Может, попробовать запрограммировать в CorelDRAW на встроенном VB Script ?
Автор: LevT
Дата сообщения: 01.09.2004 23:49

estimated

Это гадание или реальный опыт возможного?


Автор: Dukavaal
Дата сообщения: 02.09.2004 00:38
Раз уж вы занимаетесь сканированием, нужны ли вам полные плагины ACDSEE ldf и lfw?
На оффсайте плагин ldf стоит 100$.
Идеальная вещь для сканирования! Плагин специально создан для сканирования текста!
Незаменимая вещь при переводе Gray, Color скана в BlackWhite (Ч/Б). Ни одна буква текста не будет черной или темной, все можно прочитать!
Еще может ужимать color tiff 300 dpi A4 в файл размером 100 кб! При этом текст без проблем можно читать!
А lwf более распространенный, но не бесплатный, формат. Позволяет сжимать Tiff до размеров Jpeg почти без потери качества. Jpeg гораздо отстойнее сжимает, даже на максимальном качестве.
Автор: estimated
Дата сообщения: 02.09.2004 03:35
LevT
Я бы назвал это просто идеей. Ну, если хочешь, можно назвать гаданием Сам я этого не делал. Просто слышал, что Corel встраивает в свои программы лицензированый у MS VBA/VBS. И если оно там работает аналогично MS Office, то наверное тоже должна быть возможность включить запись макроса, выполнить нужные действия вручную (в это время будут записываться команды VB) - а потом просмотреть эти команды и подредактировать по своему усмотрению.
Автор: estimated
Дата сообщения: 02.09.2004 16:42
DOE_JOHN
Может кто-то из профи что-то сумеет с ними сделать. Исходя из своих знаний, я бы с этими сканами не мучался, оставил бы просто как есть без перевода в djvu. Извини, больше ничего подсказать не могу.
Автор: EL
Дата сообщения: 22.09.2004 11:23
Просьба к тем, кто пробовал AutoScan, сообщить, нормально ли он работал. Просто напишите: да/нет, версию операционки и марку сканера. Спасибо.
А то на форуме ixbt http://forum.ixbt.com/0013/016946-3.html уже два человека пожаловались на ошибку "несоответствие типа" (type mismatch). И я пока не пойму, с чем это связано - то ли с ошибкой в скрипте, то ли с конкретными условиями применения, то ли люди делают что-то неправильно.

Страницы: 12345678910111213

Предыдущая тема: Sockscap


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.