Ru-Board.club
← Вернуться в раздел «Программы»

» Сканирование и оцифровка текста *.txt, *doc, *.pdf, *.djvu

Автор: ghosty
Дата сообщения: 02.03.2004 17:51
Хотелось бы составить нечто вроде алгоритма действий для тех, кто оцифровывает в разные форматы (а таковых здесь много).
Например, что делать, если у человека есть книга без картинок и формул, если с картинками и формулами, если оригинал плохого качества, если он хочет, чтобы было удобно читать, чтобы файл был наименьшего объема и т.д. и т.п.
Давайте разберемся, какие форматы для каких целей подходят. Проблема отнюдь не надуманная.


Софт:
1. LizardTech DocumentExpress и DjVu Solo
2. ScanKromsator: Знаменитый кромсатор для обрезки получаемых при сканировании изображений, а также для разделения страниц, очистки от мусора и т.п. (есть FAQ). Автор: bolega. http://bolega.hotmail.ru/
3. DjVuReader: Альтернативный шустрый ридер для *.djvu. Автор: Dickobraz. http://www.opendjvu.nm.ru/
Обсуждение здесь.
4. AutoScan: Плагин для беспрерывного сканирования под IrfanView. Обновляется при выходе новой версии IrfanView. Автор: EL. autoscan.zip (4 KB)


Полезные ссылки по *.djvu:
http://www.cqham.ru/m2_scan.htm
http://www.cqham.ru/djvu_print.htm
http://www.cqham.ru/likbez_djvu.htm
http://www.cqham.ru/djvu_ocr.htm

Наш маленький FAQ по *.djvu:
1. Q: Что делать, если при конвертации происходит замена одних букв на другие, напр. "и" на "н" (проблема "инь" (с) Astra55)
A: Возможные варианты рассмотрены здесь.
Автор: Astra55
Дата сообщения: 02.03.2004 19:38
http://www.cqham.ru/m2_scan.htm
http://www.cqham.ru/djvu_print.htm

WBR,
Astra

Добавлено
http://www.cqham.ru/likbez_djvu.htm

Добавлено
http://www.cqham.ru/djvu_ocr.htm
Автор: ghosty
Дата сообщения: 03.03.2004 01:05
Итак, с самого начала я столкнулся с проблемой невозможности пакетного преобразования страниц отсканированных в *.tiff1 в формат *.djvu. Вся сложность состояла в том, что страницы помимо текста (Т) включали фон (Ф) и фотографии (К). Преобразование2 шло в теч. 8 часов, после чего программа отказалась работать, сославшись на нехватку памяти, и вылетела без сохранения. Я не пожалел времени на досуге и решил получше исследовать причины своих неудач. Результаты "исследования" показаны в таблице.
В начале я преобразовывал оригинальный тифф в режиме scanned. Получил отвратительные результаты.
Далее я решил проверить, влияет ли размер файла на скорость и кач-во преобразования. Для этого я преобразовал tiff в jpg. Та же картина.
Потом я преобразовал оригинальный тифф в режиме Black & White. Результат оказался весьма посредственным, но скорость была достаточно велика, а объем полученного файла оказался наименьшим.
Преобразование в режиме clean дало высокую скорость, но объем файла не сильно отличался от первых попыток, к тому же качество отображения текста было хуже.
Посмотрев на то, что у меня оказывалось в разных слоях, я сделал вывод, что данный софт абсолютно не переносит растр в фотографиях и фоне. Осознав это, я открыл ориг. тифф в Фотошопе и наложил легкий Blur. В результате получил высокую скорость, относительно небольшой размер файла и неплохое качество. Единственный минус - часть текста целиком отошла в Background.
Победил же в конце концов метод, подсказанный мне уважаемым FonBerg. Перевод из тифф в пдф, а затем - в дежавю. Единственное, чего я не понял, почему при этом вся картинка оказывается в бэкграунде, разделения не происходит.


1 Исходный формат - *.tiff 300dpi серый 8bit
2 Программа сжатия - Document Express Pro 4.0.1 Build 235

Формат Размер 1 (Mb) Время (мин, сек) Размер 2 (Mb) B&W Background Foreground Качество (ТКФ 5б)
Автор: Aegis
Дата сообщения: 03.03.2004 02:42
ghosty

1. Не совсем понятно чем все это дело жалось. Тут программ всяких модификаций много развелось, у них результаты разные.
2. Странно, но ни разу не имел проблем с компрессией тифа в дежаву.
3. С джипегом никогда стараюсь не связываться. Потому как он даст графические артефакты, которые дежаву-компрессор обязательно будет пытаться сохранять, что приведет к увеличению конечного файла.
4. Переход текста в фон это то, чего надо избегать как заразы. Тогда уж проще просто в джипег сохранять свои файлы, разница небольшая. Весь смак дежаву - крохотный финальный файл, что достигается именно выводом деталей и текста на передний план.
Автор: ghosty
Дата сообщения: 03.03.2004 02:58
Aegis

Цитата:
Не совсем понятно чем все это дело жалось. Тут программ всяких модификаций много развелось, у них результаты разные.

Не успел еще написать:
Исходный формат - *.tiff 300dpi серый 8bit
Программа сжатия - Document Express Pro 4.0.1 Build 235

Цитата:
Переход текста в фон это то, чего надо избегать как заразы.

В том-то и вопрос теперь, как этого избежать. Я не специалист в обработке изображений. Может есть "более другой" метод сглаживания в изображениях?
Автор: dosya
Дата сообщения: 06.03.2004 14:11
Спасибо за тему, наконец то она переросла варезник.

Есть ли варианты автоконвертации каталога с bmp в djvu и желательно с последующим склеиванием в один файл?
Автор: ghosty
Дата сообщения: 07.03.2004 04:49
В погоне за скоростью и качеством победил в конце концов метод, подсказанный мне уважаемым FonBerg. Перевод из тифф в пдф, а затем - в дежавю. Единственное, чего я не понял, почему при этом вся картинка оказывается в бэкграунде, разделения не происходит. Кто-нибудь может мне объяснить такой парадокс (см. таблицу)?
Автор: FonBerg
Дата сообщения: 07.03.2004 18:19
А кто хочет высказаться,как витруал-принтер от лизарда тачку загружает?
У меня чтото на 100% загрузка проца.И тормозят естественно другие приложения.Хотя АтлонХР2200+ и 1024 памяти.Или тачка неправильно настроена,или принтер такой?Пользуюсь VPD 4.0 из набора DocExpress 4.0

Добавлено
Причём,смотрю,память то не жрёт,а именно проца грузит,гад !
На прошлой машине(селик 1,1 гб/256 памяти) он именно память кушал,а проц грузил на 50-60%.
Вот и вопрос-у меня с машиной трабл,или глючит принтер?

Добавлено
И вот ещё глюк всплыл-счас конвертил из акробата 5.05СЕ ,так текст из латиницы получился иероглифами,именно не крякозяблами,а иероглефическими крякозяблами,смесь китайских,арабских и каких то инопланетных.Что за глюки-вот ЭТО впервые!Имено с Акробата-эту страницу попробовал -всё нормально сконвертилось.Из других приложений тоже норма.
Вот файлик,что с акробата вышел- ftp://212.7.2.22/model-fbt.djvu
Автор: Astra55
Дата сообщения: 07.03.2004 20:59
Вы, господа, почитайте по приведенной мной ссылочке, что там написано. Есть там и пакетный конвертер в djvu с GUI, и еще много чего. Если Акробат конвертит криво, тогда при отправке файла на печать поставить птичку в Print as image и все будет ОК. Таких ужасов по загрузке проца и требуемом времени никогда не было, даже на куда более слабых тачках. Все делается достаточно быстро, речь даже о часе не идет. Не зацикливайтесь на DjVu Editor, пока еще приходится применять Соло, иначе народ начинает ныть что не может посмотреть файл, старые плагины не берут новый кодек.

WBR,
Astra
Автор: ghosty
Дата сообщения: 08.03.2004 01:44
FonBerg

Цитата:
А кто хочет высказаться,как витруал-принтер от лизарда тачку загружает?

Astra55

Цитата:
Таких ужасов по загрузке проца и требуемом времени никогда не было, даже на куда более слабых тачках.

А это зависит, на самом деле. Например, в моем случае при преобразовании из пдф в дежавю процесс вдруг начинал загружать машину на всю катушку, а затем и вовсе выходил с ошибкой на предпоследней странице. По закону подлости. Посмотрел я эту страницу. Оказалось, что там текст на темно-сером фоне, состоящем из точек. Попробовал эту страницу отдельно преобразовать - загрузка проца сразу 100%, далее идет загрузка оперативки, далее своп, потом она загружает виртуальную память полностью и выходит. Попробовал на 100dpi преобразовать - долго мучалась, а в результате получились "веселые картинки" - она из точек фона пытается построить "гештальты", узоры всякие, текста не видно, естественно. Опять оригинальный тифф пришлось через фотошоп пропустить, потом в пдф --> дежавю. Сразу все поняла.
В том же случае, когда я преобразовывал просто качественный текст на белом фоне загрузка ЦПУ шла прим. на 60-70%, а память не использовалась.
Вывод: прога, действительно, не любит мусора. От мусора нужно избавляться на стадии сканирования. Она еще очень плохо умеет отделять сигнал от шума.
В первом случае у меня не было времени настроить процесс сканирования оптимально - получил глюки.
FonBerg

Цитата:
И вот ещё глюк всплыл-счас конвертил из акробата 5.05СЕ ,так текст из латиницы получился иероглифами,именно не крякозяблами,а иероглефическими крякозяблами,смесь китайских,арабских и каких то инопланетных.Что за глюки-вот ЭТО впервые!

Astra55

Цитата:
Если Акробат конвертит криво, тогда при отправке файла на печать поставить птичку в Print as image и все будет ОК.

В этих случаях оптимально все же открывать через GSView и выводить на печать оттуда.
Автор: FonBerg
Дата сообщения: 08.03.2004 02:37
Хе,господа-это не виртуал крякозябла рисует,а Акробат дуркует!(через файн-принт тоже самое).Если сам не разберусь-появлюсь в теме акробата.(впервые такая лажа)
Вопрос о загрузке проца в силе(повторяю-память не жрёт).
Автор: ghosty
Дата сообщения: 08.03.2004 03:01
FonBerg

Цитата:
Хе,господа-это не виртуал крякозябла рисует,а Акробат дуркует!(через файн-принт тоже самое).Если сам не разберусь-появлюсь в теме акробата.

Ну, так и мы о том же С этой проблемой можно разобраться, либо распечатывая из Акробата как рисунок (мне не нравится), либо пользуясь GSView. Там глюков еще не видел.
Автор: FonBerg
Дата сообщения: 08.03.2004 03:12
ghosty

Цитата:
либо распечатывая из Акробата как рисунок (мне не нравится),

мне тоже не нравиться.Вот как он выстёбываеться-акробатус- http://212.7.2.22:8000/Acroebatiki

Добавлено
А вот как он грузит при использовании DocExpress-а - http://212.7.2.22:8000/Acroebatiki/ZAGRUZKA%20NA%20DJVU.jpg

Добавлено
Так вот я и не пойму-это тачка сконфигурирована неправильно,или всёже дежавю-совтины такие-кстати,при конвертации файн-принтом в тифф (если большая пачка стр.-пробовал 50 стр.из акробата в монохроиный тифф на 1200 dpi- теже 100% загр.процессора,НО НЕ ПАМЯТИ!).
Или мне пора в другой теме вопрос поднять уже по поводу работы компа?
Автор: ghosty
Дата сообщения: 08.03.2004 04:11
FonBerg
Отослал дежавюшку, полученную из GSView.
При распечатке из Акробата процесс занял около 10 сек, и загружал проц на 100%. При этом у меня получились те же иероглифы.
При выводе с GSView - 15 сек, 100% и без иероглифов

Цитата:
Или мне пора в другой теме вопрос поднять уже по поводу работы компа?

Похоже, у меня то же самое. Вот только, судя по приведенному графику, у тебя процесс преобразования одной страницы занимает фиг знает сколько времени. Это так?
Автор: FonBerg
Дата сообщения: 08.03.2004 04:24
ghosty

Цитата:
у тебя процесс преобразования одной страницы занимает фиг знает сколько времени. Это так?

нет.не так-это когда я пачку тифоф весом в пару гиг пиханул в докекспресс.Тот график.
А в остальном-быстро,но всё равно грузит на все 100
Автор: ghosty
Дата сообщения: 08.03.2004 04:40
FonBerg

Цитата:
но всё равно грузит на все 100

Действительно, у меня тоже всегда на все сто, даже на самых легких документах. Разница только по времени...
Автор: ghosty
Дата сообщения: 10.03.2004 05:33
Кто-нибудь знает, откуда взять от Генчо обновленную утилитку (1.8, кажется)?
Автор: cornborer
Дата сообщения: 10.03.2004 08:18
FonBerg

Цитата:
Хе,господа-это не виртуал крякозябла рисует,а Акробат дуркует!(

Все-таки у Акробата в чем-то, да вылезают глюки с кодировками. В 6-й версии проблема при распечатке документов: цифровая подпись (английская!) печатается крякозябрами. Хорошо, что в 6 се - это уже поправлено. Однако вылезла проблема с переводом в формат pdf со сканера (обсуждалось в соответст. топике).

После долгих раздумий и мытарств, я лично все-таки отказался от массового перевода в документов формат djvu. Поскольку, если просят документ (например, оттиск статьи), то должно быть как у людей: стандартно и общепринято. И тут pdf - он и в Африке pdf. Стандарт публикаций де факто.
Автор: Aegis
Дата сообщения: 10.03.2004 22:23
cornborer

Цитата:
После долгих раздумий и мытарств, я лично все-таки отказался от массового перевода в документов формат djvu


Э-э, батенька.... Это все равно что сказать: я лично все таки отказался от массового перевода картинок в jpg. Все таки tif и gif рулят и беспотерьно...

Если есть файлы, их приходится сохранять. И в каждом конкретном случае избирается соответствующий медиум. И как только ты знакомишься с djvu то отказаться от его использования очень трудно.

Ибо удобен он, проклятый...


ghosty

Цитата:
Вывод: прога, действительно, не любит мусора. От мусора нужно избавляться на стадии сканирования.


И один из способов уменьшения шума - отказ от jpg и сглаживание при скане.


Цитата:
>Переход текста в фон это то, чего надо избегать как заразы.

В том-то и вопрос теперь, как этого избежать. Я не специалист в обработке изображений. Может есть "более другой" метод сглаживания в изображениях?


Тут надо не сглаживать а наоборот, увеличить контраст. Дежавушка любит выводить на передний план только контрастные части, справедливо считая их более важными (это закон зрения известный каждому художнику - более далекие сцены теряют цвет и контраст из-за пыли в воздухе). Если текст будет контрастен и черен - он выйдет вперед. Что и требуется.
Автор: cornborer
Дата сообщения: 11.03.2004 07:07
Aegis

Цитата:
удобен он, проклятый...

Если только для себя - согласен, удобен. А вот если для людей, особенно не слишком искушенных, то это только создавать им проблемы. Возьмем, к примеру, многостраничный djvu. Удобен, спору нет и раза в 3 меньше, чем тот же pdf, в 3-4 раза меньше, чем многостраничный tiff, запакованный как best в rar или zip архив. Однако, этот формат не поддерживает (надеюсь что только пока) никто из графических вьюеров, кроме djvu editor от Lizardtech. Ни Solo, ни DJVuerPro. Ни тем более ACDSee и иже с ними.
Автор: ghosty
Дата сообщения: 11.03.2004 08:16
Aegis

Цитата:
Тут надо не сглаживать а наоборот, увеличить контраст.

Я говорил о сглаживании растра (убрать точки, из которых состоит изображение)

Цитата:
Дежавушка любит выводить на передний план только контрастные части, справедливо считая их более важными (это закон зрения известный каждому художнику - более далекие сцены теряют цвет и контраст из-за пыли в воздухе). Если текст будет контрастен и черен - он выйдет вперед. Что и требуется.

Тогда как объяснить поведение Дежавю, когда она при переводе из пдф выводит в Background все части - и контрастные и неконтрастные, и при этом такой файл занимает меньше места, чем файл, преобразованный из тиффа, и в котором разделение имело место?

Кстати, маленькая хитрость (может быть, это только для меня открытие): в том случае, если в дежавю разделение текст/фон произошло удачно, то, отказавшись от фона, можно уменьшить объем файла более, чем в два раза. Делается это так: переключаем Display в режим Black & White и выводим на печать через VP.
Лучше, конечно, сразу сканировать в режиме ЧБ 300dpi. Просто я в который раз уже сталкиваюсь с дежавюшками, в которых никому не нужный фон почему-то оставлен.

cornborer

Цитата:
вот если для людей, особенно не слишком искушенных, то это только создавать им проблемы.

Для таких людей и пдф может создать проблемы (взять хотя бы распечатку). Мне, например, в любом случае часто приходится вместе с пдф'ами передавать и Reader в придачу. С дежавю плагином все несколько проще, я думаю.
Автор: Aegis
Дата сообщения: 12.03.2004 02:03
cornborer

Цитата:
Однако, этот формат не поддерживает (надеюсь что только пока) никто из графических вьюеров, кроме djvu editor от Lizardtech.

Видимо црушникам спасибо надо говорить. Это их формат, ну и там с передачей и пониманием файлов думается проблем дежавушка не имеет. По поводу сложностей - согласен, не каждая птица долетит до середины Днепра. Однако если товарисч разумный, потом еще десять раз спасибо скажет за открытие дежаву. А если чайник - так и пдф ему сойдет. Если вы базу делаете... Это все очень зависит... Базы в общем счастливы переходить на дежаву, если только они не целиком текстовые. А если вы к примеру имеете проект по распространению новостей, тут вам дежаву как корове седло конечно.


ghosty

Цитата:
Тогда как объяснить поведение Дежавю, когда она при переводе из пдф выводит в Background все части - и контрастные и неконтрастные

Настройки естественно. Смысл фона - размытый jpg, и только. Передний план - gif желательно с меньшей цветностью. Если не удается создать передний план - вы в пролете, половину прелести дежаву потеряли. Если у вас полноценная картинка (и фон и перед) но большая - тоже установки смотрите. Тут детально разбиралось что к чему, даже на русский полностью перевели.
Автор: cornborer
Дата сообщения: 12.03.2004 06:40
Aegis
ghosty

Цитата:
пдф может создать проблемы


Цитата:
проект по распространению новостей

Нет, только распространение оттисков личных публикаций в ответ на запросы. Некторые большого объема, изданы еще в приснопамятные времена СССР. Скажем книжка объемом 100 страниц. Запросы на 99.9% заграничные. Ни в одном случае с pdf проблем у заказчиков не было (все таки там pdf популярен шире, чем у нас). А с djvu - всегда.

Если по делу, т.е. о сканировании, то думаю стоит обсудить выбор программы. Не только объем файла, но и его качество сильно зависят от того, какой программой пользоваться при его создании. Хотя DJVuerPro хуже сжимает, и качество как-то не такое, но зато все графические вьюеры его понимают. А вот файлы, сделанные программой от LizardTech вьюерами на читаются.
Автор: Aegis
Дата сообщения: 12.03.2004 08:42
cornborer

Цитата:
распространение оттисков личных публикаций

для текста ни дежаву ни пдф я бы не стал трогать. Куда проще сделать красивенький хтмл. Даже если "оттиски" это сканы текста, лучше отосиарить его, самому будет приятнее владеть вещью в таком виде. К тому же вдруг улыбнется еще разок публикнуть тексты - а тут глядишь все в готовом к употреблению виде.

Впрочем = нравится пдф = держитесь за него. Дело сугубое.

Ну а Лизарда тут уже пинали-пинали...
Автор: cornborer
Дата сообщения: 13.03.2004 07:15
Aegis

Цитата:
лучше отосиарить его

Нет, все-таки полагаю не очень лучше . Чтобы автора с бОльшим удовольствием цитировали стОит придерживаться важного, хотя и нигде неписанного правила игры: электронный вариант публикации должен быть идентичен бумажной копии. А это после ора сделать очень трудно, если вообще возможно. Пдф хорош тем, что можно (если почему-то нужно) документ снабдить нормальной цифровой подписью или закрыть ряд опций использования потребителем (например, запретить распечатку или копирование содержимого, конечно, с умом, чтобы Элкомсофтовской утилиткой за 10 секунд не сломать защиту). DJVu хорош малым размером, но плох тем, мало распространен, т.к. не стал (и вряд ли уже станет) стандартом де факто для распространения и хранения документов (из-за отсутствия той же секретности хотя бы). И идеально подходит он только разве что для выставления в инете архивных редкостей. ИМХО, конечно .
Автор: ghosty
Дата сообщения: 13.03.2004 07:57
cornborer

Цитата:
А вот файлы, сделанные программой от LizardTech вьюерами на читаются.

Это верно пока ИМХО только для версий выше 4.0...

Цитата:
Пдф хорош тем, что можно (если почему-то нужно) документ снабдить нормальной цифровой подписью или закрыть ряд опций использования потребителем

Это точно.

Цитата:
например, запретить распечатку или копирование содержимого, конечно, с умом, чтобы Элкомсофтовской утилиткой за 10 секунд не сломать защиту

Очень интересно. А как это сделать? Очень прошу ответить сюда: http://forum.ru-board.com/topic.cgi?forum=5&topic=8298

В общем согласен, для пересылки оттисков статей в некоторых случаях пдф'у нет равных

Aegis

Цитата:
Настройки естественно.

Действительно, настройки. У меня глюк состоял в том, что я соглашался с разрешением по умолчанию - 96dpi, думая, что именно в этом случае объем файла будет наименьшим. Оказалось, наоборот - при повышении разрешения (я говорю именно о DocExpress) качество ухудшается, а размер файла уменьшается. Странно как-то.
В результате на 300dpi я получил конечный файл размером 65,9Kb. Повторяю, моя проблема состояла в том, что у меня были "сложные" тиффы с кучей картинок и разнородным фоном, по которому был пущен текст.
Соответсвтенно, Fon Berg, версия с распечаткой из Акробата через VP - тупиковый путь. Что бы я ни делал с настройками VP, мне не удалось заставить его разделять слои. Кто-нибудь знает, можно ли VP заставить его работать так же, как DocExpress?
Автор: cornborer
Дата сообщения: 13.03.2004 08:19
ghosty
Ответил
Цитата:
http://forum.ru-board.com/topic.cgi?forum=5&topic=8298


Цитата:
Это верно пока ИМХО только для версий выше 4.0

Согласен, конечно.

Добавлено
только АСДСи (даже 6-й) так и не научился просматривать файлы, сделанные даже Соло. А Ифран с плагином стоит не у всех. Иконки у него какие-то, ну не такие. И качество фотографий передает хуже, чем АСД.
Автор: vito333
Дата сообщения: 13.03.2004 17:42
даже ирфан многостраничные файлы не смотрит ...
Автор: cornborer
Дата сообщения: 14.03.2004 06:54
vito333
Да. Конечно. Рулит только продукт от Лизарда.
Автор: Aegis
Дата сообщения: 20.03.2004 22:26
ghosty

Цитата:
при повышении разрешения (я говорю именно о DocExpress) качество ухудшается, а размер файла уменьшается. Странно как-то.

Это разбиралось на первых страницах топика в Варезнике. 300 dpi - это стандард для дежавушки. Все что меньше - пересамплируется и увеличивается в размере. Размер файла растет соответственно. Можно указывать и больше чем 300 - качество будет падать. Размер файла тоже.

Страницы: 12345678910111213

Предыдущая тема: Sockscap


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.