Ru-Board.club
← Вернуться в раздел «Программы»

» Сканирование и оцифровка текста *.txt, *doc, *.pdf, *.djvu

Автор: EL
Дата сообщения: 06.01.2005 14:56
Astra55
Насчет прикрутки AutoScan к DjVu Editor пока ничего не получилось, да и как сам процесс выглядеть должен, тоже не вполне понятно.

Вот, написал еще одну небольшую утилитку. Надеюсь, кому-нибудь еще пригодится.

Цитата:

Auto Enable IrfanView
=====================

Программа после запуска помещается в правый нижний угол экрана и автоматически
делает доступным окно IrfanView, если по каким-то причинам оно оказалось
недоступным.

Например, окно TWAIN-драйвера v2.6 для Umax Astra 4500, в отличие от предыдущих
версий, запускается в модальном режиме, что делает окно IrfanView недоступным.
Вполне возможно, что так же себя ведут и некоторые другие программы для
сканирования. Онако, это очень неудобно, так как для того, чтобы осканировать
несколько изображений, необходимо каждый раз закрывать и вновь открывать окно
TWAIN-драйвера.

Теперь проблем нет. Просто запускаем ew.exe - и окно IrfanView в любой момент
доступно.

http://labun.com/auto_enable_irfanview.zip
15.8 KB
Автор: Astra55
Дата сообщения: 06.01.2005 17:10
Понятно. Но поскольку уже найдена возможность прикрутить AutoRecorder к любому софту, то моя просьба не так актуальна. Беда еще и в том. что Ирфан некорректно работает с TWAINом, во всяком случае, с НР-шным. Звук сканера становится натужным, увеличивается время сканирования, явное не то. Такая же картина с VueScan. Зато через родной WIA все летает, равно как и в ФайнРидере.

Добавлено
Забыл добавить: если кто не в курсях - уже имеется рабочая версия Эдитора 5 с OCR, в том числе и с русским. Проблемы решены благодаря mas, за что ему всенародное уважение и признательность.
Русский вариант на подходе.
Автор: VovIK
Дата сообщения: 06.01.2005 17:24
Astra55

Цитата:
Забыл добавить: если кто не в курсях - уже имеется рабочая версия Эдитора 5 с OCR, в том числе и с русским. Проблемы решены благодаря mas, за что ему всенародное уважение и признательность.
Русский вариант на подходе.


А где взять-то можно "рабочая версия Эдитора 5 с OCR, в том числе и с русским"???
Автор: Astra55
Дата сообщения: 06.01.2005 18:55
http://www.lizardtech.co.jp/download/djvu/modules/windows/editor/5.0/ProfessionalEditor.zip
56,5 метров. За лекарством в соседнюю ветку. Рипнутые варианты в ближайшее время появятся для закачки.
Автор: EL
Дата сообщения: 06.01.2005 19:29
Astra55

Цитата:
Беда еще и в том. что Ирфан некорректно работает с TWAINом, во всяком случае, с НР-шным

imho вряд ли это связано с IrfanView, он ведь не вмешивается в собственно процесс сканирования. Дело скорее всего в родных TWAIN-драйверах HP (проверить легко: при использовании из любого графического редактора, напр. DjVu Editor, должны появиться те же проблемы). Драйвера Windows WIA и от FineReader - это тоже TWAIN-драйвера, только от "сторонних" по отношению к сканеру производителей.

Добавлено
Поправочка: драйвер сканера, встроенный в FineReader, конечно же, не является TWAIN, т.к. не предоставляет доступа к нему из других приложений.
Автор: ghosty
Дата сообщения: 06.01.2005 23:38
Испробовал 5-ю версию. Сравнил с 4-й.
В книге, которую я преобразовывал, в основном содержится текст, немного уравнений и графиков и таблиц.
4-я версия. Настройки:
documenttodjvu.conf - BITONAL PROFILES:
bitonal300: bitonal
pages-per-dict=1000
dpi=-300

При выборе опций в диал. окне сохранения: bundle, 300, bitonal.
Размер файла *.djvu - 714Kb.

5-я версия. Настройки:
documenttodjvu.conf - BITONAL PROFILES:
#@displayName:Bitonal (300 dpi)
#@readOnly:true
pages-per-dict=1000
bitonal300: bitonal
dpi=-300

При выборе опций в диал. окне сохранения:
Initial Conv. Setting ->
Profile -> bitonal
DPI -> 300
Text Quality -> aggressive
Multi Page Setting -> bundle
Размер файла *.djvu - 844Kb.

Где я неправ? Откуда при одинаковых настройках (в последнем случае качество текста даже хуже должно быть) лишние 130 Kb?
Автор: TCPIP
Дата сообщения: 07.01.2005 04:24
ghosty
23:38 06-01-2005
Цитата:
Откуда при одинаковых настройках (в последнем случае качество текста даже хуже должно быть) лишние 130 Kb?

А номер версии куда он будет пихать! Посмотрите, может он напихал в каждую страницу водяных знаков Слава КПСС!?
Автор: andrejka k
Дата сообщения: 07.01.2005 20:50
bdfy

Цитата:

Господа, а какие операции принято проводить надо зашумленным источником чтобы убрать грязь , шумы и
пр. и улучшить качество сканирования? Использую фотошоп например? я Magic tool пытался приспособить
серую грязь чистить, но выделяет он цвет что-то не на всем рисунке Еще кривые помогают, но текст
бледнеет при этом и иногда теряет читабельность
Еще способы ? ( ластик не предлагать )

На мой взгляд, самым идеальным средством борьбы с грязью на сканах является не так давно анонсированный BookRestorer. Собственно, из названия ясно, для чего предназначена прога. Там IMHO самый лучший despeckle. А хорош он прежде всего тем, что можно выбрать размер спеклов в пикселах (например, 2x2, 3x3,4x4 и т.д.) и, тут же, не отходя от кассы, просмотреть результат. Т.е. найти с увеличением самый маленький элемент, который бы не хотелось потерять в результате despeckle, и просто применить этот инструмент. Результат сразу же виден. Не удовлетворен - изменить размер спеклов. И так далее по получения оптимального результата.
Однако самый большой минус программы (не считая ее "веса" в 15 568 761 байт!!!) - ее триальность Ломать-то ее ломали, но не доломали. В результате после примерно месяца работы исчезает панель со скриптами, т.е. то, без чего программа превращается в груду байт на жестком диске. Этот недостаток был замечен, и, говорят, над ним уже идет работа Разные нехитрые махинации позволяют все-таки запустить программу: для этого достаточно перевести системное время назад. Но это нельзя назвать комфортной работой. Кроме того, там замечательная "выравнивалка" текста с кучей настроек и проч. Одним словом, очень хороший инструмент. Неотъемлнмый аттрибут для Кромсатора (спасибо, Болега!!!), о котором тебе уже сказали. Таково мое личное мнение.
P.S.: Брать можно здесь
hxxp://home.farlep.net/~roman//afina/restorerofbooks.zip
Автор: Astra55
Дата сообщения: 07.01.2005 21:47
RasterID тоже выпрямляет сканы и чистит мусор. Но ограничений по времени у него нет. Сегодня озадачивал его пакетным заданием, все сделал как требовалось.
Автор: fader
Дата сообщения: 07.01.2005 23:16
Привет всем!
Сорри за офтоп
Может ли кто нибудь еще раз выложить DjVuer PRO 2.0b1
Зараннее благодарен
Автор: dmitin
Дата сообщения: 08.01.2005 00:54
fader
2_0beta1
bmp поменять на rar
Автор: Arcand
Дата сообщения: 08.01.2005 05:08
Astra55
Не знал про RasterID. Можно про этот софт поподробней или где прочитать. А также где взять (я понимаю, яндекс и пр., но здесь самые спецы..., как говорится из первых рук).
Заранее спасибо.

Добавлено k

andrejka k
Если Вас не затруднит, сообщите, когда BookRestorer долечат.
Автор: Astra55
Дата сообщения: 08.01.2005 07:18
RasterID 2.1 берется на пиратских сидюках с названием типа "Софт Интегратор 2004. Программы для работы со сканерами", девелопер российский, называется
"Consistent Software". Все на русском, единственное, чего я не нашел - подключение OCR, то ли плохо искал, то ли оно заблокировано. Размер дистрибутива - 30 метров.
Вот краткое описание:
--------------------------
Программа RasterID предназначена для обработки и извлечения данных из
чертежных штампов на сканированных изображениях в интерактивном и
пакетном режимах.
Области применения:
Архитектура, строительство, проектирование, документооборот, управление
жилым и нежилым имуществом и недвижимостью.
Поддерживаемые форматы:
Монохромные TIFF, BMP, RLC, CAL, C4, TG4.
Цветные: BMP, PCX, JPG, JPEG, TIF, ECW.
Возможности:
Сканирование с использованием интерфейса TWAIN.
Прямое сканирование на сканерах фирмы CONTEX.
Широкий выбор средств:
зеркальное отображение;
повороты на 90, 180, 270 градусов;
обрезка;
автоматическое и ручное устранение перекосов;
коррекция по 4 точкам;
подгонка к ближайшему формату бумаги;
разделение по размеру объектов;
удаление мусора и дырок;
сглаживание;
инверсия (негатив).
Набор цветных фильтров.
Пакетный режим.
Распознавание конфигурации штампов и их содержимого.
Экспорт штампов в MS Excel или другую базу данных.
Собственные средства распознавания букв (OCR) с обучением.
Возможность использования программ OCR от других производителей.
-------------------------
Автор: kvk
Дата сообщения: 08.01.2005 11:53
Astra55
А как насчет залить ко мне, с последующей раздачей, а то я как забрался на рубоард, так на рынок ходить перестал
Спасибо!
Удачи
Автор: Astra55
Дата сообщения: 08.01.2005 17:36
И каким образом я это должен заливать? Сразу скажу, что хттп и фтп для такого объема не катят, провайдер такой у меня. Давайте НЕХАЛЯВНОЕ русское мыло или нормальный зарубеж, залью кусками по метру и не за один раз. Никаких других вариантов я не вижу.
Автор: estimated
Дата сообщения: 09.01.2005 00:12
Astra55: могу принять на мыло и перебросить kvk любым образом. Мыло бросил в ПМ.
Автор: ghosty
Дата сообщения: 09.01.2005 00:57
TCPIP

Цитата:
А номер версии куда он будет пихать!


Похоже я понял. В пятой версии почему-то не читается эта строка:
pages-per-dict=1000
До сих пор увеличение кол-ва страниц на словарь благотворно сказывалось на степени сжатия. Никто не знает, почему это может не работать в 5-й?
Кстати, думаю, что проблема "инь" может быть решена в частности и путем подбора этого параметра.
Автор: Stranger1
Дата сообщения: 09.01.2005 15:08
Решил вот книжку отсканировать. Углубился в науку сканирования...
Вопросов масса конечно. Пару дней вот изучаю.
Думаю за это время уже спокойно эту книжку напечатать бы успел
Так пока и не решил в чём делать: PDF или DJVU.

У меня вопрос по поводу скрипта к EL, который здесь уже был.
Скрипт работает, но всё сохраняется в 72 dpi, в любом формате.
Как-то удалось решить эту проблему?

PS У меня Win2k sp4, Epson Perfection 2400.
Автор: estimated
Дата сообщения: 09.01.2005 15:11
ghosty

Цитата:
pages-per-dict=1000
думаю, что проблема "инь" может быть решена в частности и путем подбора этого параметра

что, действительно, получаются разные результаты в плане "инь"? Ведь по идее этот параметр на сам энкодинг влиять не должен.
Автор: xalex
Дата сообщения: 09.01.2005 16:59
ghosty

Цитата:
Похоже я понял. В пятой версии почему-то
не читается эта строка: pages-per-dict=1000

Значит 5-я версия пока взломана не полностью.

А какое значение pages-per-dict реально используется
при сжатии ?
Автор: AlexeyTr
Дата сообщения: 09.01.2005 20:53
а в 5-ом Document Express'е есть возможность извлекать диапазон страниц в растровом формате (скажем, tif)? Или только по-отдельности?
Автор: Astra55
Дата сообщения: 09.01.2005 21:12
OCR ушел по тому же адресу, что и сам Эдитор5. О приходе сообщите, у меня рвалась связь. Насчет РастерИД - говорите кому слать на мыло. Только чтобы было надежно. Мегов по 10 в день я могу слать.

Добавлено
Буду слать Растр в два адреса - kvk и estimated, начиная с завтрашнего дня.
Автор: ghosty
Дата сообщения: 09.01.2005 21:49
xalex

Цитата:
А какое значение pages-per-dict реально используется
при сжатии ?


Цитата:
[pages-per-dict] description:Specifies the number of pages to be included in a shared dictionary file (*.djbz). The value you assign to this option represents the number of pages you want to include in a shared dictionary. For most documents, a value of 20 is the maximum before file size is no longer affected. Some documents, such as hand-drawn images, do not gain from shared dictionaries because they do not contain repeating shapes. For these types of documents, a value of 1 should be used to disable the use of shared dictionaries. The default value for this option is 10.

estimated

Цитата:
что, действительно, получаются разные результаты в плане "инь"?

Сам я довольно редко встречался с этой проблемой (да и книг пока не много в дежавю перевел). А какими значениями народ здесь пользуется? И при каких значениях проблема встречалась?

Цитата:
Ведь по идее этот параметр на сам энкодинг влиять не должен.

Я думаю, что он может влиять на процесс декодирования. Но это только предположение. Может, кто-нибудь знает, по какому принципу отбираются "прототипные" элементы для добавления в словарь? Какая-то статистика для этого, скорее всего, используется. А значит, и данный параметр является ключевым.

Добавлено
xalex

Цитата:
Значит 5-я версия пока взломана не полностью.

Наверно. Профайлы в ней, похоже, вообще не работают
Менял разные параметры - результат не изменяется.
Прога, кстати, и без папки с профайлами прекрасно функционирует.
Автор: dmitin
Дата сообщения: 10.01.2005 02:22
У меня возник такой вопрос.
Ко мне попали сканы, задежавюшенные DjVu Solo, которые надо было слегка подчистить и повернуть. Я действовал так. Ирфаном перегнал в
многостраничный тифф. Открыл его ФайнРидером, изображения повернул в
пакете. Эти тиффы пропустил через СканКромсатор (только почистил
черную полосу по центру и местами кляксы, но не обрезал).
Затем пожал DocExpress 4.1 : конфигурационные файлы не менял, bundled,
600 dpi, "черно-белый".
В итоге почему-то мой дежавю завесил 9.70 MB (тогда как исходный весил 8.96
MB), хотя по логике вещей должен был бы наоборот меньше.
Кто-то может подсказать?
Автор: Arcand
Дата сообщения: 10.01.2005 06:58

Цитата:
Значит 5-я версия пока взломана не полностью.


Цитата:
Наверно. Профайлы в ней, похоже, вообще не работают
Менял разные параметры - результат не изменяется.
Прога, кстати, и без папки с профайлами прекрасно функционирует.

Можно попросить dmitin проверить это на демке, для ясности. Если на демке то же самое, значит дело не в креке.

dmitin? Плиз...
Удобно это сделать Filemon'ом, посмотреть обращается ли Эдитор к папке profiles.
Проверил сейчас на крякнутой версии, Эдитор смотрит documenttodjvu.conf, остается проверить, использует ли он соответствующие настройки.

Сравнил 4.1 и 5.0, структура настроек кодирования изменились (задаются по другому). В 5-ке они присутствуют в диалоге сохранения. Посмотрите. Надо изучать. И не на русской версии. А то я название профилей перевел, может этого не надо было делать.
Автор: kvk
Дата сообщения: 10.01.2005 11:18
ghosty
Arcand
Я при сохранении задавал лосслесс и лосси результат разный по размеру.
Удачи
Автор: Arcand
Дата сообщения: 10.01.2005 11:24
Да, размер конечного файла зависит от профиля, разрешения и качества текста.
Изучаю структуру documenttodjvu.conf, там находятся детали настроек этих параметров. Думаю, все работает, только разобраться надо.
Автор: dmitin
Дата сообщения: 10.01.2005 14:38
Arcand

Цитата:
Можно попросить dmitin проверить это на демке, для ясности.

Проверил. Без папки profiles при попытке перегнать в дежавю триальный не пропатченый английский DocExpress 5 выдает сообщение:

Цитата:
[1-24113] Illegal profile

[OK]



Цитата:
Удобно это сделать Filemon'ом

А что это такое и с чем его едят? Можно линк?
Автор: ghosty
Дата сообщения: 10.01.2005 15:57

Цитата:
Без папки profiles при попытке перегнать в дежавю триальный не пропатченый английский DocExpress 5 выдает сообщение:

Ну тогда все, вроде, встает на свои места. Если в пропатченном английском DocExpress 5 удалить папку profiles, то прога работает без проблем. Если же в программе изменять параметры перед конвертацией, то результаты, действительно, будут разными.
Т.е. одним патчем мы все-таки не обойдемся
Автор: dmitin
Дата сообщения: 10.01.2005 16:06
ghosty и ВСЕ

Цитата:
Т.е. одним патчем мы все-таки не обойдемся

Тем, кого устраивает 50-метровый вариант, нет необходимости патчить. Появились серийники от Stranger1 в аналогичном топике в Варезнике (внимание: они спрятаны в сообщении!).

P.S. Если ввести такой серийник при инсталляции вместо 'eval', то ситуация с папкой profiles и сообщением об ошибке такая же.

Страницы: 12345678910111213

Предыдущая тема: Sockscap


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.