Ru-Board.club
← Вернуться в раздел «Программы»

» DjvuOCR

Автор: vitaly1
Дата сообщения: 10.09.2008 02:15

Цитата:
же можно сразу распознать tiff, а потом как-то использовать результат распознавания для создания djvu?

Можно. Для этого и нужен DjvuOCR
Автор: comp3v
Дата сообщения: 10.09.2008 09:10

Цитата:

Цитата: же можно сразу распознать tiff, а потом как-то использовать результат распознавания для создания djvu?
Можно. Для этого и нужен DjvuOCR
Автор: gencho
Дата сообщения: 10.09.2008 17:32
comp3v
Пришлите FRF файли, исправим ошибки

FR9 создает в папке проекта собственный формат TIFF'ы, так что их нельзя использоват для других целей. Вообще, мой советь не отказываться от восмерке.
Автор: comp3v
Дата сообщения: 10.09.2008 22:40

Цитата:
Пришлите FRF файли, исправим ошибки

FR9 создает в папке проекта собственный формат TIFF'ы, так что их нельзя использоват для других целей. Вообще, мой советь не отказываться от восмерке.


файлы отправил на email. Насчёт восьмёрки - да, пока что вернусь к ней (только у меня она урезанная - если кто-нибудь поделится файликами итальянского языка для FR8 - amd, amm, amt - буду очень рад...).

и да, основной глупый вопрос так и остался - как лучше действовать, если исходные файлы в tiff? - в окне DjvuOCR, как я вижу, нужно указывать djvu файл - то есть, я должен сначала tiff'ы преобразовать в djvu, потом распознать, и только потом всё это собрать, так?
Автор: gencho
Дата сообщения: 11.09.2008 13:42
comp3v
Надо читать документацию В последная версия DjvuOCR есть HELP-файл, я там постарался описать часто встречаемые стратегии.

В вашей ситуации решение следующее: можете загрузить tiff'ы в FineReader и распознать их, и паралельно сделать DJVU файл из них. Только потом можно с помощью DjvuOCR перенести информация с FineReader на DJVU файл. Сам DjvuOCR tiff'ы не понимает, он работает только с готовый DJVU-файл.

Можно конечно сделать и по другому: сперва сделать DJVU, а потом из него извлечь tiff'ы и загрузить в FineReader. Если DJVU компрессор как-то обрезает страницы (пока такое не замечено), или если после создания DJVU с помощью редактора вставили пустые страницы, то второй вариант предпочительнее - тогда текст будеть корректно совмещен с графическое изображение.
Автор: gencho
Дата сообщения: 13.09.2008 00:15
comp3v
Исправил ошибки, послал на мыло. Там внутри и файли для италианского.
Автор: comp3v
Дата сообщения: 13.09.2008 03:26

Цитата:
Исправил ошибки, послал на мыло. Там внутри и файли для италианского.

Спасибо! я ответил на мыло.
На самом деле, я понял что мне точно имеет смысл оставаться на 8ом. Дело в том, что у меня сейчас tiff-файлы - отсканированные развороты книги, и мне удобно пользоваться функцией "Делить разворот книги" - тогда он из одного файла делает две страницы. Но это получается уже другая "структура", на которую текст не наложится. Поэтому приходится создавать djvu файл не из исходных tiffов, а из тех, что создаёт FR. Но tiff от FR8 для этого использовать можно, а вот от FR9 - уже нет...
Автор: fbm
Дата сообщения: 13.09.2008 15:10
Никто не подскажет, как все-таки отличить djvu с OCR от djvu без OCR? В том смысле, чтобы можно было сделать поиск по некоторой сигнатуре в файлах djvu, и получить список незаOCRенных.
Автор: alexsak
Дата сообщения: 13.09.2008 18:08

Цитата:
Никто не подскажет, как все-таки отличить djvu с OCR от djvu без OCR? В том смысле, чтобы можно было сделать поиск по некоторой сигнатуре в файлах djvu, и получить список незаOCRенных.

В djvu с OCR текстовый слой можно как я заметил выделить как в обычном текстовом редакторе, в djvu без OCR этого слоя просто нет и выделение невозможно. Поправьте если я не прав
Автор: ILHS
Дата сообщения: 14.09.2008 08:50
alexsak
fbm наверно не это имел ввиду. А каким способом определить (не открывая файлы) какие djvu с OCR и какие без.
Автор: gencho
Дата сообщения: 14.09.2008 14:41
ILHS
Я для этого пользую DjvuOCR, "Извлечь OCR слой" (Extract OCR layers). с включенная опция "Сохранить в HTML" (Convert to HTML). Загружаю целую папку в DjvuOCR, извлекаю слои, и потом смотрю (сортирую по) размер HTML файлов. Маленькие по размеру (хорошо все таки просмотреть что в файле, так как и маленькие DJVU с OCR генерируют маленькие HTML файли) соответствуют на DJVU без OCR.
Автор: gencho
Дата сообщения: 16.09.2008 16:06
Скоректировал еще несколько проблем, улучшил работа с FineReader 9.
Release 4 на офф-сайт.
Автор: juvaforza
Дата сообщения: 18.09.2008 22:16
gencho
Архив кажется поврежден.
Автор: gencho
Дата сообщения: 18.09.2008 23:12
У архива есть запись востановления, можно восстановить с помощью WinRAR. Или скачайте сновам с другое место - может у вас корпоративная firewall кешировала только часть.
Автор: monday2000
Дата сообщения: 19.09.2008 08:00
gencho
Melirius придумал способ, как распознавать в FR 8, не запуская его GUI. Описание тут:

http://mihd.net/64brsaf

Нельзя ли воплотить эту возможность в DjvuOCR?
Автор: monday2000
Дата сообщения: 19.09.2008 15:05
Вот выдержка из того хелпа с подробным описанием:

http://www.djvu-soft.narod.ru/fr_auto.htm
Автор: juvaforza
Дата сообщения: 19.09.2008 21:21
gencho
Востановление архива помогло, но я несколько раз качал архив, и каждый раз при тестировании появляется ошибка. (WinRar 3.80 beta 5) Вот такая.
Автор: fbm
Дата сообщения: 30.09.2008 15:36
gencho
Спасибо за наводку. Но это наверное не есть оптимальный способ, если таких файлов - ну очень много.
Может в файле djvu существует структура, сообщающая в том числе и о наличии OCR слоя? Это бы сильно упростило поиск.
Автор: terminat0r
Дата сообщения: 30.09.2008 19:37
juvaforza

Цитата:
и каждый раз при тестировании появляется ошибка.

Это не ошибка архива, а ошибка цифровой подписи. Для дела несущественно
Автор: ycheff
Дата сообщения: 30.09.2008 20:58

Цитата:
Никто не подскажет, как все-таки отличить djvu с OCR от djvu без OCR?


Это можно было бы сделать извлечением слоя OCR из копии файла и сравнением размеров 2 файлов (или контрольных сумм).
Автор: U235
Дата сообщения: 01.10.2008 07:25
fbm

Цитата:
Никто не подскажет, как все-таки отличить djvu с OCR от djvu без OCR?

OCR DJVU файл содержит сигнатуры "TXTz".
Можно еще написать .bat с использованием консольных утилит DjvuLibre - djvused и djvutxt.
Автор: monday2000
Дата сообщения: 01.10.2008 17:08
Зеркало:

http://www.djvu-soft.narod.ru/djvu_ocr_v2_4beta4_full.rar
Автор: fbm
Дата сообщения: 01.10.2008 19:41
U235
Спасибо за подсказку с сигнатурой, вроде бы все так и есть.
Автор: monday2000
Дата сообщения: 02.10.2008 10:18
БАТ-файлы к статье http://www.djvu-soft.narod.ru/fr_auto.htm :

http://www.djvu-soft.narod.ru/fr_auto.rar (2 КБ)
Автор: ycheff
Дата сообщения: 03.10.2008 17:23
gencho
В программах DjvuOCR (кажется, во всех версиях) в английском варианте есть опечатка: написано Applay, а должно быть Apply.
А за программу спасибо и всякий прочий рахмат и тешеккюр едерим.
Автор: Astrey
Дата сообщения: 23.11.2008 07:42
Что за глюк? пытаюсь воспользоватся Burn existing OCR. При нажатии на кнопку процесс пишет Cant start Djvused.exe frov directory "директория".
Автор: vitaly1
Дата сообщения: 23.11.2008 19:05
может кириллица в пути к файлу?
Автор: denver 22
Дата сообщения: 04.12.2008 21:08
Планируется ли поддержка программы CuneiForm (Альтернатива FineReader)?
Применение бесплатного софта при сохранении качества исходников (качество распознания) должно быть более полезным и безопасным.
Даже если по качеству распознания CuneiForm пока не дотягивает до FineReader (я ещё не проверял), то это только ПОКА.
Автор: vitaly1
Дата сообщения: 04.12.2008 22:32
-
Автор: denver 22
Дата сообщения: 10.12.2008 14:48
Даже не знаю, на кого грешить. На FineReader или DjvuOCR.
Решил потестить FR 9.0 и DjvuOCR 2.4 beta4 с ним.
В книге есть чистые страницы (которые оставил для правильного создания гиперссылок).
FR 9.0 на них ругается. Я проигнорировал. Ну и DjvuOCR 2.4 beta4 на них поругался и текст не внедрил.
В том же FR 8.0 эти страницы были с ошибкой. Но DjvuOCR 2.3 спокойно выполнил работу.
Куда копать? Тут разраб бывает?
Отпишу и ему...

Страницы: 1234567891011

Предыдущая тема: Программа для проведения crash теста компьютера


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.