Ru-Board.club
← Вернуться в раздел «Программы»

» DjvuOCR

Автор: StanFreeWare
Дата сообщения: 09.02.2010 16:24
Smokeer
Ну, если получится, выкладывайте рядышком. Хорошее соседство не повредит ),

По поводу моей утилитки. В редких случаях может потребоваться установка VS2008Sp1 Redistributable packages. Возможно, это как раз ваш случай...
Автор: Smokeer
Дата сообщения: 24.02.2010 14:04
MSI инсталятор DjvuOCR 2.4
ярлыки на рабоем столе и пуске для всех пользователей системы
по-умолчанию ставится в програм-файлс
Автор: j52
Дата сообщения: 12.08.2010 15:28
All
Народ, получил при проверке вот такие грабли:

Цитата:
FRFGrab.exe" -t -q *.frf

** File "0001.frf"...
Invalid FRF format (6) offset=00000078
** File "0002.frf"...
Invalid FRF format (6) offset=00000078
** File "0006.frf"...
Invalid FRF format (6) offset=00000078
** File "0013.frf"...
Invalid FRF format (6) offset=00000078
** File "0021.frf"...
Invalid FRF format (6) offset=00000078
** File "0025.frf"...
Invalid FRF format (6) offset=00000078

и так до 149 стр., на которой проверка вообще вешется...
При извлечении текста - естественно извлекаются только стр.3,4,5,7 и т.д.
Исходные данные: WinXP_SP3; FR9.0.0724; DjvuOCR 2.4 c FRFGrab.exe version 1.14 r2 beta

Отчего это м.быть? И как это м.исправить? (кроме как выкинуть 300 распознанных стр. в корзину).

Автор: NME
Дата сообщения: 13.08.2010 17:36
j52
после распознания в фр запускал проверку орфографии?
если да, то нужно на этих страницах например немного изменить границы какой-либо области или другим способом добиться того, чтобы на превьюшке не было зеленой галки, обозначающей, что страница проверена.. попробуй на нескольких страницах, если ошибка исчезнет - меняй остальные..
Автор: j52
Дата сообщения: 13.08.2010 18:33
NME

Цитата:
после распознания в фр запускал проверку орфографии?

Да. (? Но проверка орфографии была на ВСЕХ подряд страницах, а ругается он только на отдельные ?)
Спасибо за совет - попробую...

Автор: LonerDergunov
Дата сообщения: 21.08.2010 16:04
Имеются сканы журналов.
Один вариант сканов - не очень качественные, зато с OCR-слоем в формате djvu.
Второй вариант - получше, но без OCR - в djvu и ocr.
Можно ли программой DjvuOCR (если нет - то какой) вытянуть из одного djvu-файла OCR-слой, и вставить в другой djvu-файл?
Можно ли вытянуть из djvu-файла и чем-то вставить в pdf?
Автор: ILHS
Дата сообщения: 21.08.2010 18:34
LonerDergunov

Цитата:
Можно ли программой DjvuOCR (если нет - то какой) вытянуть из одного djvu-файла OCR-слой, и вставить в другой djvu-файл?

Можно, если только разница в этом.

Цитата:
Можно ли вытянуть из djvu-файла и чем-то вставить в pdf?

Это мне тоже интересно было бы знать.
Автор: ycheff
Дата сообщения: 21.08.2010 20:57

Цитата:
Можно ли ...

Если изменились координаты слов (резанием изменены размеры страниц, например), то не получится. Может и получиться, но использовать будет неудобно.
А разве сделать ocr - проблема?
Автор: LonerDergunov
Дата сообщения: 24.08.2010 01:26
Спасибо. Похоже, разница только в этом, хотя пока точно не знаю, но на всякий случай решил задать вопрос


Цитата:
А разве сделать ocr - проблема?

Не доводилось, боялся, что это долгое и нудное занятие. Буду учиться. Просто много материала нужно обработать, и если можно перенести слой с одного файла на другой - хотелось упростить процесс.
Автор: are
Дата сообщения: 25.08.2010 16:23
перенести ОРС-слой из джвю в пдф совсем не простая задача, и вообще из-за особенностей формата пдф нет стандартных средств вставлять в пдф некий заранее приготовленный ОРС-слой.
Автор: BeMyGuest
Дата сообщения: 01.09.2010 08:54
Доброго времени суток всем,

Столкнулся с проблемой. При попытке сделать OCR слой с djvuOCR и FR9, djvuOCR выдает пустые страницы текста и слой не добавляет, хотя FR текст распознал без больших проблем. Все делал по инструкции в хелпе. Кто подскажет, как поправить?

Делал я так:
переписал djvuOCR 2.4beta во временную папку
установил Fine Reader 9.0.0.1297 Professional Edition с фикс файлами
Запустил FR, убрал галки настроек как описано в !!!NEW_FR9_Readme.txt djvuOCR мануале от gencho ("Do not process acquired page images", "Correct Image skew", "Look for barcodes")
Добавил в FR 300+ tif файлов, полученных от ScanTailor'a (нормальный чистый текст в 600dpi)
FR автоматом обработал и распознал текст, а я сохранил все через Save FineReader Document (изменений в тексте не делал)
FR закрыл, запустил djvuOCR->Batch Mode OCR Manager
В окошке DjVu File List добавил djvu файлик, собранный из вышеупомянутых tif`ов ранее через Document Express Enterprise 5.1.0
Указал FineReader Project Directory, куда ранее FR сохранил проект
Поставил галку на Save produced OCR layers as TXT files в отдельную папку
Нажал Test project, в новом окне красная полоска пробежала до конца и окно закрылось без ошибок
Нажал Process, снова новое окно, полоска добежала до конца, окно закрылось
В папке djvu файл остался тот же, время изменения файла не поменялось (галка Burn DjVu books стоит)
В папке с текстовыми файлами OCR появились txt и html файлы без, как я понимаю, текстового содержания. Например, txt файл:

Код:
# -------------------------------------
select 1
remove-txt
set-txt
(page 0 0 3159 5035
)

.

# -------------------------------------
select 2
remove-txt
set-txt
(page 0 0 3159 5035
)

.
Автор: NME
Дата сообщения: 01.09.2010 14:15
BeMyGuest
скорее всего билд 1297 не поддерживается..
ставь более раннюю версию (поищи в топике, какая версия точно поддерживается), а лучше - ставь 8-ку и проблема отпадет.. я вот именно так и сделал..
Автор: monday2000
Дата сообщения: 16.11.2010 19:14
А gencho между прочим, появляется на Руборде. Вот его последний пост - от 22-10-2010 - т.е. меньше месяца назад:

http://forum.ru-board.com/topic.cgi?forum=93&topic=3019&start=1080#8

Но на ПМ-сообщения не отвечает. Сайт явно заброшен. Актуальный е-мейл неизвестен ИМХО.

Добавлено:
ИМХО сейчас правильнее просить ABBYY реализовать функционал DjVuOCR в Файнридере, чем ещё хоть как-то надеяться на Генчо.

Как вариант, можно попытаться взять Файнридер для Линукса http://ocr4linux.com/ , и попытаться использовать его под виндой. Просто он командно-строчный и умеет выдавать OCR-слой в виде XML.
Автор: amaid
Дата сообщения: 25.11.2010 23:27
сорри, случайно не в тот топик сообщение закинул
Автор: skrt
Дата сообщения: 26.12.2010 00:18
are

Цитата:
перенести ОРС-слой из джвю в пдф совсем не простая задача, и вообще из-за особенностей формата пдф нет стандартных средств вставлять в пдф некий заранее приготовленный ОРС-слой.

У adobe есть распознавание встроенное, но оно, мягко говоря, паршивое. Вот как-нибудь вместо него можно ли использовать FR?
Автор: vladlen666
Дата сообщения: 20.01.2011 00:36

Цитата:

У adobe есть распознавание встроенное, но оно, мягко говоря, паршивое. Вот как-нибудь вместо него можно ли использовать FR?
А почему бы просто не использова FR для создания PDF? Или для распознавания PDF. Мне кажется FR отлично работает с PDF, в отличии от DJVU, который он понимает но не создает (кажется какая-то проблема с лицензированием).
Автор: regno
Дата сообщения: 26.01.2011 08:58
После неудачного укрощения FR9 патчем ::: создала пакет-задание в (любом) FR8 для соблюдения порядка страниц и открыла её для дальнейшей обработки в FR9.
Автор: gjc
Дата сообщения: 04.02.2011 13:53
Товарищи!!!
Господа!!!
Помогите!

Долбаюсь уже несколько дней и никак не получается с помощью FR и DJVU OCR добавить в джвюшку распознанный текст!
Язык книги - беларусский (возможно это важно).
Пробовал FR 10, 9 и 8.
Винда - ХР SP 3.

OCR всё время выдаёт ошибку

Invalid FRF format
с различными числовыми значениями offset

Базовое распозавание Document Express Editor'ом тоже не помогает - половина текста коверкается (даже при выборе беларуского для распознавания) при копировании.

Очень надеюсь на помощь ибо больше её уже искать просто негде.
Автор: ycheff
Дата сообщения: 04.02.2011 17:49
Проверил - в FR 8.0 нет выбора белорусского языка. Когда-то работал с украинским языком - вроде хорошо получалось.
В DjVu Editor'e есть белорусский язык. Если качество низкое - может быть низкое качество у самого djvu-файла. Можно попробовать улучшить ситуацию, прогнав через СканТейлор, повысив там толщину текста (при выводе в черно-белом режиме установить - Жирнее - пунктов на 10-15). Иногда помогает.
Автор: gjc
Дата сообщения: 04.02.2011 18:13
Качество отличное, так что мне нужно разобраться с этой ошибкой в DJVU OCR - других вариантов вроде ведь не существует..
Автор: ycheff
Дата сообщения: 04.02.2011 19:40
Какая у Вас версия DjVu OCR? Вроде бы для FR 9.0 и 10.0 нет версий DjVu OCR.
DivuOCR 2.4 beta работает с FR 8.0, но там нет белорусского языка.
Автор: gjc
Дата сообщения: 04.02.2011 22:04
Ну я уже и 2.2 и 2.4 использовал..

Весело, если нет беларуского для восьмого FR - я скачал вчера, но подумал, что это усечённая версия и что язык для него можно будет найти в нете.

Так если всё так "радужно" получается - неужто нет другого способа тогда добавить распознанный текст?!?
Автор: ycheff
Дата сообщения: 05.02.2011 07:58
Вот тут среди дополнительных языков (даже чукотский есть) для ФР 8.0 есть и белорусский:
OtherLang (FR 8.0).rar.html
После установки - выбрать белорусский из "полного списка". Должно все получится.
Автор: gjc
Дата сообщения: 05.02.2011 17:15
То ycheff:

Вялікі і шчыры дзякуй табе!!!


То бишь огромное тебе спасибо!

Всё заработало.
Буду тогда в восьмёрке всё добавлять пока ничего нового не появится.
Главное что работает.
Автор: skysand
Дата сообщения: 26.05.2011 08:24
Простейший способ создания документа с оглавлением из DjVu:
1 - Программой DjVu.OCR v2.4 преобразуем файлы DjVu в TIFF.
2 - Открываем и распознаем в FineReader v10, сохраняем в PDF.
3 - Открываем в FoxitPhantom и создаем (вставляем) закладки!!!
В результате у нас будет полноценный документ, но в PDF. А собственно, какая мне разница, что результат не в DjVu, главное удобство!
Автор: ycheff
Дата сообщения: 26.05.2011 17:39

Цитата:
распознаем в FineReader v10, сохраняем в PDF.

И получаем книгу с морем крокозябликов вместо формул.
Получение pdf в FineReader надо делать постранично и поблочно внутри страницы, а это очень трудоёмкое занятие.
Иногда, тем не менее, делаю такую процедуру с отдельными страницами pdf-книги (растровыми, с картинками или с одним лишь простым текстом). Это позволяет часто снизить раздутый размер pdf.
Автор: Yevgenijz
Дата сообщения: 25.06.2011 14:55
12:24 26-05-2011

Цитата:
Простейший способ создания документа с оглавлением из DjVu:
1 - Программой DjVu.OCR v2.4 преобразуем файлы DjVu в TIFF.
2 - Открываем и распознаем в FineReader v10, сохраняем в PDF.
3 - Открываем в FoxitPhantom и создаем (вставляем) закладки!!!
В результате у нас будет полноценный документ, но в PDF. А собственно, какая мне разница, что результат не в DjVu, главное удобство!


Ну и способ! Посмеялся от души!
1. Зачем преобразовывать в TIFF? FR10 и так умеет открывать DJVU, без всякого TIFF. Итого 1 шаг лишний.
2. Открываем и распознаем в FineReader v10, сохраняем в PDF.
Тут конечно, может получиться всякая каша, которую надо долго и упорно доводить до ума. Лучше всего этот шаг тоже пропустить и перейти сразу к шагу 3
Ну и что, что получился нераспознанный PDF, зато с закладками!
А если серьёзно, для вставки закладок в DjVu DjVu.OCR не нужен. Закладки можно вставить программой DjVuDocumentExpressEditor или DjVuBookmarker, и это будут закладки именно в дежавюшке, которые не исчезнут при пересылке файла на другой компьютер. А также закладки в дежавю может делать и WinDjVu, но она пишет закладки в реестр, поэтому её закладки исчезают на другом компе или при переустановке системы.
Автор: VidelSamogO
Дата сообщения: 26.06.2011 18:20
Yevgenijz
Ненавижу FR-10. Жрёт место.
Автор: Yevgenijz
Дата сообщения: 02.08.2011 16:41
VidelSamogO

Цитата:
Ненавижу FR-10. Жрёт место.

ничего не могу сказать по этому поводу.
я юзаю FR9. Насчет FR-10 написал, потому что процитировал skysand и посмеялся над его бредом.
Автор: denver 22
Дата сообщения: 02.08.2011 19:09
Последняя версия 2.4 beta нормально принимает распознавание от FR9?
Всё ещё пользуюсь связкой 2.3 + FR8.

Страницы: 1234567891011

Предыдущая тема: Программа для проведения crash теста компьютера


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.