DjvuOCR

Автор: gencho
Дата сообщения: 20.02.2008 14:00

Ну опередили меня

Автор: Dracula
Дата сообщения: 20.02.2008 15:56

gencho
Ты забыл в шапке указать новую верстю 2.3 - я исправил шапку.

Автор: BooBoo
Дата сообщения: 05.04.2008 12:08

После разпознования и ПРАВКИ текста столкнулся с проблемой внедрения OCR

версия 2.3
Invalid FRF format
offset = 00000049
На ВСЕХ страницах прошедших правку
При использовании версии 2.2 beta такой проблемы не обнаружено

То же самое и на другой книге
после правки текста версия 2.3 пишетInvalid FRF format
offset = 00000049
А версия 2.2 beta делает всё на ура

Да забыл сказать в версии 2.3 проблему можно решить по методу ghosty

http://forum.ru-board.com/topic.cgi?forum=5&topic=22673&start=60#21

Цитата:

Недавно добился желаемого путем написания специального скрипта, которы выделял на каждой странице маленький блок текста и распознавал его (спасибо octopus'у за идею).

Автор: shalunov
Дата сообщения: 07.04.2008 02:21

BooBoo, подобные ошибки встречались мне как раз при использованиии версии 2.2 beta в режиме "Ручной OCR", а вот в версии 2.3, используя режим "Пакетный OCR", всё сработало хорошо. Возможно, дело в выборе режима? По-моему, где-то в справке я встречал совет от gencho - использовать режим "Пакетный OCR".

Автор: BooBoo
Дата сообщения: 07.04.2008 07:31

shalunov
Вот в том и дело, что ручной OCR в 2.2 beta прекрасно работает,
а в версии 2.3 ни ручной ни пакетный не хотят внедрять OCR "Invalid FRF format
offset = 00000049 "
P.S. ФР - восьмёрка

Автор: gencho
Дата сообщения: 09.04.2008 04:38

BooBoo
Давайте FRF файлы на мыло, посмотрю.

Автор: vitaly1
Дата сообщения: 24.04.2008 17:26

Надо бы добавить немного места для количества страниц при раскодировании дежавюшек. Сейчас все цифры не помещаются, если в книге больше тысячи страниц:

Автор: vitaly1
Дата сообщения: 05.05.2008 14:57

gencho
Можно ли в пакетном режиме вставки текстового слоя указать несколько проектов ФР - по одному для каждой книги?

Если нет, то могли бы вы такую возможность добавить?

Автор: Dracula
Дата сообщения: 27.05.2008 19:11

gencho
Что там слышно по поводу версии для FineReader 9.0 724? Очень хотелось бы уже поюзать!

Автор: gencho
Дата сообщения: 04.07.2008 01:02

Так, извините, долго здесь не был - хотел сказать добрые вести, а получалось наоборот.

Ну, воть, версия DjvuOCR 2.4 beta работающая с FineReader 9 вышла на сайт

Пока BETA версия, надо еще увеличить статистика, но работать можно - я разпознал около 40 книг, хотя однотипные, математические. Не пробовал проверка орфографии, редактирование текста после распознавания - пробуйте Вы. С орфографии впольне вероятно появятся проблемы.

Жду коментарии и файли с ошибки для пополнение статистики.
Там внутри есть файл - README для FR9, там я указал как надо настроить опции, поделился и впечатления. Пока мне вполне достаточно пользоваться FR8.

Автор: monday2000
Дата сообщения: 06.07.2008 13:24

http://forum.ru-board.com/topic.cgi?forum=35&topic=38865&start=1100#lt

Цитата:

17 июня, 2008 г.
– Компания ABBYY представляет расширенную версию системы оптического распознавания текста ABBYY FineReader.
-В версию Abbyy FineReader 9.0.0.882 добавлена поддержка дополнительных языков.
Иврит,китайский (традиционный и упрощенного написания),тайский и японский языки.

gencho
Можно ли учесть это в будующих версиях DjVuOCR?

Автор: gencho
Дата сообщения: 06.07.2008 16:29

monday2000
если кодировка этих языков внутри FR9 сохраняется как UNICODE, то все должно работать как есть.

Автор: Smokeer
Дата сообщения: 07.07.2008 00:50

gencho
Хочу перевести Хелп (сейчас он только рус. и англ., при чем выбирается галочкой

) как это сделать?

Автор: gencho
Дата сообщения: 07.07.2008 01:05

Smokeer
Пока хелп переводится на английский, но дело движется медлено. Там место только для две галочки, вы на каком языке хотите перевести? Дайте мыло в Личное Сообщение, я дам исходник - .RTF файл.

Автор: Smokeer
Дата сообщения: 07.07.2008 18:57

gencho
см.приват

Автор: gencho
Дата сообщения: 07.07.2008 21:37

Smokeer, принимайте файл.

Автор: monday2000
Дата сообщения: 23.07.2008 11:30

gencho
Чем именно отличается версия DjvuOCR 2.4 bera R2 от версии DjvuOCR 2.3 - только поддержкой FineReader 9 и всё? Есть ли какие-то улучшения в DjvuOCR 2.4 bera R2 по сравнению с DjvuOCR 2.3 в плане работы с FineReader 8?

"DjvuOCR 2.4 bera R2" - на Вашем сайте опечатка, замените "bera" на "beta".

Автор: gencho
Дата сообщения: 23.07.2008 14:15

Опечатка давно видел, пусть стоит. Раз вы догадались, то и другие догадаются.

DjvuOCR 2.4 отличается только тем, что добавлена поддержка FineReader 9. Никакое улучшение по отношение FR7/8 нет.

Пока готовится help на english, и через месяц-другой будеть финальная версия 2.4, пока надо еще статистика накопить. Но статистика пока очень положительная, все работает как надо.

Автор: pavel_nik_563
Дата сообщения: 02.08.2008 11:04

Подскажите плиз, в DjvuOCR есть такая штука как "Damp picturure`s координаты" как этим пользоваться?

Автор: gencho
Дата сообщения: 02.08.2008 11:15

pavel_nik_563, эта штука только выводить координати картинок, если они вам не нужни, никак не можете этим пользоваться.

Автор: pavel_nik_563
Дата сообщения: 02.08.2008 13:01

gencho
Эти данные можно как то вставьть в ScanKromsator?

Автор: gencho
Дата сообщения: 02.08.2008 15:42

Пока нет.

Автор: U235
Дата сообщения: 07.08.2008 08:15

pavel_nik_563
Цитата:

Эти данные можно как то вставить в ScanKromsator?

Попробуйте autoit3-скрипт: http://www.alexrey036.narod.ru/FR2SK_pictures_v1.au3

Автор: pavel_nik_563
Дата сообщения: 14.08.2008 13:14

U235
Попробую, спасибо

Автор: ghosty
Дата сообщения: 16.08.2008 23:08

U235
У меня не получилось, к сожалению. Все делал по инструкции.

Автор: gencho
Дата сообщения: 19.08.2008 21:27

Скоректировал несколько проблем, улучшил работа с FineReader 9.
Release 3 на офф-сайт.

Благодарью всем, кто прислал проблемные файлы.

Автор: ghosty
Дата сообщения: 19.08.2008 22:17

gencho
А с координатами не получилось? Хотя бы скрипт U235 реализовать, только так, чтобы он работал

Автор: gencho
Дата сообщения: 20.08.2008 13:22

ghosty
Пока все с координатами нормально при использование FineReader 8 - настолько, насколько сам FR определяет правильно эти координаты. При файлы с FR 9 могут еще быть проблемы, поэтому и версия beta. Посмотрю как там.

Автор: ghosty
Дата сообщения: 20.08.2008 14:41

gencho

Цитата:

Пока все с координатами нормально при использование FineReader 8

Нет, я, на самом деле, имел в виду возможность прописывать координаты непосредственно в файл *.spt

FR9 не оправдал ожиданий

И по качеству распознавания оказался хуже FR8.

Автор: comp3v
Дата сообщения: 09.09.2008 23:42

Люди, подскажите пожалуйста, какой оптимальный путь для создания Djvu+OCR, если изначально имеются tiff файлы? то есть, надо ли мне сначала сделать из них djvu файл и потом идти "стандартным" путём (DjVu Decoder -> распознать файнридером -> внедрить результат в Djvu файл), или же можно сразу распознать tiff, а потом как-то использовать результат распознавания для создания djvu?
Заранее спасибо за помощь.

» DjvuOCR