Ru-Board.club
← Вернуться в раздел «Программы»

» DjvuOCR

Автор: Dimock
Дата сообщения: 12.12.2007 21:20
Допустим текстовый слой есть. Как его оттуда вытащить без помощи ФайнРидера?

Добавлено:
Наверно, много вопросов не бывает. Есть еще один вопрос. Допустим, изначально сканы для последующей Djvu-книги имели разрешение 300 дпи. Во время декодирования я указал 600 дпи. Качество от этого изменится?
Автор: ILHS
Дата сообщения: 14.12.2007 08:07
Dimock

Цитата:
Допустим текстовый слой есть. Как его оттуда вытащить без помощи ФайнРидера?

В программе WinDjvu есть команда вывода текста.
Автор: VadimirTT
Дата сообщения: 14.12.2007 08:19
Dimock
если скан был в 300, то и закодируется в 300, а не в 600, можно проверить экспериментально.
Автор: ILHS
Дата сообщения: 15.12.2007 15:26
gencho
Обновлённая версия ФайнРидера 9 (9.0.0.724) открывает для распознавания Djvu файлы. Может стоит заняться поддержкой обновлённого формата frf в DjvuOCR?
Автор: zhenyamerezhko
Дата сообщения: 16.12.2007 17:22
вот перевод интерфейса на русский http://rapidshare.com/files/76981228/russian.ini класть в папку Language
Автор: Dracula
Дата сообщения: 20.12.2007 17:50
ILHS

Цитата:
gencho
Обновлённая версия ФайнРидера 9 (9.0.0.724) открывает для распознавания Djvu файлы. Может стоит заняться поддержкой обновлённого формата frf в DjvuOCR?

Поддерживаю тебя - 6 книг стоит на месте - не могу ничего сделать
Автор: gencho
Дата сообщения: 22.12.2007 18:32
Привет всем!

У меня сейчась нет время для FR9, пробую довести до разума окончательная версия для FR8. С FR9 займусь где то минимум через месяц, к сожалению.

А та версия FR9, которая открывает DJVU, не подходит? Она не сохраняет в DJVU? Простите за вопросы, я ее не смотрел еще.
Автор: ILHS
Дата сообщения: 22.12.2007 18:34
gencho

Цитата:
Она не сохраняет в DJVU?

Нет, не сохраняет. Только открывает для распознавания.
Автор: Dracula
Дата сообщения: 24.12.2007 13:24
gencho

Цитата:
А та версия FR9, которая открывает DJVU, не подходит?

Она позволяет сохранить только в эти форматы:
Автор: krylov07
Дата сообщения: 25.12.2007 22:13
gencho

Цитата:
А та версия FR9, которая открывает DJVU, не подходит? Она не сохраняет в DJVU? Простите за вопросы, я ее не смотрел еще.

Нет, разработчики FR пишут, что проблема сохранения в DJVU - абсолютно не техническпая, но пока не разрешима из-за лицензионных ограничений Lizardtech. God knows this is true or not, but thats what they write and looks the agreement FR-Lizardtech could be the matter of some far-away future.
Автор: bolega
Дата сообщения: 26.12.2007 13:31
gencho
Я попробовал запустить команду Dump pictures info for SK, программа что-то делала, но дамп-файл не создала. FR ver.8. Dumpfile задаю c:\dump.txt. Эта функция еще не работает?
Автор: gencho
Дата сообщения: 27.12.2007 16:10
Dracula
Taк, значит вот что я нашел:

http://gencho.gencho.googlepages.com/Djvu_support_for_FineReader_9.rar

Цитирую:
Год выпуска: 2007
Совместимость с Vista: неизвестно
Язык интерфейса: английский + русский
Таблэтка: Не требуется
Описание: В релиз входят две dll-библиотеки. Их нужно добавить в папку, в которую установлен FineReader, и тогда он сможет распознавать DjVu-файлы.

Сам пока не пробовал, еще не ставил девятку. Пробуйте и сообщите впечатления.

krylov07
Понял. Разработчики FR пойдуть по пути PDF - после распознавания скомпресируют DJVU файл снова, уничтожая все усилия того кто сделал тот файл, и евентуально вводя проблемы типа и-н, меняя размер, теряя букмарки и т.д....

bolega

То что выложил это не полная версия, только для ознакомление при перевод интерфейса. Там Dump pictures не работает. Подождите еще немного.
Автор: bolega
Дата сообщения: 28.12.2007 10:03
gencho
Спасибо.
Интересно, FR сохраняет где-нибудь угол deskew, который он применяет к исходным сканам? Я спрашиваю, потому что координаты of pictures будут относиться уже к повернутому (rotated image) изображению.
Автор: gencho
Дата сообщения: 28.12.2007 23:47
bolega

Я тоже задавал себе этот вопрос. Есть несколько зон в файловом формате, о которых нет информация что они сохраняют, но пока никакое разумное число в известных мне форматах там не нашел. Но и не искал целенаправлено.

Добавлено:
Сделал експерименты. Нет, не сохраняется такая информация в рабочих файлах,. Ротация делается еще на вход, и рабочий файл создается для новое изображение.

Есть одна возможность: делать сравнение между исходное изображение и страница после ввода в FR. Но незнаю насколько это выполнимо реально.
Автор: Dracula
Дата сообщения: 29.12.2007 21:35
gencho

Цитата:
Taк, значит вот что я нашел:

http://gencho.gencho.googlepages.com/Djvu_support_for_FineReader_9.rar

Это просто плагины для распознавания DjVu файла в ABBYY FineReader и ничего другого.
Автор: ghosty
Дата сообщения: 30.12.2007 02:14
gencho
Помогите, пожалуйста, разобраться с ошибкой чтения пакета.
Для большинства страниц пишет:

Цитата:
Invalid FRF Format
(2) offset=00000005

В ФР этот же пакет открывается нормально. Вот фрагмент пакета:
http://rapidshare.com/files/79967138/OCR2.rar.html
Заранее премного благодарен!
Автор: are
Дата сообщения: 30.12.2007 13:47
gencho

Цитата:
Есть одна возможность: делать сравнение между исходное изображение и страница после ввода в FR. Но незнаю насколько это выполнимо реально.

я думаю, это выполнимо. Можно делать deskew исходного изображения, определить угол (deskew angle), потом сделать deskew изображения после FR, определить для него угол, и разница этих двух углов есть тот угол, на который поворачивал FR.
Автор: ghosty
Дата сообщения: 30.12.2007 20:26
Видимо, проблема в том, что я редактировал этот пакет до и после переустановки системы. Если перераспознать отдельную страницу, то ошибки не будет. Но перераспознавать таким образом более 600 страниц сил нет - на редактирование ушло около 2-х дней. Помогите, пожалуйста.
Автор: gencho
Дата сообщения: 31.12.2007 17:08
ghosty

Спасибо за информация. Но как получились у вас такие вещи? Может, после переустановки системы вы поменяли имя пользователя Windows?
Вот, подправил DjvuOCR чтобы обрабатывал:
http://gencho.gencho.googlepages.com/DjvuOCR.rar

Успехи всем!
Автор: ghosty
Дата сообщения: 31.12.2007 17:19
gencho
Благодарю за ответ.

Цитата:
Может, после переустановки системы вы поменяли имя пользователя Windows?
Да в том-то и дело, что сменил
Недавно добился желаемого путем написания специального скрипта, которы выделял на каждой странице маленький блок текста и распознавал его (спасибо octopus'у за идею).

С Новым годом, gencho, спасибо за Вашу замечательную программу!
Всех с Новым годом!
Автор: ghosty
Дата сообщения: 12.01.2008 07:16
gencho
Спасибо! Но мне тогда все-равно пришлось решать проблему в лоб - написал специальный скриптик, который на каждой странице выделял маленький квадратик и распознавал его
Автор: Dracula
Дата сообщения: 05.02.2008 13:40
Сорри конечно - но выйдёт ли версия для ABBYY FineReader 9.0 - очень жду.
Заранее спасибо.
Автор: bormant
Дата сообщения: 09.02.2008 12:37
На некоторых файлах от fr8 frfgrab v1.12 выдает "Invalid FRF format (5) offset=00000029".
Не поделится ли кто описанием структуры frf, насколько это известно, хотелось бы это дело разгрызть.

Добавлено: после проверки орфографии меняется заголовок и добавляются в него данные (тут--9 байт, видел до 18) было / стало:

0000000000: 46 52 35 53 0F 02 02 xx | 00 xx 00 02 xx 00 xx 00
0000000010: 00 00 24 00 01 02 C0 C7 | B9 C7 0C 6B C8 01 00 00
0000000020: 00 00 00 00 00 35 43 00 | 3A 00 5C 00 44 00 6F 00
---------------------------^
0000000000: 46 52 35 53 0F 02 02 xx | 00 xx 00 02 xx 00 xx 00
0000000010: 00 00 24 00 01 02 C0 C7 | B9 C7 0C 6B C8 01 01 02
0000000020: E0 66 D3 48 0D 6B C8 01 | 00 00 00 00 00 00 35 43
---------------------------++ ++ ++ ++ ++ ++ ++ ++ ++ ^


Добавлено 2: Если к старому заголовку с прежнего смещения (в данном случае 0x25, красным помечен байт длины перед именем файла) прилепить новое содержимое, то файл обрабатывается нормально. Отсюда напрашивается вывод о том, что эту добавку в заголовке можно успешно игнорировать, нужно только продвинуться дальше при анализе заголовка.

p.s. Вопрос о структуре frf в части, не охваченной frfgrab -v ..., остается в силе.
Автор: gencho
Дата сообщения: 10.02.2008 14:06
Dracula
Пока версия для FR9 не хочеть вообще заработать, там много изменении.

bormant
Вы будете удивлены, но я тоже не знаю формат FRF файлов. У меня FRFGrab сделан на основе конечного автомата, а он обучался (вручную) на образцах из файлов.

Все же некоторые знания есть. Вот для ваш пример:

Некоторые блоки формата именют длина, зависящая от их содержание. Например, в конкретном случае, байт на офсет 1Е = 00 означает что блок пуст. Значение 01 в данном месте означает что там есть один масив из 4-байтних слов, а следующий байт на офсет 1F = 02 означает, что количество слов = 2. Значит содержимое блока: два слова, E0 66 D3 48 и 0D 6B C8 01 (похоже на дата и время). После них есть 00, что означает что следующий блок (а у него формат может быть совсем другой) пуст. Заметте, в верхный пример есть 7 x 00 (офсет 1Е), a в нижнем - 6 x 00 (офсет 28), так как одна из них там превратилась в непустой блок.

Если блок до этого момента не проявлялся (программа игнорировала, как начинающий с 00), то FRFGrab спотыкается, так как не знает как его обработать. Если у вас есть такие файли, то давайте их мне на мыло - оно в программе DjvuOCR, на лицевом панеле стоит.
Автор: Dracula
Дата сообщения: 10.02.2008 16:10
gencho

Цитата:
Пока версия для FR9 не хочеть вообще заработать, там много изменении.

Очень жаль, но спасибо за то, что откликнулись - буду знать, что Вы работаете над этим.
Автор: bormant
Дата сообщения: 10.02.2008 18:47
gencho,

Цитата:
Если блок до этого момента не проявлялся (программа игнорировала, как начинающий с 00), то FRFGrab спотыкается, так как не знает как его обработать. Если у вас есть такие файли, то давайте их мне на мыло - оно в программе DjvuOCR, на лицевом панеле стоит.

Выслал. Если вдруг не дойдет, прошу тут отписать. Готов протестировать у себя исправленный вариант -- есть на чем. Судя по предыдущему посту исправлений не сильно много, буду ждать с нетерением.
Насчет обработки этого нового блока. Поскольку он появляется после прохождения проверки орфографии на странице, логично предположить, что содержимое этого блока не имеет отношения к расположению глифов на странице, а потому может быть проигнорировано без какого-либо ущерба для конечного результата.
Автор: gencho
Дата сообщения: 11.02.2008 01:41
bormant
Спасибо. Очень важная корекция получилась. Попробую на моя коллекция FRF-файлов, и выложу для пользование. Ну я обещал себе, до конца идущей недели выложить скоректированная версия DjvuOCR для FR8 с полная документация...
Автор: vitaly1
Дата сообщения: 11.02.2008 09:23
gencho

Цитата:
скоректированная версия DjvuOCR для FR8

А что будет исправлено?
Автор: Dracula
Дата сообщения: 12.02.2008 20:36
gencho

Цитата:
до конца идущей недели выложить скоректированная версия DjvuOCR

Было бы супер поиметь хотя бы для 8 версии исправленный вариант - кстати, что нового там будет?
Автор: bormant
Дата сообщения: 19.02.2008 17:45
gencho,

Цитата:
Ну я обещал себе, до конца идущей недели выложить скоректированная версия DjvuOCR для FR8 с полная документация...

Подготовка полной документации -- вопрос серьезный и длительный, мне редко когда удается с уверенностью сказать, сколько потребуется времени.
Нельзя ли пока выложить скорректированные exe-шники djvuocr и frfgrab на какой-нибудь обменник без документации?
Спасибо.

Добавлено: Вот и дождались. Цитата с офсайта:
19.02.2008: Наконец то! Новая, последная версия для FineReader 8:
DjvuOCR 2.3, FRFGrab 1.13
Основные изменения:
- Добавлен руский контекстный Help-файл. Пока английского нет.
- Добавлена возможность смена языка интерфейса.
- Добавлен режим построчного, пословного и посимвольного OCR
- Добавлена возможность drag & drop файлов прямо с папка в програму.
Drag & Drop можно указывать как djvu-файли, так и имена папки, и имена
других типов файлов – в контекст режима.
- Добавлены новые возможности в режим “Извлечь OCR слой”
Исправлены все известные ошибки.

Страницы: 1234567891011

Предыдущая тема: Программа для проведения crash теста компьютера


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.