Ru-Board.club
← Вернуться в раздел «Программы»

» DjvuOCR

Автор: gencho
Дата сообщения: 25.04.2007 23:13
winhex
Понятие не имею.

Может, выложите где-то сам DJVU и несколько начальных FRF-файлов? Я посмотрю что произходит на самом деле. Или вышлите на мыло, djvuocr (at) mail2world.com
Автор: monday2000
Дата сообщения: 13.10.2007 11:52
gencho
Вышел Abbyy FineReader 9. Будет ли для него новая версия DjvuOCR?
Автор: Lively
Дата сообщения: 24.11.2007 18:50
gencho
Да поддержу вопрос monday2000
Попробовал поработать DJVUOCR 2.1 с проектом от FR9 - говорит, что неизвестная версия frf - файла
Планируется ли научить DJVUOCR понимать пакеты от FR9 ?


Автор: VadimirTT
Дата сообщения: 24.11.2007 19:41
monday2000
Lively
А зачем, 9-ка распознает не лучше 8-ки, для djvu 8-ки сверх головы.
Автор: Kiljes
Дата сообщения: 24.11.2007 20:24
VadimirTT Но не у всех стоит 8-я версия. Ведь есть 9 версия и соответственно у многих людей стоит она.
Автор: VadimirTT
Дата сообщения: 24.11.2007 21:30
Kiljes
Ну можно поставить и 7-ку, где нибудь в уголке винчестера . Просто, как я понял, в 9-ке основное внимание было уделено переносу форматирования, т.е. пакет сильно усложнился, а gencho все это надо будет расшифровывать, вот если кто даст ему описание структуры, есть тут такие?
Автор: Lively
Дата сообщения: 24.11.2007 23:29
VadimirTT
В определенном смысле с Вами можно согласиться. Действительно, 8-ка привычный и довольно удобный пакет. Только, вот, 9-ка уже вышла и, чем дальше, тем большее число потребителей будет ею пользоваться... Идеологически правильнее было бы научить прогу понимать новый формат frf. Тем более, что подобное происходит уже не в первый раз
Автор: gencho
Дата сообщения: 30.11.2007 04:53
Привет всем!

Да, будет DjvuOCR для FineReader 9, если ребята с Abbyy не изменили слишком формат файлов - еще не смотрел что там.

Но, прежде этого, будеть новая версия DjvuOCR 2.3, с исправление всех известних ошибок при работе с FR8, с улучшенный интерфейс (там такив примочки как drag & drop добавлены) и полная документация в виде Windows Help файл с картинками и как надо, но пока руки еще не закончили. Пока советую от FR8 не отказыватся.

Да, чуть не забыл: добавлена возможность перевода сообщении на другие языки, пока только английский и болгарский, так как я руский не сильно владею в деталях и особено падежах . Там надо один маленкий текстовый файл перевести, но вы справитесь. Если есть желающие, английский оригинал здесь:

http://gencho.gencho.googlepages.com/english.ini

Надо переводить только текст справа от знак '=' .

Переведите и выложите где нибудь, чтобы новая версия вышла и с руский интерфейс.
Автор: ILHS
Дата сообщения: 02.12.2007 08:50
Я работаю над книгой с двумя языками (русский и новогреческий). Текст распознал через ФР. Создал Djvu с OCR. Проблема в том, что при копировании, текст одного языка подменён вопросами.
http://rapidshare.com/files/73712500/test.rar.html
Ещё один вариант проблемы: при экспортировании текста из такого типа Djvu с OCR, снова текст одного языка подменён вопросами.
http://rapidshare.com/files/5625422/l...iko_1.djvu-
(как создали этот файл и как исправить?)
Автор: gencho
Дата сообщения: 03.12.2007 00:54
ILHS
А в какой режим вы работали: Manual mode или Batch mode?

Попробуйте в Batch mode, поставтье галочка на Direct UTF8 translation, и все будет ОК. Похоже в Manual mode была ошибка.
Автор: ILHS
Дата сообщения: 03.12.2007 10:02
gencho
Спасибо. Действительно в Batch mode работает.
В силе остаётся второй вопрос:

Цитата:
при экспортировании текста из такого типа Djvu с OCR, снова текст одного языка подменён вопросами.
Использована программа WinDjvu (функция экспортирования текста).
Как решить проблему?
Автор: gencho
Дата сообщения: 03.12.2007 16:01
Я не знаю как експортирует текст WinDjvu.

Предлагаю следующее (я так пользуюсь):
1) експортируйте OCR-слой из DJVU с пмощью djvused (командная строка:
djvused -e output-txt file.djvu >output.txt

или из DjvuOCR, меню Extract OCR layers

2) используйте утилита cvthtml2.exe из пакета DjvuOCR. Командная строка
cvthtml2 -j output.txt output.html

Открываете output.html в IE или Firefox и копируете то что надо - там все в UTF8 сохраняется.

В последная версия DjvuOCR есть встоенная опция про такого експорта текста.
Автор: ILHS
Дата сообщения: 04.12.2007 07:37
gencho

Цитата:
В последная версия DjvuOCR есть встоенная опция про такого експорта текста.

Это DjvuOCR 2.2 beta или есть ещё новее?
Автор: terminat0r
Дата сообщения: 04.12.2007 14:32
gencho

Цитата:
Да, чуть не забыл: добавлена возможность перевода сообщении на другие языки, пока только английский и болгарский, так как я руский не сильно владею в деталях и особено падежах . Там надо один маленкий текстовый файл перевести, но вы справитесь. Если есть желающие, английский оригинал здесь:

http://gencho.gencho.googlepages.com/english.ini

Надо переводить только текст справа от знак '=' .

1.Насколько я понимаю, программа уникод не будет использовать?
Это жалко, так как на не родных виндовсах, будут все равно видны только крякозябры.

2. Немного трудно переводить, так как нет программы, под которую это делается.
Не все с английского переводится так же кратко и с длинной строк могут быть проблемы.

Я смог бы перевести на украинский и возможно немецкий (для русского перевода есть достаточно русских на этом форуме), но надо действительно иметь программу для согласования длины строк и их видимости

Можете где-то выложить, можно и не рабочую, но чтобы могла читать файл с переводами?
Автор: gencho
Дата сообщения: 04.12.2007 21:42
Вот, поставил здесь:

http://gencho.gencho.googlepages.com/DjvuOCR_temp.rar

Только новое EXE и языки, для полной версии надо добавить предидущий пакет.

Да, Unicode пока не будеть - я работал по пути наименьшего сопротивления, а для Unicode надо менять много, пока остановился на компромис.

Предупреждаю, этот вариант не из последних, но интерфейс вроде тот же - может что-то не работаеть как надо. Скоро будеть публичный вариант.
Автор: ILHS
Дата сообщения: 08.12.2007 09:26
gencho
Заранее прошу прощение за максималистический вопрос:
Можно ли в принципе создать (визуальный) редактор файлов Djvu с OCR? Где можно было бы редактировать и картину (стереть, очистить итд, например на основе привью кромсатора) и текст.
Автор: gencho
Дата сообщения: 08.12.2007 18:59
ILHS
В принципе возможно много. На практика для этого нужно потратит ресурсы.
Автор: ILHS
Дата сообщения: 08.12.2007 20:51
gencho
Ещё вопрос:
Как работает Dump Pictures Info (for ScanKromsator)?
Автор: gencho
Дата сообщения: 09.12.2007 22:41
ILHS
Пока только создает список с координаты картинок. Этого меню в массовая версия не будеть.
Автор: Dimock
Дата сообщения: 10.12.2007 14:14
Если gencho не успеет быстрее ответить, расскажите мне, пожалуйста, что означают сле-дующие функции в DJV-Decoder из DJV-OCR
Horizontal flip и Vertical flip
To gray и To tonal
Level 1-255
Resize width x height
Layer. Можно подробнее рассказать о его разновидностях?
Если я правильно понял, то программа может и output dpi поменять на выбранный? А что такое тональный цвет применительно к скану?
Автор: gencho
Дата сообщения: 10.12.2007 19:02
Horizontal flip и Vertical flip
Огледальное отображение, по горизонтали и по вертикали

To gray и To bitonal
Выходное графическое изображение будеть в отенках серого (to gray) или чернобелое (to bitonal). Если не выбраны, изображение выводится в оригинал, какое оно в файле.

Level 1-255
При выход в чернобелое изображение, это уровень отрезания, ниже - черный цвет, выше - белый.

Resize width x height
Масщабирование изображения. Если ничего не указано, не пользуется.

Layer
Конструкция DJVU такая, что изображение состоится из несколько частей, маска и основа. Полное изображение получается через "all". Иногда если есть большой серий фон, а мы хотим получить чернобелое изображение, хорошие результаты получаются с "mask" или "foreground", чисто экспериментально.

Page range
Интервал страниц, можно задавать в форме 1-15,46,89-213
Это выводит толко страниц с 1 по 15, 46, и с 99 по 213. Если конец интервала выше количество страниц, он автоматически коректируется во время работы.

dpi
Разрешение выходого графического изображения. Если пусто, сохраняется dpi изображения в файле.
Автор: Dimock
Дата сообщения: 10.12.2007 19:57
Спасибо, gencho! Никто еще не перевел интерфейс на русский язык?
Автор: gencho
Дата сообщения: 10.12.2007 21:14
Dimock
Никто
Автор: ILHS
Дата сообщения: 11.12.2007 14:39
gencho
Греческий интерфейс:
http://rapidshare.com/files/75816173/greek.ini
Замечание: нужно расширить размеры кнопок.
Хорошо было бы вместе с русским интерфейсом создать и хелп файл.
Автор: gencho
Дата сообщения: 11.12.2007 18:21
ILHS
Спасибо!
Можете ли вы сохранить тот же файл как Unicode? Например загужаете в Wordpad и сохраняете как Unicode text? Это нужно если вдруг я от безделья сделаю Unicode поддержку интерфейса.

Кнопки я уже изрядно расширял, посмотрю что можено еще сделать.
Руский хелп готовится.

Еще раз спасибо.
Автор: Dimock
Дата сообщения: 12.12.2007 19:53
Нужно скопировать текст из книжки в формате Дежваю, но в просмотрщике нет такой опции. Может нужна дополнительная программа? Я нашел один метод, но он долгий, а книжек много. Сначала декодировал книжку в тифы, потом распознал в ФайнРидере, а уж потом отправил в пдф. Есть путь покороче? Спасибо.
Автор: ghosty
Дата сообщения: 12.12.2007 19:59
Dimock
Если текстового слоя у DJVU изначально не было, то только так.
Автор: ILHS
Дата сообщения: 12.12.2007 20:02
Dimock
Если небольшой фрагмент книжки, то можно использовать ABBY Screenshot Reader.
Автор: Dimock
Дата сообщения: 12.12.2007 20:34
А как определить, был он или нет? Если был, то как?
Автор: VadimirTT
Дата сообщения: 12.12.2007 20:55
Dimock
посмотрите свойства страницы, по правой кнопке мыши, там вся статистика написана, в том числе размер текста, если текстовой слой есть.

Страницы: 1234567891011

Предыдущая тема: Программа для проведения crash теста компьютера


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.