Ru-Board.club
← Вернуться в раздел «Программы»

» DjvuOCR

Автор: vitaly1
Дата сообщения: 28.02.2007 21:28
DjvuOCR
by gencho

Программа для добавление OCR информации в djvu-книги с помощью программы распознавания текста ABBYY FineReader версий 7-9. Есть также другие полезные функции для работы с djvu.

Текущая версия: 2.4 beta

Офсайт

Авторская документация к DjvuOCR (в формате HTM)

FR9frfPatch для автоматического исправления перепутанных страниц после распознавания в FineReader 9 на многоядерном процессоре

Статья Создание в djvu-файле текстового слоя и интерактивного содержания

Статья OCR в djvu файлах - новый подход к старым возможностям (немного устаревшая).

Статья OCR && DJVU || DJVU && OCR или есть ли текст в дежавю? (немного устаревшая).
Автор: Him
Дата сообщения: 28.02.2007 22:18
vitaly1

Во-первых, спасибо за открытую тему, так как я для начала начал искать через фильтр по названию темы и, как сейчас понимаю почему, не нашёл. Теперь(я, конечно, наглею), раз уж открыта тема и вопрос обработки файлов djvu без текстового слоя волнует, видимо, не меня одного, не могли бы Вы сотворить небольшой(но понятный ) мануал по работе с этой программой. Хоть Вы и говорите, что разобраться с ней нетрудно, но у меня появились вопросы сразу при запуске экзешника: какую опцию выбрать, если по умолчанию, то какие поля и как заполнять открывшуюся следующую страницу и т.д. В общем, для меня такой мануал был бы необходим, но......как Вы решите! Заранее благодарен.

P.S. Начало обсуждения темы http://forum.ru-board.com/topic.cgi?forum=5&topic=18322&start=320#13
Автор: vitaly1
Дата сообщения: 28.02.2007 22:23
Him
Мануал вряд ли сейчас потяну - времени нет. Но пошаговую инструкцию быстро накидать могу.

Только давайте сначала определимся, что именно Вы хотите сделать, чтобы лишнее не расписывать Либо нужно добавить текстовый слой в дежавю, либо получить текст из дежавюшки.
Автор: Him
Дата сообщения: 28.02.2007 22:28
vitaly1

Спасибо за участие в моей проблеме и желание помочь. Мне нужно только получить текст отдельно от картинки и рапечатать его.
Автор: vitaly1
Дата сообщения: 28.02.2007 22:35
В этом случае нужно просто распознать текст в ФайнРидере. Поскольку он пока что не принимает на входе дежавюшные файлы, их сначала преобразовывают в тифы. Запускаете DjvuOCR (у меня версия 2.2), выбираете DjvuDecoder, потом сверху Add, выбираете свою дежавюшку, ниже, где Output Directory жмете Browse и указываете папку, куда сложить тифы, извлеченные из дежавю. Потом эти тифы скармливаете ФР и распознаете.

Добавлено:
Поздравляю со статусом Member'a
Автор: Him
Дата сообщения: 28.02.2007 22:48
vitaly1

Спасибо за разъяснение и за поздравление со статусом(а я , к своему стыду, даже и не обратил внимания на его изменение). Значит, наличие Fine Reader всё-таки обязательно?! Сейчас поищу новые версии , а то у меня старые(примерно годичной давности, когда увлекался работой со сканерами).
Автор: vitaly1
Дата сообщения: 28.02.2007 22:58
Him
В принципе и 6-ки должно быть достаточно. Или даже 5-ки. Правда, новые версии вроде бы получше распознают.
Автор: Him
Дата сообщения: 28.02.2007 23:07
vitaly1

Уже ставлю, оказывается, в моих архивах даже 8-ка есть где-то октября прошлого года.

Добавлено:
vitaly1

Программа декодировала нормально в tif, но ФР , зараза, распознаёт отдельные элементы и то кракозябрами. При этом постоянно просить увеличить рарешение. Пытаюсь корректировать, но не помогает: при установке выше 300 вообще не распознаёт. Я так понимаю, что, видимо , надо исправить сам исходный файл, т.е. сначала создать на нём текстовый слой, а потом уже обрабатывать текст. Но это я так по дилетански мыслю, но Вы, может, подскажете что-нибудь правильное. А ещё, если согласны, я дам ссылку на файл, с которым я мучаюсь, а Вы над ним поколдуете!? Но это уже завтра, а сейчас пора уже спать.

Попробовал другой аналогичный файл - полёт нормальный: и декодировалси и распознался! А с тем файлом буду работать ещё или через вьювер для фото.
Автор: gencho
Дата сообщения: 01.03.2007 01:21
Him
Если разрешение маловато, можно попробовать следующее: в етот же режим Djvu Decoder вправо есть опция dpi (25-1200). Попробуйте 300 или 600. Кроме етого ставте галочка на To gray, если книга в gray scale (хотя tiff-ы будут громоздкие, FR лучше будеть работать). Не забывайте после етого нажать Applay to all files, иначе может не сработат
Автор: Him
Дата сообщения: 01.03.2007 08:46
gencho

Спасибо, помогло dpi 600 и галка на To gray. Правда, после распознавания есть некоторые кракозябры, но это, видимо, издержки исходного файла и FineReader.
Автор: Tolich
Дата сообщения: 01.03.2007 09:36
Небольшая рекомендация: а не можете в шапку прямую ссылку на прогу скинуть?
а то что-то эта ссылка не работает. Не загружается сайт и всё тут
Автор: vitaly1
Дата сообщения: 01.03.2007 18:42
Tolich
http://djvuocr.ucoz.ru/_ld/0/3_DjvuOCR_2.2beta.rar

Добавлено:
http://djvuocr.ucoz.ru/_ld/0/1_DjvuOCR_2.1.rar
Автор: gencho
Дата сообщения: 02.03.2007 00:50

Сайт там работает, вроде у вас проблема.
Для резервного варианта поставил здесь:

http://gencho.gencho.googlepages.com/DjvuOCR_2.2beta.rar


Him

Раз FineReader 8 так справился, то очень плохой у вас файл.
Автор: monday2000
Дата сообщения: 02.03.2007 14:29
gencho

Цитата:
http://gencho.gencho.googlepages.com/DjvuOCR_2.2beta.rar

Этот хостинг - googlepages.com - оказался на поверку совершенно скверным - там маленький лимит трафика - но об этом нигде, разумеется, официально не говорится.
Автор: Tolich
Дата сообщения: 02.03.2007 14:56
vitaly1
gencho
Спасибо за ссылки! Скачал, всё нормально!
Но сайт всё равно не грузится...
Автор: gencho
Дата сообщения: 02.03.2007 15:43
Интересно, вчера сайт отвечал, а сегодня и у меня не грузится... Но и сам ucoz.ru не грузится. Наверное ето внутренная проблема.
Автор: monday2000
Дата сообщения: 06.03.2007 10:33
У меня тоже есть зеркала:

http://www.djvu-soft.narod.ru/djvu_ocr_v2_2_beta.rar

http://www.djvu-soft.narod.ru/djvu_ocr_v2_1.rar (подправленный автором)

http://www.djvu-soft.narod.ru/DjvuOCR_2_0_final.rar

http://www.djvu-soft.narod.ru/DjvuOCR_2_0_pre.rar

Наверняка уже есть и другие зеркала - надо в Яндексе посмотреть.
Автор: gencho
Дата сообщения: 06.03.2007 14:50
monday2000

уберите версия 2.0.pre и 2.0.final, она безнадеждно устарела. Версия 2.2 зарекомендовала себя как последная, без жалобы.
Автор: monday2000
Дата сообщения: 07.03.2007 08:24
gencho

Цитата:
уберите версия 2.0.pre и 2.0.final, она безнадеждно устарела.

Это для истории. А вообще у меня ФАК http://www.djvu-soft.narod.ru/basic.htm - там только всё самое свежее.

Я хотел бы напомнить свою старую просьбу: при использовании "Extract OCR Layers" сделать, чтобы извлекался не только OCR-слой - но и вообще все метаданные - гиперссылки и т.п. Пока для этого приходится использовать djvused - что неудобно.

Компания ABBYY планирует в будущем выпуск FineReader 9, где помимо прочего будет поддержка на чтение формата DjVu.

И ещё вот что хочу сказать: кроме Вашей программы, существует ещё один способ внедрить в DjVu-файл ABBYY-OCR. Нужно распознать тифы и сохранить их в PDF OCR, затем преобразовать этот Pdf через Pdftodjvu. Но этот способ неудобен и громоздок. Можно дополнительно потом извлечь OCR-слой из полученного DjVu-файла, сделать этот же DjVu-файл обычным путём, и вставить туда этот ранее сохранённый OCR-слой. Это вообще уже чересчур сложно.

В ABBYY SDK есть опция "отдельное сохранение OCR-слоя в виде XML-файла".

Добавлено:
Из топика по WinDjView:

Цитата:
Прошу прощения за напряг, а нет ли русификатора к DjvuOCR? Скачал версию 2.0 final, установил , но.....слаб в английском(к большому сожалению)!
Автор: Widok
Дата сообщения: 07.03.2007 13:31
шапка включена
Автор: gencho
Дата сообщения: 07.03.2007 15:13
monday2000

А сможете дать мне ссылку на файл, у которого есть все метаданны, для експеримента?

Про второго способа внедрения ОРЦ знаю, у нас так делают djvu-версия старого журнала "Космос".

О русификаторе подумаю, ето не самое важное.
Автор: monday2000
Дата сообщения: 09.03.2007 07:08
gencho

Цитата:
А сможете дать мне ссылку на файл, у которого есть все метаданны, для експеримента?

Пожалуйста - http://w12.easy-share.com/917881.html (19 КБ)

Скачайте себе Document Express Editor v6.0.1 Build 1320 LE (for NT) (Light Edition for NT) http://www.djvu-soft.narod.ru/Editor6_LE_nt.rar (1,19 МБ) - для редактирования метаданных.

Добавлено:
Я сделал "фирменную" документацию к DjVuOCR v2.2 beta в формате HTM (сверстал вручную из TXT-файлов):

http://www.djvu-soft.narod.ru/djvuocr.htm

P.S. Что-то у меня http://djvuocr.ucoz.ru/ не грузится... А раньше не было такой проблемы.
Автор: gencho
Дата сообщения: 10.03.2007 02:17
monday2000
Хорошо получилась документация. только мое там мыло зашифруите, т.е. замените '@' чем нибудь, против спамеров и их ботов.
Автор: monday2000
Дата сообщения: 12.03.2007 13:32
gencho

Цитата:
замените '@' чем нибудь, против спамеров и их ботов.

Сделал.

P.S. http://djvuocr.ucoz.ru/ уже грузится у меня. Наверное, периодические отключения у них.

Добавлено:
Я эту документацию сделал в основном для того, что, может быть, кто-то захочет сделать инструкцию по DjvuOCR в картинках - чтобы брали прямо кусками из этой htm-документации материал.
Автор: winhex
Дата сообщения: 24.04.2007 16:51
Подскажите плз. пользовался сабжем и раньше, но вот теперь надо было прожечь текстовый слой и возникла проблема - FR 8.0.0.731 DjvuOCR - текущая версия. Процесс добавления текстового слоя проходит без ошибок, но при открытии DjVu-файла в WinDjview поиск не работает, выделение так же недоступно.. В чем может быть проблема?
Автор: vitaly1
Дата сообщения: 24.04.2007 16:58
Да, работает.
Автор: winhex
Дата сообщения: 24.04.2007 17:05
vitaly1

Цитата:
Да, работает.

Невнимательно глянул документацию... Думал, что возможно проблема в версии FR
Автор: winhex
Дата сообщения: 25.04.2007 10:27
Кто подскажет, в чем могут быть грабли:

Цитата:
Подскажите плз. пользовался сабжем и раньше, но вот теперь надо было прожечь текстовый слой и возникла проблема - FR 8.0.0.731 DjvuOCR - текущая версия. Процесс добавления текстового слоя проходит без ошибок, но при открытии DjVu-файла в WinDjview поиск не работает, выделение так же недоступно.. В чем может быть проблема?

Автор: vitaly1
Дата сообщения: 25.04.2007 12:08
winhex
А в других дежавю-смотрелках текстового слоя тоже нет?
Автор: winhex
Дата сообщения: 25.04.2007 22:41
vitaly1

Цитата:
А в других дежавю-смотрелках текстового слоя тоже нет?


В DEE 6.0.1 выделение текста и поиск не активны, как и в WinDjvu 0.4.3 и 0.5beta больше ничем смотреть не пробовал...
Текстовый слой делал в FR8.0 и последней версии сабжа....

НО!! Вроде как сам DjvuOCR этот текстовый слой видит! Т.к. удается сделать Extract OCR Layer
В чем может быть дело?!? Раньше никаких проблем не было, да и ничего сложного ведь нет!

Страницы: 1234567891011

Предыдущая тема: Программа для проведения crash теста компьютера


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.