Ru-Board.club
← Вернуться в раздел «Программы»

» DjvuOCR

Автор: Unitaz
Дата сообщения: 31.12.2008 19:24
господа а нельзя ли вместо флейма запоститть прямую ссылку на искомую прогу и желательно в шапку ?????
Автор: vitaly1
Дата сообщения: 31.12.2008 21:29
А зайти на офсайт религия не позволяет?

http://djvuocr.ucoz.ru/load/0-0-0-9-20
Автор: ycheff
Дата сообщения: 31.12.2008 22:11
denver 22
Чистые страницы нужно вставлять в уже готовую книгу. Это удобнее, чем гадать - проскочит или нет.
Автор: comp3v
Дата сообщения: 09.01.2009 21:04
Раз FR9 теперь может открывать напрямую djvu-файлы - можно ли как-нибудь работать с такими проектами, не запуская каждый раз DJVU decoder? и ещё - нельзя ли добавить поддержку разворотов страниц? у меня каждый скан соответствует развороту, т.е. двум страницам. Соответственно, когда делаю распознавание в FR, включаю соответствующую опцию, и страницы распознаются по отдельности, как должно. Но DjvuOCR такое, конечно, не понимает, потому что страниц в FR-проекте получается в 2 раза больше чем tiff-файлов...
Автор: monday2000
Дата сообщения: 21.04.2009 14:13
Программа FineReaderToTxt (252 КБ).

http://www.spacelib.narod.ru/Download/frtotxt.rar

Автор: SpaceLib http://www.spacelib.narod.ru/p_frtotxt.html

Работа с FineReader без запуска его GUI.
Автор: Smokeer
Дата сообщения: 23.04.2009 03:57
comp3v
По идее если в ФР у вас 2 страницы находятся в одном файле и ФР их сам не разрежет, то соответственно в проекте будет сохранено 2 блока текста и их координаты на листе.
Если вы внедряете текстовый слой в те страници которые распознавали проблем не будет.
Если вы их сначала распознаете, потом кромсатором разрезаете, то тут никакая програма не поможет. Поэтому сначала обрабатывайте кромсатором или там граф редакторами и только потом файлы которые закодируете пытайтесь распознать.


Цитата:
Раз FR9 теперь может открывать напрямую djvu-файлы - можно ли как-нибудь работать с такими проектами, не запуская каждый раз DJVU decoder?

А в чём проблема? открыли свой ДЖВЮ, распознали, сохранили проект, внедрили слой.
Автор: ghosty
Дата сообщения: 26.05.2009 17:34
gencho
Вот на этом пакете 2.2. и 2.3. вылетают с ошибкой:
http://rapidshare.com/files/237437636/OCR.rar
Помогите, пожалуйста.
Автор: ycheff
Дата сообщения: 26.05.2009 21:09
ghosty

Plato's Theory of Knowledge.djvu.html
Автор: ghosty
Дата сообщения: 26.05.2009 22:04
ycheff
Спасибо. А можно узнать, в чем была проблема?
Автор: ycheff
Дата сообщения: 27.05.2009 06:18
Точных деталей не знаю. Пакет распознан, но tiff-ы не все собираются в книгу (8 штук Prof Editor 6.0 не принял). Пришлось их перевести в jpg - после этого добавить в djvu-книгу. А пакет делал повторно (из tiff-ов и jpg-ов) - на исходном на некоторых файлах странные отметки в виде дискеты - я таких и не встречал (может быть дело не в них). Новый пакет распознается чисто без проблем (отметки отсутствуют), а DjVuOCR 2.4 его быстро отрабатывает.
Автор: ghosty
Дата сообщения: 27.05.2009 11:49
ycheff
Ага, понял, спасибо. Перераспознал, получилось.
Из того пакета я удалил несколько страниц - может быть, поэтому была ошибка.
Автор: shenpen
Дата сообщения: 23.06.2009 20:30
День добрый.
Представляется необходимым начать обмениватся информацией о формате
сохранения результатов распознавания в программе FineReader
это позволит корректировать программы сборки DjVu документов
и также использовать результаты распознавания FineReader в других программах
исходный проект FineReader здесь
http://www.buddism.ru//yagpo/TibetanOCR/FRF_format.zip
материалы обсуждения и результаты описания формата сохранения
результатов распознавания (Fine Reader FRF file format) здесь
http://www.buddism.ru/yagpo/TibetanOCR/index.php
картинка формата здесь
http://www.buddism.ru//yagpo/TibetanOCR/FRF_format.jpg

Пусть будет всем хорошо!
Автор: ber2004
Дата сообщения: 23.07.2009 00:54
Может уже было, тогда извините...
В книге - списки литературы после глав, и в них попадается на одной странице половина на русском, половина на английском. DjvuOCR 2.3 такие страницы (всего 3 штуки в разных главах) не принял. Пробовал варианты с двумя текстовыми блоками на странице (рус и англ) и с одним, объединенным, (рус-англ). Распознавал FR8.
Симптомы: при стоящей галочке "игнорировать ошибки" - шуршит, но в файл не внедряет, при снятой галочке - выдает "ошибки в ..." и - номера этих страниц. Текст сообщения не записал, но думаю должно воспроизводиться.
При этом нажатие на кнопку "тест проекта" ошибок не показывает.

Побороть удалось, только присвоив этим блокам свойство "язык" - "по умолчанию" (т.е. русский).
Вариант, когда на странице единственный блок , но английский - не пробовал.
Автор: ycheff
Дата сообщения: 23.07.2009 08:15
Проверьте пакет FR - в нем не должно оставаться нераспознанных страниц. Если происходит постоянная ошибка с некой страницей, можно попытаться заменить ее на такую же другого графического формата (ошибки иногда связаны с форматом страницы).
Для этого удаляем страницу из пакета, добавляем новую и новую перенумеровываем на номер удаленной.
Бывало, что полкниги отработав, FR выдает ошибку в остальных страницах - сохраняю пакет, перегружаю комп и распознаю нераспознанные страницы - обычно все работает. Вряд ли сбои связаны с OCR DJVU - выложите странички - проверю.
Автор: vladlen666
Дата сообщения: 23.08.2009 03:26
Друзья не может ли кто-нибудь мне сказать с чем может быть связана ошибка
Распознаю в FR9 книгу. Все окей. Все распознано. Сохраняю проект. Добавляю его в DJVUOCR и в тоге ОСR добавляется но порядок страниц другой!!! Страницы меняются местами. Бред какой-то. Как вообще такое может происходить? В чем может быть ошибка....
Добавлю... В FR все страницы показаны правильно последовательно.
Автор: albel
Дата сообщения: 23.08.2009 04:14
vladlen666
там что-то странное в последних версиях FR
Я, когда хотел проверить багу djvuocr, пробовал перекинуть из каталога проекта первые три страницы: 001.frf, 002.frf, 003.frf + картинки 001.tif, 002.tif, 003.tif + системные файлы - в новый каталог. Открыв новый каталог в FR, я с удивлением обнаружил, что отображаются страницы 2, 3, 10 (т.е. нумерация страниц не соответствует реальности). Может, дело в этом?
Автор: ycheff
Дата сообщения: 23.08.2009 11:27
Проверьте нумерацию страниц в наборе картинок, картинки надо нумеровать так 0001-0002-0003 и т.д., но не 1-2-3 и т.д., иначе проблем не избежать - загрузка в FR идет не по номерам, а по символам.
Автор: Smokeer
Дата сообщения: 23.08.2009 17:18
Что вечно мешает єто невозможность вшивать проєктьі с ошибками... ну не понимает DjVuORC 5-6страниц из тьісячи.. ну проигнорировал бьі и вшил всё остальное...
Автор: ycheff
Дата сообщения: 23.08.2009 18:00
Иногда DjVu Editor не вставляет страничку в книгу (это также дает сбой страниц djvu-книги и пакета FR). Editor выводит предупреждение (но не пишет номеров страниц) - его нельзя игнорировать. Надо обязательно найти эти страницы. Страницу можно загрузить в графический редактор и, ничего не меняя, сохранить. Обычно после этого страница вставляется в книгу.
Автор: sashko1980
Дата сообщения: 23.08.2009 21:26
vladlen666

Цитата:
Сохраняю проект. Добавляю его в DJVUOCR и в тоге ОСR добавляется но порядок страниц другой!!! Страницы меняются местами.


albel

Цитата:
там что-то странное в последних версиях FR


Ну вот, хоть кто-то еще с этим багом столкнулся, а то я уж думал что это только мне фатально не везет с ФР9 и DJVUOCR. А я просто долго не мог понять, почему у меня в книгах встречаются участки, где ОСR и текст совпадают, а где - не совпадают.
Вот как с этим бороться? Или просто при работе с DJVUOCR перейти на ФР версией ниже?
Автор: albel
Дата сообщения: 23.08.2009 21:36
ycheff

Цитата:
Проверьте нумерацию страниц в наборе картинок, картинки надо нумеровать так 0001-0002-0003 и т.д., но не 1-2-3 и т.д., иначе проблем не избежать - загрузка в FR идет не по номерам, а по символам

ну, нумерация - это святое, этим кромсатор сам занимается, так что лидирующие нули есть всегда по умолчанию, не в этом трудность

sashko1980
ну, я пока перешёл на PDF+текст под изображением страницы, это можно сделать прямо из интерфейса FR.
Если критичны djvu, то проще всего откатиться на восьмую версию FR (благо изменений не так много, а уж критических - так и вообще нет), с которой проблем нет.
Автор: vladlen666
Дата сообщения: 24.08.2009 00:25

Цитата:
Проверьте нумерацию страниц в наборе картинок, картинки надо нумеровать так 0001-0002-0003 и т.д., но не 1-2-3 и т.д., иначе проблем не избежать - загрузка в FR идет не по номерам, а по символам

Ах если бы ах если бы. Я тоже подумал что сам напутал порядок.

Короче я делал по разному
1. распознал в FR9 DJVU книгу, но на некоторых страницах были сообщения, яркость не та, или язык. Я затем распозновал эти страницы заново. Сохранял проект и далее как описано. добавлял OCRчерез DjvuOCR в книгу и нумерация страниц перевернута. То есть я даже не связывался с названиями файлов

2. Во вторйо попытке, я распотрошил дежавю в кратинки, назвал их именно так 001,002, 003 и до 331. Распознал опять. Опять кстати ни разу у меян не получалось распознать всю книгу без единой ошибки (мне кажется в этом проблема). результат тот же

Пробовал и так и сяк. Пробовал страниц ыместами менять в проекте. Но ошибок слишком много. То есть думаю каждая десятая страницы с ошибкой.

С FR7 хренотени никогда не было.
Интересно в чем же косяк. В FR9 или DjvuOCR. (Файнридер понимает свои проекты без отказно, страницы там где надо, )


Добавлено:
1. в DjvuOCR распотрошил книгу. В FR9 распознал только первые десять страниц. Добился распознавания без ошибок с первого раза. Сохранил проект.
Создал 10 страничный Djvu-документ. И к нему без проблем добавил ОСR.

Видимо нужно добиваться распознавания без ошибок с первого раза. Что геморно если документ большой.

Известно что проект FR с ошибками на страницах в DjvuOCR не поддерживается.
А если в уже распознанном документе FR9 повторно распознать "ошибочные" (в кавычках, так как на деле все распознано, только сообщение прорвете мол язык, или добавить яркость) страницы (как я делал) получается этот бред со страницами.

Все бы ничего. если бы эти идиотские ошибки (Почему нет возможности их отключит!) в FR9 появлялись на одной и той же странице. Так он требовал проверить язык каждый раз на разных страницах, то ему не нравилось что нет текста там где его нет, то яркость.

короче вот мои наблюдения. Простите за Ламерство. я всего лишь студент-биолог.

Главный вопрос? Может можно как-нибудь заставить FR9 не быть таким придирчивым к страницам.
Автор: Smokeer
Дата сообщения: 24.08.2009 00:57
ycheff
При чем тут єдитор? Проєкт отбраковуется на єтапе проверки самьім DjVuOCR'ом. И список страниц там прилагается... приходится лезть в файнридер и тьікать кнопочки... перераспознавать єти отдельньіе страницьі... лениво

Добавлено:
vladlen666
Думаю єто должно решаться через DjVuOCR, а не файнридером))) Весьма вероятно что формат проєктов 9ой версии просто еще не полностью поддерживается... посему у меня стоит 8ая
Автор: vladlen666
Дата сообщения: 24.08.2009 01:18
Так все таки что вызывает перетасовку страниц... то что FR9 приходиться перераспозновать странички с "ошибками"? И это в свою очередь вызывает глюк у DjvuOCR.
Это моя ламеровская версия
Дело же не в том что приходиться
Цитата:
перераспознавать єти отдельньіе страницьі.
а в том что после таких манипуляций DjvuOCR глючит обрабатывая такой проект
Автор: Smokeer
Дата сообщения: 24.08.2009 04:20
Если честно, то я так и не понял в каких случаях путаются страници и как исправить...
Закончилось дело 8ьім FineReader'ом..
Автор: ycheff
Дата сообщения: 24.08.2009 17:17
Косяки могут быть на любом этапе - даже при декодировании картинок. Если FR не смог распознать страницу - OCR DjVu не сможет завершить работу. В этом случае страничка в пакете FR будет помечена красным значком. Надо сохранить пакет (если не сохранить - возможно спонтанное закрывание FR), далее заменить эту страничку на новую (старую загружаю в графический редактор, чищу, поворачиваю, сохраняю в том же формате или другом - иногда tiff и jpg не проходят, а bmp - проходит).
Можно попытаться просто изменить разрешение изображения на странице прямо в FR, поменять 300 dpi на 300 dpi и снова включить распознавание - иногда помогает (но иногда именно в этом месте FR вылетает совсем).
Автор: Smokeer
Дата сообщения: 24.08.2009 18:04
ycheff

В ФР есть галочка которая позволяет игнорировать такие ошибки без заморочек с распознаваниями - чистками.
Вьіделяете страницу - и щелкаете игнор-игнор-игнор... нормально вшивает... но лучше б DjVuOCR просто пропускал страницьі которьіе не понимает ))))))))))))))))

Добавлено:
ycheff

Цитата:
Косяки могут быть на любом этапе - даже при декодировании картинок. Если FR не смог распознать страницу - OCR DjVu не сможет завершить работу. В этом случае страничка в пакете FR будет помечена красным значком. Надо сохранить пакет (если не сохранить - возможно спонтанное закрывание FR), далее заменить эту страничку на новую (старую загружаю в графический редактор, чищу, поворачиваю, сохраняю в том же формате или другом - иногда tiff и jpg не проходят, а bmp - проходит).
Можно попытаться просто изменить разрешение изображения на странице прямо в FR, поменять 300 dpi на 300 dpi и снова включить распознавание - иногда помогает (но иногда именно в этом месте FR вылетает совсем).

Вообще вопрос не в ФР, так как распознает он нормально... вопрос в тому что DjVuOCR почему-то самовольно меняет порядок страниц в проєкте ФР9... иногда не меняет... в каких случая - зависит от погодьі в Гандурасе.
Автор: vladlen666
Дата сообщения: 24.08.2009 18:31

Цитата:
В ФР есть галочка которая позволяет игнорировать такие ошибки без заморочек с распознаваниями - чистками.
Вьіделяете страницу - и щелкаете игнор-игнор-игнор... нормально вшивает... но лучше б DjVuOCR просто пропускал страницьі которьіе не понимает ))))))))))))))))

Для тупых, скажите пожалуйста где эта галочка, я не нашел

А вообще, так заморочился, уйду наверно сразу к FR7. С ним никогда не было проблем. Надеюсь он меня простит за временное увлечение FR9
Автор: ycheff
Дата сообщения: 24.08.2009 20:41
У меня FR8, кнопочки не видел, поищу. FR9 ставил, но вернулся к 8.0, 9.0 лез без спросу текст распознавать, а мне это не нужно.
Автор: myual
Дата сообщения: 26.09.2009 13:58
Скажите, у кого-нибудь DjvuOCR 2.4 beta R4 сработал нормально с FR 9.0.0.1042 Corp?
У меня на всех проектах выдает ошибку

Цитата:
**File "..."
Invalid FRF format
... offset=...
.
Хотя с FR 9.0.0.7** и 8.* подобных ошибок нет.
Хотелось бы знать, с чем связана данная ошибка?

Страницы: 1234567891011

Предыдущая тема: Программа для проведения crash теста компьютера


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.