» DjvuOCR

Автор: StanFreeWare
Дата сообщения: 23.11.2009 07:08

Ну, значит мы говорим о тех людях, у которых, скажем, уже установлен ФР9. И которые вдруг решили по-быстрому сделать OCR-слой в паре-тройке DjVu-книжек...

Кстати, если патч вдруг не заработает, то, возможно, придется доставить еще 4Мб Redistributable Packages. Ну и должен быть NET Framework 2.0, хотя скорее всего достаточно будет Packages.
http://www.microsoft.com/downloads/details.aspx?familyid=A5C84275-3B97-4AB7-A40D-3802B2AF5FC2&displaylang=en

Добавлено:
Кто-нибудь, подскажите - проект DjVu Hyperlinks Editor еще жив? В интернете какие-то разрозненные ссылки, офсайта не найду. У Monday2000 на сайте старая версия, похоже..

Автор: ILHS
Дата сообщения: 23.11.2009 07:46

are

Цитата:

8-я версия позволяла запускать полностью пакетное распознавание (т.е. можно взять 1000 джвю книг и все подряд распознать за неделю работы, без вмешательства пользователя и без GUI вообще).

Разве 8-я версия позволяет распознавать джвю?

Автор: are
Дата сообщения: 23.11.2009 10:16

ILHS
не позволяет напрямую, но достаточно того, что из джвю можно автоматически сделать тифф файлы с именами, как в пакетах ФР, после чего ФР можно заставить работать в автоматическом режиме. (Думаю, разработчики ФР этого не предусматривали.) Работает даже под линуксом через wine, очень удобно - поставил пачку файлов и ушёл пить чай, через неделю результаты.

Автор: NME
Дата сообщения: 23.11.2009 19:33

StanFreeWare

Цитата:

проект DjVu Hyperlinks Editor еще жив?

скорее мертв, чем жив.. где-то проскакивала информация (не знаю насколько достоверная), что автор забил на проект (хотя исходниками готов был поделиться)..
а что, есть желание реанимировать? было бы здорово)) программе очень недостает возможности редактировать гиперлинки ручками (с визуальным отображением результата).. приходится потом эдитором править, а там тоже кривовато это дело организовано..

Автор: StanFreeWare
Дата сообщения: 23.11.2009 19:48

На самом деле, при наличии стандартного оглавления-дерева в djvu результат работы Hyperlink, не то чтобы бесполезен, но, наверное, избыточен. Вот если бы была возможность автоматизировать вставку оглавления-дерева, то я бы, возможно, заинтересовался. А то инструментария djvu editorа при 10-страничных оглавлениях явно недостаточно...

Автор: omgFiRE
Дата сообщения: 23.11.2009 19:56

StanFreeWare
Вот если бы была возможность автоматизировать вставку оглавления-дерева
Я тебе отправил сообщение на инфанате о создании оглавления с помощью DjVu Bookmark Tool, к нему бы редактор не помешал, а то руками писать html-ку муторно.

Автор: ghosty
Дата сообщения: 23.11.2009 20:13

StanFreeWare
Я уже раздавал пакет для автоматического создания оглавления в топике по сканированию/обработке. Искать в версии для печати по ключ.слову TOC.

Цитата:

На самом деле, при наличии стандартного оглавления-дерева в djvu результат работы Hyperlink, не то чтобы бесполезен, но, наверное, избыточен.

Представьте, что у Вас вот таких страничек с оглавлением (см. ниже) около 10-15 - сейчас как раз такую книжку делаю. Как Вы без Hyperlink это оглавление сделаете?

Автор: StanFreeWare
Дата сообщения: 23.11.2009 20:37

ghosty
Проблема в алгоритме автоматизации создания? Или в том, как будет выглядеть такое содержание в виде иерархии?

Посмотрел 4 версии форума по сканообработке - все ссылки на TOC-скрипты давно мертвы... Видимо, вы ими и сами не пользуетесь, иначе бы просто скинули на тот же onlinedisk, вместо того, чтобы гонять по форумам...

Автор: ghosty
Дата сообщения: 23.11.2009 20:48

StanFreeWare
Вообще, это здесь оффтопик. И я не виноват, что они мертвы - значит, Вы первый, кому они понадобились. Не понимаю, почему я должен перед Вами оправдываться...

Update: в соотв. топике выложил все, что нужно.

Автор: StanFreeWare
Дата сообщения: 23.11.2009 21:16

Цитата:

Не понимаю, почему я должен перед Вами оправдываться...

Согласен, не должны.

Просто обычно ссылки на топики даются ссылками. http://forum.ru-board.com/topic.cgi?forum=93&topic=3172&start=260#6 - может, кому еще понадобится...

И спасибо за то, что выложили. Буду разбираться.

Добавлено:
И за что люди так любят рапиду...

Добавлено:
Серьезно - переложите, пожалуйста, на onlinedisk - не дает скачать рапида проклятая...

Автор: basilio_ef
Дата сообщения: 11.12.2009 18:41

ghosty

Пожалуйста, если это возможно, то перешлите текст оглавления, который Вы показали на картинке на мой E-mail. Возможно Вы мой E-mail еще не выбросили в корзину.
Попытаюсь сделать bookmark.htm. К сожалению, с картинки я не могу скопировать текст.
Заранне спасибо.

P.S.
bookmarks.htm для фрагмента оглавления, что на картинке Ghosty. Сгенерирован файл DJVUmark,
входной файл для DJVUmark.
Конечно, адресация не согласована.
Поскольку я как-то прочитал текст, то моя просьба отменяется.

Автор: ghosty
Дата сообщения: 11.12.2009 23:38

basilio_ef
Вот как я оформил оглавление в конечном счете:
http://rapidshare.com/files/311196519/THE_ORIGIN_AND_GROWTH_OF_PLATO_S_LOGIC_Lutoslawsky.djvu

Цитата:

bookmarks.htm для фрагмента оглавления, что на картинке Ghosty. Сгенерирован файл DJVUmark,
входной файл для DJVUmark.

Нет, совсем не пойдет. Все-таки каждый метод хорош в своей области применения.
Об автоматизации создания древовидного оглавления в таких случаях, ИМХО, лучше забыть - не стоит это тех усилий.

А чем Вам мой вариант не нравится?

Автор: StanFreeWare
Дата сообщения: 12.12.2009 06:38

ghosty
Ваш вариант не нравится мне.

Из-за слишком жирных букв в OCR-слое очень много ошибок.
Процентов 20 троек превратилось в восьмерки, то же самое с пятерками - они стали шестерками.
Просто скопируйте текст оглавления и вставьте его в текстовый редактор - и вы сами все увидите.

Поэтому без предварительной (и очень тщательной) вычитки делать гиперссылки поверх TOC-оглавления (и страницы индексов) - imho - некорректно. Пользоваться результатом будет невозможно.

Bookmark-оглавление в данном случае применимо с большими оговорками - по той причине, что каждая строка в bookmark-оглавлении должна быть ссылкой на одну страницу, а данное оглавление - это немного по совместительству индекс, т.е. в нескольких случаях один и тот же элемент относится к разным диапазонам страниц.

Тем не менее, используя Microsoft Word(не забываем, что в его поиске-замене можно задавать и такие символы как ^p - перенос строки, и ^# - произвольное число) и Djvu Bookmarker (для контроля монотонности возрастания страниц - т.е. исключения последовательности ссылок на страницы 235 - 285 - 236, где 285 - ошибка распознавания, и последующего задания соотвествия страниц и структуры иерархии) мне удалось получить следующий результат:

html:
http://www.onlinedisk.ru/file/291255/
djvu:
http://www.onlinedisk.ru/file/291252/

Спасибо за интересный пример оглавления. Появилась еще пара идей по улучшению Djvu Bookmarker.

Автор: ghosty
Дата сообщения: 12.12.2009 13:57

StanFreeWare

Цитата:

djvu:
http://www.onlinedisk.ru/file/291252/

Спасибо большое. Скажите, каков процент ручного труда в этом процессе?

Я все же действительно думаю, что в тех случаях, когда структура оглавления очень сложна и объем его велик, нагляднее будет вариант с разметкой оригинального оглавления на странице.

Другое дело, если Ваш метод позволит автоматически отфильтровать ошибки OCR... В общем, интересует, прежде всего наименее затратный по времени метод - книг много, а времени на них все меньше.

Была у меня тут в виде сырых сканов книжка эксклюзивная и очень всем нужная - объем 22405 РАЗВОРОТОВ (!!!). Меня 3 года пинали, просили выложить хотя бы в сыром виде (1/2 DVD). А я все вертел носом, говорил, что, мол, пока не обработаю, не разрежу развороты, не распознаю, не составлю какой-никакой индекс, ничего выкладывать не буду. Довыпендривался - пока размышлял, как бы это все лучше да побыстрее сделать, люди нашли те же сырые сканы, запихнули их все в PDF и выложили на гигапедии. Со мной теперь общаются неохотно. Вот я и думаю после этого, куда бы мне этот свой перфекционизм запихнуть. Ведь подобных книг, нужных другим людям, а мне - лишь постольку поскольку, у меня навалом...

Автор: StanFreeWare
Дата сообщения: 12.12.2009 16:52

Львиную долю времени заняло придумывание последовательности замен в Worde. С опытом и количеством оглавлений думаю может дойти до минут пяти. Главное тут - не удалить полезную информацию, и не потерять нужные пробелы.

Получилось что-то типа

' удалил все переносы строк
Replace "^p", ""
' заменил длинный дефис переносом строк
Replace "^+", "^p"
' добавил перенос строк после закрывающихся скобок
Replace ")", ")^p"
' удалил сокращения страница, страницы
Replace "(pp.", ""
Replace " p. ", " "
' удалил лишние пробелы
For i = 1 To 4
Replace " ", " "
Next
' удалил запятые перед нумерацией
For i = 1 To 9
Replace ", " & i, " " & i
Next
' выделил главы в отдельную строку
Replace "Chapter", "^pChapter"
' удалил вторую часть диапазонов страниц в конце строки
Replace "-^#^#^#)^p", "^p"
Replace "-^#^#)^p", "^p"
Replace "-^#^#^#^p", "^p"
Replace "-^#^#^p", "^p"

Кроме того перед запуском последовательности (после они уже не так выделялись) ручками прошелся по оглавлению, удалил остатки колонтитулов, объединил главы с текстом глав, а для третьей главы задал номер страницы, чтобы она могла иметь подглавы. Замечу, что в более простых случаях поиск колонтитулов можно было бы доверить Djvu Bookmarker, но не в вашем случае, потому что мы по сути заново создали разметку строк.

После запуска еще выделил все ссылки на страницы 3xx и сделал замену " 8" => " 3",
для пятисотых сделал замену " 6" => " 5" - против ошибок распознавания.

Затем текст выгрузил в Djvu Bookmarker, который по нарушению монотонности возрастания номеров страниц нашел остальные ошибки распознавания в номерах.
Кроме того, пришлось разлепить слипшиеся строки оглавления, в которых OCR не распознал длинный дефис - это вручную, задание на внимательность.
Потом закинул текст в иерархию, шаблоном CHAPTER автоматически создал структуру дерева. Вручную задвинул содержимое в подглавы третьей главы. И выдвинул индекс, попавший в последнюю главу.
Далее задал сдвиг нумерации по верхней строчке оглавления, проверил на последней - все сошлось, удаленных страниц не было.
Экспорт.
Все.

Работа в Djvu Bookmarker заняла минут пять-семь.

Автор: basilio_ef
Дата сообщения: 12.12.2009 19:59

ghosty

Спорить с Вами не хочу. Потеря времени.

Обратите внимение в оглавлении на контекст "LIST OF 500 PECULIARITIES"; там почему-то длина списка превратилась в ссылку на страницу.

Автор: fenix32
Дата сообщения: 12.12.2009 22:46

Прошу прощения, может я чего не понял из темы, но в 9й версии Abbyy FineReader давно уже есть поддержка формата DjVu при помощи двух библиотек:
1. Image.Format.DjVu.dll
2. Image.Helper.DjVu.dll
А с некоторых релизов 9й версии поддержка уже встроена в дистрибутив.
10ю не упоминаю, т.к. на неё нет (не встречал) пока нормальной таблетки.
Формат DjVu открывается и обрабатывается так же, как картинки и PDF.

Автор: StanFreeWare
Дата сообщения: 12.12.2009 23:49

fenix32
Есть поддержка импорта DjVu - т.е. использования DjVu как источника изображений для распознавания. А здесь идет речь о программе для экспорта результатов распознавания в DjVu-файл в виде OCR-слоя.
Ссылка на обсуждение темы на форуме finereader

Добавлено:
basilio_ef

Цитата:

Обратите внимение в оглавлении

Еще там некоторые сссылки на страницы наоборот не распознались (126, 136). А вот строка 367 b.c. в элемент оглавления не превратилась корректно. Чудеса..
ghosty
Ваша книжка - это тот еще тест на внимательность - склеенные строки после макроса остаются не потому, что не распозналось длинное тире, а потому, что это результат еще одного выделения структуры - курсивом с новой строки. И у меня что-то нет идей как автоматом хотя бы перенести их на новую строку. Насколько я понимаю ворд не позволяет, задав цифру (^#) в шаблоне поиска использовать ее в шаблоне замены (если бы позволял, можно было бы попробовать просто удалить все длинные тире, а переносы строк делать шаблонами типа
", ^#^#^# " => ", ^#^#^#^p").
Разве что делать подобные вещи не вордом, а через регулярные выражения.

А если присмотреться, то в оглавлении есть еще и курсив не с новой строки - похоже, что тоже выделение структурных единиц.

Автор: monday2000
Дата сообщения: 21.12.2009 10:25

Что-то Генчо молчит. А что, если он вообще больше не будет делать программу?

Как альтернатива, можно просить ABBYY сделать экспорт OCR-слоя в DjVu.

Для этого нужно на форуме ABBYY просить эту фичу. Можно хоть в этом
Цитата:

Ссылка на обсуждение темы на форуме finereader

топике.

Или тут: http://finereader.abbyy.ru/forum/actualthread.aspx?tid=344&pg=24

Прошу всех отписаться на форуме ABBYY по этой теме.

Автор: NME
Дата сообщения: 21.12.2009 18:43

monday2000
так вроде бы ответ на это предложение уже был озвучен http://finereader.abbyy.ru/forum/actualthread.aspx?tid=867
или флеймом завалим их форум, пусть таки покупают лицензию

Автор: Smokeer
Дата сообщения: 03.02.2010 12:57

Дополнительные зеркала:
http://cm0k.info/soft/djvuocr/djvuocr-2.4beta.7z <- самая новая на данный момент версия.
http://cm0k.info/soft/djvuocr/djvuocr-2.3.7z
http://cm0k.info/soft/djvuocr/djvuocr-2.2beta.7z
http://cm0k.info/soft/djvuocr/djvuocr-2.0pre.7z

Пожато в 7z.

Автор: StanFreeWare
Дата сообщения: 03.02.2010 15:23

Перенес свой патч в шапку темы. Заодно добавил статью с инфанаты про DjvuOCR (и Djvu Hyperlinks Editor).

Автор: Smokeer
Дата сообщения: 07.02.2010 22:07

как данным патчем пользоваться?

Автор: StanFreeWare
Дата сообщения: 08.02.2010 07:00

Переименовал более адекватно, а то может создаться впечатление, что патчится DjvuOCR.. Исходники включать не стал - они не изменились.
FR9frfPatch
Smokeer
Все очень просто - подсовываете патчу папку проекта FR9 после распознавания перед вставкой в djvu с помощью DjvuOCR. Он делает необходимые правки в frf-файлах.
Необходимо учесть, что решается только одна проблема связки FR9+DjvuOCR, проявляющаяся в перепутывании страниц в OCR-слое.Cтарожилы форума утверждают, что это далеко не все проблемы данной связки и рекомендуют FR8, даже не смотря на основное преимущество FR9 - эффективное использование многоядерных процессоров, в результате чего время распознавания уменьшается раза в полтора на двухядернике.

Автор: vladlen666
Дата сообщения: 08.02.2010 07:48

Спасибо за патч, я из-за этих глюков вообще вернулся на 7-ю версию. У меня кстати в FR9 такой прикол возникает, при открытии (просто открытии) страниц он меняет их местами, хотя названия файлов идут по алфавиту, напрмиер book001, book002,... bookNNN. Мучился черт знает сколько, пока не переименовал картинки в Изображение 001, Изображение 002, ИзображениеNNN. В таком виде все открылось на своих местах.

Автор: Smokeer
Дата сообщения: 08.02.2010 21:17

StanFreeWare
У меня этот патч вываливается ошибкой "The application failed to initialize property (0xc0000135). Click on OK to terminate the application."

Добавлено:
файл FR9frfPatch.pdb напичкан какими-то левыми путями

Автор: StanFreeWare
Дата сообщения: 08.02.2010 21:21

При загрузке или во время обработки? Если второе, то сделайте архив с папкой проекта FR и выложите на Onlinedisk.

Автор: Smokeer
Дата сообщения: 09.02.2010 02:07

при запуске. ваш патч вообще не запускается.

Добавлено:
да и мелковатый он какой-то... всего 12+24+2Кб

Автор: StanFreeWare
Дата сообщения: 09.02.2010 09:29

Smokeer
Прошу прощения, забыл предупредить, он использует .NET 2.0.
Если очень нужно, могу переписать на дельфях, размер будет 1 Мб.
В принципе, логика предельно проста, можно хоть на бейсике написать патч )

Автор: Smokeer
Дата сообщения: 09.02.2010 16:13

StanFreeWare
...у меня стоит 3.5 вроде как... все предыдущие включены по идее

Добавлено:
надо будет поморочиться с простым VBScript'om заодно немного подучу его... и будет мне счастье =)

Страницы: 1 2 3 4 5 6 7 8 9 10 11

Предыдущая тема: Программа для проведения crash теста компьютера

Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.