Ru-Board.club
← Вернуться в раздел «Программы»

» Утилиты для DjVu: FR11 DTL Crutch, DjVu Anno Editor и др.

Автор: hogu77
Дата сообщения: 09.06.2014 20:32
NME

Цитата:
касательно видео - это либо баг, либо ручное вмешательство в текстовый слой.. буду посмотреть..

На данный момент у меня остался ещё один такой интересный файлов, с мягкими переносами. OCR'ил с помощью ФР11, но ещё до появления вашей программы, в этих двух - текст в дореформенной орфографии, так что спрашиваю о кодировках не оттого "лишь бы побольше умных вопросов задать".

Цитата:
в общем, на 99,9% что текстовый слой был модифицирован.. программа такие случаи не обрабатывает и не будет обрабатывать

Почему же v.0.2 корректно склеила слова, как и показано в видео?
Вот ещё один, модифицированный файл. Результат такой же, как и на первом примере.
http://rghost.ru/56274917
Автор: NME
Дата сообщения: 09.06.2014 20:58
hogu77
в djvu текст хранится в utf8, соответственно с данным форматом и идет работа..

v.0.2 работает с текстовым файлом, импортированным из djvu с помощью djvused, а с 0.3 текст берется непосредственно из djvu.. если данный слой перекидывать из одного файла в другой с помощью djvused, то эта утилита добавляет пробелы после слов и логика работы программы нарушается.. но, раз 0.2 справляется, то это выход - результат (за исключением параграфов) будет такой же..
Автор: hogu77
Дата сообщения: 11.06.2014 16:24
Такая же фигня и с "перевёрнутым" текстом (табличные данные, схемы, пр.) в книгах/журналах, особенно технической тематики. Так что если в книге много всяких графиков, сопоставлений, выборок, и всего того что влазить только в лэндскэйп, то лучше v.0.2 использовать.
Которой к сожалению нет, выше.
Автор: NME
Дата сообщения: 11.06.2014 17:05
hogu77
примеры?
Автор: hogu77
Дата сообщения: 11.06.2014 17:38
NME
Пример есть, смысл? Использовал Djvu.OCR v2.4 beta и PatchOcrDirection 0.3 а это, как сами понимаете - "текстовый слой был модифицирован", ну-и дальше по тексту.
Вот архив, если интересно:
http://rghost.ru/56315619
P.S. А, забыл добавить, горизонтальные страницы переворачивал с помощью Document Express Editor 6.5, когда они из FR12 "перекрученными" вышли, потом Djvu.OCR, PatchOcrDirection и дальше по старой схеме.
Автор: NME
Дата сообщения: 11.06.2014 20:23
hogu77
случай неоднозначный, но использование 0.3 здесь вполне применимо также, как и 0.2 (и деление на параграфы можно сохранить), надо только порядок действий изменить..
для этого:
1. переносим НЕмодифицированный слой из Abbyy.djvu в Original.djvu (Crutch)
2. поворачиваем текст, страницы (Document Express Editor 6.5, djvused (DjvuOCR), PatchOcrDirection)
3. возвращаем модифицированные djvused'ом (DjvuOCR'ом) разделители зон - в столбце "не ФР11+" напротив параграфа ставим "0A", напротив строки - "Ничего"..

какие есть недочеты помимо использования большой кучи софта - PatchOcrDirection неверно поворачивает текст - он не совпадает с реальной графикой.. это видимо связано с тем, что размеры текстовой зоны Page не совпадают с размерами страницы..

какой выход на сегодняшний день - не разрешать файну поворачивать страницы или самому предварительно перед распознанием их поворачивать в том же Document Express Editor'е..

теоретически, я бы мог в своей программе ввести проверку на поворот страниц, НО! в какую сторону он был произведен, по или против часовой? автоматически этого сейчас я определить не смогу.. если только вручную.. не знаю, стоит ли заморачиваться.. проще, наверное, для этого дела отдельную утилитку сделать - типа PatchOcrDirection, но с возможностью ручного поворота и сдвига текста..
Автор: hogu77
Дата сообщения: 11.06.2014 21:57
NME
Спасибо за ещё один вариант решения, но мне удобнее сначала поворачивать страницы)
По существу:

Цитата:
какие есть недочеты помимо использования большой кучи софта - PatchOcrDirection неверно поворачивает текст - он не совпадает с реальной графикой.. это видимо связано с тем, что размеры текстовой зоны Page не совпадают с размерами страницы..  

Уверяю вас, это самый мелкий недочёт. Лучше что бы в djvu был текстовый слой в таблицах чем его отсутствие. А насчёт "красивостей" размещения текста то, надеюсь вы со мной согласитесь, глазами лучше воспринимается так -
чем так -
Поэтому, функция поворота в кратче была бы как нельзя кстати.

Цитата:
в какую сторону он был произведен, по или против часовой? автоматически этого сейчас я определить не смогу.. если только вручную..

Автоматически и не надо, зачем такие сложности?
В подавляющем большинстве случаев, по крайней мере в совдеповской научно(-популярно)й литературе таблицы в книге размещаются, "от корешка". Т.е. поворот как это реализовано в PatchOcrDirection'е. В любом случае, повторюсь, гораздо лучше иметь данные и с таких вот "перевёртышей", которых иногда довольно много содержится в работе.
Автор: Bu
Дата сообщения: 11.06.2014 22:55
Не подскажете какая из этих утилит может поменять dpi готового djvu файла. Есть DjVuToy он может менять dpi, но только у одного файла, и похоже консольных команд у него нет, а мне надо поменять dpi у нескольких сотен файлов.
Автор: NME
Дата сообщения: 11.06.2014 23:22
hogu77

Цитата:
но мне удобнее сначала поворачивать страницы)

каждый ... как он хочет)) я на 100% с этим согласен! а в данном случае если "сначала" будет до распознания, то результат сразу будет нужный, без последующего геморроя..

Цитата:
надеюсь вы со мной согласитесь, глазами лучше воспринимается так

типа "это Г лучше того Г" - для меня все Г неприемлемо.. делать надо или хорошо, или никак..

Цитата:
В подавляющем большинстве случаев...

в примере повернуты 2 станицы, и обе - в разные стороны..
ладно, заканчиваю флудить.. то, что я хотел сказать по этому поводу, в принципе, я уже сказал в предыдущем посте..

Bu
никогда этим не занимался.. м.б. djvumake?

Добавлено:
хотя, djvumake вроде для одностраничных документов..
Автор: amaid
Дата сообщения: 13.06.2014 07:17
вот еще такая чушь встречается
http://rghost.ru/56346663
для крутча сгодится?
Автор: NME
Дата сообщения: 13.06.2014 10:25
amaid
нет, это творение ФР11 версии ниже 11.0.102.583.. в файле нет информации о координатах слов, поэтому - только перераспознавать..
Автор: amaid
Дата сообщения: 13.06.2014 12:49
глядя на эволюцию OCR в разных версиях файна, не покидает чувство, что на каком-то этапе в ABBYY проникли диверсанты или как минимум вредители
Автор: hogu77
Дата сообщения: 13.06.2014 23:31
NME

Цитата:
в примере повернуты 2 станицы, и обе - в разные стороны..  

Точнее не страницы, а текстовый слой. Это я куролесил в Document Express Editor 6.5, можно было и без этих извращений, так как после перевёртыша из под FR12 возвращать настоящее местоположение надо OCR а не странице как таковой. Всё равно же нам из abbyy нужен только текст. А это и с v.0.3 делаться, так что, извиняюсь за поспешность в выводе.

amaid

Цитата:
глядя на эволюцию OCR в разных версиях файна, не покидает чувство, что на каком-то этапе в ABBYY проникли диверсанты или как минимум вредители

Можно даже точно определить время проникновения - с 9-ой версии.
Автор: Dracula
Дата сообщения: 19.06.2014 18:02
Подскажите, как выровнять оглавление, когда оно поделено на 2 части на 1 странице - по типу на 2 столбца поделено.
NME
Вы в видео хорошо показали когда оглавление скажем так с одним столбцом на всю страницу, а как быть с двумя? Я открываю в djview.exe и не знаю что именно там взять ведь там 2 значения уже будут вместо одного - типа левая и правая колонка внизу посмотреть значение и вписать его в DjVu Annotation Editor 0.2 в поле "Выровнять".
Привожу пример такого оглавления. Подскажите:
http://rghost.ru/56468788
Автор: NME
Дата сообщения: 19.06.2014 19:25
Dracula
для выравнивания таких оглавлений есть крыжик "Область".. выравнивание производится для каждого столбца отдельно..
если оглавление двухстолбцовое и каждый столбец находится на своей половине (как в примере), то выбираем сначала область "Лев.", выбираем страницу "На стр.", и дальше действуем как в видеомануале..
если деление столбцов не посередине - указываем редактируемую область вручную "Ручн."..
если оглавление на нескольких страницах - рекомендуется сначала обработать все левые столбцы, а затем все правые - так править меньше придется..
кстати, только сейчас заметил - если при изменении оглавления книга открыта в DjView, то через какое-то небольшое время страница самообновляется - некое подобие WYSIWYG'а))
Автор: Bu
Дата сообщения: 20.06.2014 04:59
Написал батник для пакетной обработки:

Код: Djvu файлы из FR должны быть помещены в папку OCR.
Оригинальные djvu файлы (с теми же именами) должны
быть помещены в папку OUT.
В итоге должна получиться структура:
    /OCR/Book.djvu
    /OUT/Book.djvu
    /fr11DTLcrutch03.exe
    /ocr.bat
Автор: NME
Дата сообщения: 21.06.2014 23:13

Цитата:
проще, наверное, для этого дела отдельную утилитку сделать ... с возможностью ручного поворота и сдвига текста..

в шапке..
Автор: NME
Дата сообщения: 22.06.2014 12:44
при использовании DjVu Text Mover'а надо понимать, куда выполнять поворот и где должна оказаться точка с нулевыми координатами (левая нижняя точка)..
в приведенном выше примере можно повернуть текст на нужных страницах относительно центра, а потом долго и упорно подгонять его местоположение сдвигом..
или понять, что после переноса текста на стр. 14 нулевая точка должна оказаться в правом нижнем углу, а на стр. 16 - в левом верхнем.. тогда, выполнив нужные действия (стр.14 - поворот на 90 против часовой + сдвиг по горизонтали на величину ширины страницы 3357, а на стр.16 - на 90 по часовой + сдвиг по вертикали на высоту страницы 4700) мы получим нужный результат..
Автор: Dracula
Дата сообщения: 22.06.2014 16:26
NME
Спасибо огромное - очень помогло - так ровненько всё вышло, что приятно глянуть, если бы не Ваши проги не знаю чтобы и делал я - было бы всё вкривь и вкось.
Автор: Songs0fFailure
Дата сообщения: 12.08.2014 19:37

Цитата:
• визивиг-редактор текстового слоя..

Нашел тут интересное, WebDjVuTextEd - http://sourceforge.net/projects/webdjvutexted/
Посмотреть тут можно - http://www.djvu.hu/editor/

А ещё тут проблема возникла с аннотациями с ссылками для предметного указателя, пробовал contentm от monday2000, DjVu Hyperlinks Editor, DjVu Annotations Editor, но что-то ничем не помогли они. =\
А хотелось бы просто взять координаты всех line на нужной странице и сделать аннотации.
Автор: NME
Дата сообщения: 14.08.2014 20:02
Songs0fFailure
Hyperlinks Editor под это заточен..
возможные проблемы - неправильное использование, кривой ocr.. исходного материала я не вижу..

Цитата:
WebDjVuTextEd

идея хорошая, но использование (судя по описанию) требует много дополнительных действий - извлечение текста в xml, графики в png, закачка всего этого в сеть, обратно текст вставить и др.. да еще и djvutoxml крайне глючная программулина была, когда я ее тестировал (м.б. уже исправили баги, но осадок остался)..
лично я бы только по крайней нужде стал данной программой пользоваться..
Автор: Amundsen
Дата сообщения: 01.09.2014 13:05
Народ, чем можно сконвертировать этот идиотский djvu в PDF с сохранением OCR слоя? Пока нашел только DjvuToy, растр он конвертирует просто отлично, но текст почему-то не хочет.
Автор: NME
Дата сообщения: 01.09.2014 14:31
Amundsen
не в теме.. м.б. здесь http://forum.ru-board.com/topic.cgi?forum=93&topic=3514#1 кто-нибудь знает..
Автор: amaid
Дата сообщения: 23.09.2014 07:32
дружище NME, новый файн выдает такую вот бяку:
___
пассивен. Он бессилен в изменении мира. Мудрость и зна¬
ние служат ему только для того, чтобы следовать есте¬
ственному процессу изменения вещей. Иное их применение,
по мнению мудреца, приносит только один вред, ибо суще¬
----
Понимаю, что тебе надоело бороться с изобретателями велосипедов из abbyy, но, может, в последний разок?

Добавлено:
http://rghost.ru/58158066
пациент для опытов (сделан, видимо, в файне 12.0.101.xxx)
Автор: NME
Дата сообщения: 23.09.2014 08:48
amaid
а что за бяка? "¬"? так крач и сделан для борьбы с такими переносами..
---------
пассивен. Он бессилен в изменении мира. Мудрость и знание служат ему только для того, чтобы следовать естественному процессу изменения вещей. Иное их применение, по мнению мудреца, приносит только один вред, ибо существующий
Автор: amaid
Дата сообщения: 23.09.2014 11:11
блин, действительно, сегодня всё исправилось.
вчера несколько таких файлов скормил - ни один не исправился (галку на "дефисы" ставил)
думал, новый файн виноват. Сорри
Автор: NME
Дата сообщения: 23.09.2014 13:02
amaid

Цитата:
галку на "дефисы" ставил

галка влияет только на такие дефисы "-",
а такие "¬" обрабатываются всегда (за исключением "копирования без изменений")
Автор: NME
Дата сообщения: 29.09.2014 11:15
сделал программку DjVu Title Maker для внедрения заголовков в djvu-книгу.. ссылка и описание в шапке..
Автор: amaid
Дата сообщения: 04.10.2014 06:55
NME, опять надоедаю, но в некоторых файлах кратч ¬ все-таки не обрабатывает
https://yadi.sk/d/PF3nF1vwbomur
Автор: amaid
Дата сообщения: 04.10.2014 17:01
блин, а есть еще такие вот файлики, тоже не исправляются
¬
 в конце строки
https://yadi.sk/d/BZ_J2oNkbpD8E

Страницы: 123456789

Предыдущая тема: дубль


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.