Ru-Board.club
← Вернуться в раздел «Программы»

» Утилиты для DjVu: FR11 DTL Crutch, DjVu Anno Editor и др.

Автор: amaid
Дата сообщения: 17.01.2015 07:16
потому что там цифры вместо "¬" и "-"
Автор: hogu77
Дата сообщения: 17.01.2015 15:52
amaid
Вы в чём правите? Если надо слить слова, между кусками которых находиться мягкий перенос то я использую регулярные выражения, а просто заменить один символ на другой, и правда, можно в каждом текстовом редакторе.

P.S. Покажите кусок текста, если возможно.
Автор: rooleg
Дата сообщения: 17.01.2015 17:17
последняя версия проги стабильно работает? не глюкавая?
никто ничего случайно не заметел?
Автор: amaid
Дата сообщения: 17.01.2015 22:42
hogu77
взгляните внутрь и вы поймёте, что дело обстоит не так просто
https://yadi.sk/d/Dbg8Mdkye36J8
djvu и вытянутый из него текст
Автор: hogu77
Дата сообщения: 18.01.2015 19:23
amaid

Цитата:
люди грамотные, подскажите, можно ли в блокноте заменить "¬" на "-" в извлеченном из djvu текстовом слое?


Цитата:
взгляните внутрь и вы поймёте, что дело обстоит не так просто


http://rghost.ru/60425445
Я вас правильно понял?
Автор: amaid
Дата сообщения: 18.01.2015 22:52
вопрос только в том, удастся ли после таких конвертаций внедрить полученный текст в djvu.
как-то я сомневаюсь
и еще вопрос: откуда взялся файл _original?
Автор: hogu77
Дата сообщения: 19.01.2015 07:19
amaid

Цитата:
<...> откуда взялся файл _original?

Файл - экспорт текста; в WinDjView Extendet. Обычный текстовый слой.

Цитата:
вопрос только в том, удастся ли после таких конвертаций внедрить полученный текст в djvu. как-то я сомневаюсь

Не удастся, я думал вы текст для "читалки" готовите.
Автор: NME
Дата сообщения: 20.01.2015 09:13
amaid

Цитата:
потому что там цифры вместо "¬" и "-"

1) цифры только вместо "¬"..
это насколько я помню восьмеричное представление utf8 символов.. символ "¬" = 0хАС = /254.. т.о. замена /254" на -" подойдет.. обращаю внимание, что после /254 и - при замене надо ставить кавычку, иначе испортятся символы мягкого знака, записываемые как D0 AC = /320/254..
здесь символ "¬" представлен двумя байтами С2 АС, соответственно менять надо /302/254 на -..
2) чтобы отображались нормальные символы, а не цифры, давно уже предусмотрен ключик "-u" в новых djvused.. предполагаю, что для извлечения скорее всего используется djvuocr, но в нем использование данного ключа не предусмотрено..
3) текстовый слой данной книги сделан в фр<11.0.102.583 - деление только построчное - в топку.. имхо либо перераспознать (рекомендуется), либо вообще удалить..
Автор: amaid
Дата сообщения: 20.01.2015 13:08
спасибо за разъяснения!
обычно я такие файлы перераспознаю, но тут целая серия, десятки книжек - подумал, может, удастся как-то исхитриться.
Автор: amaid
Дата сообщения: 20.01.2015 15:30
повозился - замена работает, но... в общем, придется перераспознавать
Автор: NME
Дата сообщения: 23.01.2015 15:47

Цитата:
NME 10:24 09-10-2014
кстати, на днях таки должен доделать DjVuCleanPageInserter, чтобы была возможность удобного восстановления того, что удалили или недосканировали отдельные граждане.. там осталось только сделать автоматическую вставку страниц в книги с заголовками страниц (title), если какие-то номера пропущены..

пришлось подзабить на несколько месяцев, но таки доделал..
[more=Описание]DjVu Clean Page Inserter v0.1

НАЗНАЧЕНИЕ
программа предназначена для быстрого создания и внедрения в книгу пустых страниц (ПС).. позволяет создавать страницу с произвольными размерами и DPI или использовать параметры уже существующей страницы.. при наличии числовых заголовков (title) с пропущенными страницами возможна автоматическая вставка недостающих страниц.. Есть поддержка Drag & Drop и ком. строки..


СИСТЕМНЫЕ ТРЕБОВАНИЯ
Windows XP+
.NET Framework 2.0


ПАРАМЕТРЫ КОМАНДНОЙ СТРОКИ
общий формат команды (в квадратных скобках - необязательные части):
имя_программы имя_исходного_файла_djvu [-s имя_сохраняемого_файла_djvu или суффикс] [-p номер_страниц(ы), после которой вставляется ПС, и шаблон] [-auto шаблон]

примечания:

1) имя редактируемого файла необходимо записывать сразу после названия программы.. расположение остальных блоков - произвольное

2) если необходимо вставить ПС после нескольких разных страниц, то они записываются через запятую (без пробелов)

3) если необходимо вставить несколько ПС в одно место, то номер страницы, после которой происходит вставка, записывается несколько раз (через запятую)

4) если ПС необходимо вставить в начало файла, то в качестве предыдущей страницы указывается число 0

5) в качестве шаблона может быть:
а) указание на конкретную страницу - записывается номер страницы-шаблона
б) смещение на определенное количество страниц, относительно вставляемой - записывается в формате +n или -n, где n является числом.. если данная страница отсутствует в файле (например +2 для предпоследней страницы), то программа меняет знак смещения, если и этого недостаточно, то уменьшает значение смещения
в) среднее значение ширины, высоты и DPI между двумя соседними страницами - записывается в виде +-
г) конкретное указание значений ширины, высоты и DPI, записываемыми через запятую (без пробелов)
д) конкретное указание значений ширины и высоты, а для DPI указывается страница-шаблон в формате +n, -n или +-

6) параметр "-auto" может быть применен только при следующих условиях:
а) все страницы имеют заголовки
б) некоторые (или все) заголовки должны быть записаны арабскими цифрами
в) в последовательности данных заголовков некоторые числа должны быть пропущены (на их место будут вставлены пустые страницы)
г) количество подряд пропущенных страниц не должно превышать 2.. при необходимости вставить большее количество ПС подряд нужно использовать параметр "-p" с указанием страниц вручную

7) при использовании параметра "-auto" на вставляемых ПС также автоматически устанавливаются заголовки

8) использование либо "-p", либо "-auto" - обязательно

9) одновременное использование "-p" и "-auto" недопустимо

10) параметр "-p" допускается использовать несколько раз в одной команде (при указании разных шаблонов для разных страниц), параметр "-auto" - только один раз

11) если параметр "-s" не указан, то имя сохраняемого файла будет складываться из имени исходного файла и суффикса "_1"

12) для указания произвольного суффикса после "-s" вместо имени сохраняемого файла необходимо слитно написать знак плюс "+" и произвольный суффикс, например, "+_нов"

13) для сохранения файла под тем же именем после "-s" необходимо записать имя исходного файла

пример 1:
DjVuCleanPageInserter.exe "d:\temp\мой файл.djvu" -p 5,10,22 +2
создается файл "мой файл_1.djvu", в который после страниц 5, 10 и 22 вставлены пустые страницы, шаблонами для которых служили 5+2=7, 10+2=12 и 22+2=24

пример 2:
DjVuCleanPageInserter.exe myfile.djvu -s +_new -auto +-
при наличии рядом с программой файла "myfile.djvu", соответствующего ограничениям п.6 (например, в файле 10 страниц с заголовками I, II, III, IV, 1, 2, 3, 5, 7, 8) создается файл "myfile_new.djvu", в который после страниц 7 (с заголовком 3) и 8 (с заголовком 5) будут вставлены 2 ПС с заголовками 4 и 6.. размеры этих страниц будут равны среднеарифметическому значению размеров соседних страниц

пример 3:
DjVuCleanPageInserter.exe "d:\temp\мой файл.djvu" -s "d:\temp\мой файл.djvu" -p 0,0,0 5 -p 4 -2
в файл "мой файл.djvu" в начало документа будут вставлены три пустых страницы с размерами, соответствующими странице 5, а также ПС после страницы 4 с размерами, равными размерам страницы 3

ОПИСАНИЕ ИНТЕРФЕЙСА

Открыть
Сохранить
RU/EN - переключение интерфейса на русский/английский язык

----------
Вставить после страниц(ы) - номера страниц, после которых необходимо вставить ПС.. допускается вместо номеров страниц написать auto - ограничения на использования данного параметра приведены в п.6 описания параметров ком. строки
Страница-шаблон - формат записи приведен в п.5 описания параметров ком. строки.. значение "(-1+1)/2" из выпадающего списка аналогично значению "+-" из ком. строки
Другой размер: Ширина, Высота, DPI - ширина и высота записываются в абсолютных значениях, DPI - может записываться в абсолютных (простое число), либо дается ссылка на страницу-шаблон в формате +n, -n или +-
- - удалить текущую строку..
+ - добавить строку после текущей..

----------
Статусбар - адрес эл. почты

[/more]
Скачать
Автор: NME
Дата сообщения: 24.03.2015 13:50
Доработал (вернее, полностью переделал) утилиту TurnTheText, актуальная версия 1.0..
Основное отличие - полностью автоматическое определение необходимого направления и угла поворота текстового слоя.. Также теперь отсутствует необходимость использования сторонних утилит DjVuToy и djvused, программа берет всю необходимую информацию из слоя Sjbz.. Ну и еще некоторые изменения, полное описание есть в шапке..
В общем, программа получилась именно такой, какой я ее изначально задумывал, но не мог ранее реализовать - удобная, простая, практически "однокнопочная")).. Тем, кто пользуется старой версией, советую обновиться..
Автор: AlexeiKozlov
Дата сообщения: 03.07.2015 00:43
подскажите, вот есть djvu +ocr слой.
хочу выдернуть текст + сохранение параграфов как самое оптимальное.
причина в том, что сканированный текст не удобно читать, плохие начертания букв.
Автор: GF777
Дата сообщения: 03.07.2015 07:52
AlexeiKozlov

DjvuToy. Раздел "Hidden text".
Правда с сохранением параграфов придётся повозиться.
Автор: AlexeiKozlov
Дата сообщения: 03.07.2015 09:50
ну да утилитка чисто тех ническая.

тогда finereader все и так умеет делать.
я запустил этот djvu в нем, он все распознал как и в этом ocr слое, думаю он его и считал. также он сохранил форматирование.
сейчас тогда пробегу исправлю ошибки ocr слоя и все с этим делом.

Автор: daa2013
Дата сообщения: 25.07.2015 06:06
А можно ли в DjVu Annotations Editor
добавить такое.
Чтобы он ссылки на страницы N с определенным дипазоном номеров заменял на N+x

Объясняю.
есть джву такой структуры страницы с нумерацией, вставка, нумерауия, вставка, нумерация. И когда делаются гиперлинки смещение надо делать несколько раз. на разное число страниц в этих вставках. А в имеющихся прогах везде только один.

То есть грубо говоря после гиперлинк эдитора нужно так
Если ссылка ведет на страницы с 800 п 900 заменить её на 800+x ... 900+x
Автор: ptichkaXFC
Дата сообщения: 26.07.2015 22:44
Попробовал FR11 DjVu Text Layer Crutch v0.3. Прога нужная, но имеется недостаток - она добавляет дополнительные пробелы перед/после знаков препинания. Может это я что-то не так делаю?
Автор: NME
Дата сообщения: 26.07.2015 23:17
daa2013

Цитата:
А можно ли в DjVu Annotations Editor   добавить такое.


не хочется мне трогать эту программу.. она очень старая - это вообще моя первая публичная утилита.. если что-то начать там переделывать, то по-хорошему переписывать её надо целиком..

а для решения поставленной задачи можно написать простейшую программку, которая в извлеченном djvused'ом текстовом файле поменяет одну цифру на другую.. вопрос в том, насколько это нужно, и, может быть, проще потратить 10-20 минут и вручную поменять все эти страницы, чем тратить 30-60 минут на написание программы?

Добавлено:
ptichkaXFC
нужны примеры исходного файла и неудовлетворительного результата..
Автор: ptichkaXFC
Дата сообщения: 26.07.2015 23:42
Исходный текст:
Стр. 473. …я невольно вспомнил Эзопову корзину с хлебом… — Сущест¬
вует предание, что раб Эзоп, легендарный древнегреческий баснописец, от¬
правляясь в дорогу вместе с другими рабами, предпочел взвалить себе
на плечи тяжелый груз — большую корзину с хлебом. Зато к месту на¬
значения он пришел с пустой корзиной, тогда как у остальных поклажа
осталась прежней.
Исправленный:
Стр. 473. …я невольно вспомнил Эзопову корзину с хлебом… — Существует предание, что раб Эзоп, легендарный древнегреческий баснописец, отправляясь в дорогу вместе с другими рабами, предпочел взвалить себе на плечи тяжелый груз — большую корзину с хлебом. Зато к месту назначения он пришел с пустой корзиной, тогда как у остальных поклажа осталась прежней.

Лишние пробелы появляются практически на каждой странице в 1-2 местах.
Автор: ptichkaXFC
Дата сообщения: 27.07.2015 11:44
Создал новый файл только из двух страниц - проблема исчезла, доп. пробелы отсутствуют. Ранее я обрабатывал файл из 600 страниц. Имеется ограничение по объему файла? Что посоветуете?
Автор: NME
Дата сообщения: 27.07.2015 12:55
ptichkaXFC
чтобы понять природу появления лишнего пробела нужна исходная книга в формате djvu с текстовым слоем из-под файнридера (без внешних вмешательств другими программами).. можно в личку..
каких-либо специальных ограничений в моей утилите нет, м.б. в ФР есть - я не знаю..
Автор: RuzzzStudios
Дата сообщения: 08.09.2015 21:19
Есть ли инструмент для удобного изменения мета-данных из Windows Explorer?
Автор: RuzzzStudios
Дата сообщения: 09.09.2015 04:54
Мля мне по PDF нужно, для DJVU есть такая штука как Cuminas DjVu Shell Ext, а именно Cuminas DjVu Shell Extension Pack у них на сайте называется. Позволяет в проводнике не только preview документа но и редактировать мета-данные. Возможно толко для Vista и более, так как использует встроенный механизм.
Автор: AKazak
Дата сообщения: 21.10.2015 06:03
Здравствуйте.

Подскажите, пожалуйста, как можно объединить все страницы документа с OCR слоем в один DJVU-документ, которые даны в таком виде:


Сейчас я объединяю все странцины в один DJVU-документ (с помощью DjVuToy), но он не содержит OCR слой. Для распознавания я загружаю этот документ в FineReader, распознаю и сохраняю как DJVU с OCR-слоем.

Есть ли какой-нибудь более продвинутый способ?

Спасибо.
Автор: NME
Дата сообщения: 21.10.2015 14:49
ну, понять что-то по скриншоту с названиями файлов - это как лечение по фотографии))
файлы нужны..
а вообще, кроме DjVuToy, другие способы объединения файлов существуют..
Автор: AKazak
Дата сообщения: 22.10.2015 17:11
NME
Посмотрите, пожалуйста, пример: https://dropmefiles.com/S307i
Автор: NME
Дата сообщения: 23.10.2015 10:43
AKazak
данные файлы djvu содержат только один слой маски, текстового слоя в них нет, так что не удивительно, что при объединении документа в многостраничный текст не появляется..
отдельно лежащие текстовые файлы не содержат информацию о координатах слов, так что внедрение их в djvu не имеет смысла, ибо полноценно воспользоваться поиском в таком документе не получится..
единственный выход - делать как сейчас, объединять страницы в документ и распознавать его..
обычно графика в djvu-файле после файнридера бывает хуже, чем в оригинальном djvu-файле, так что рекомендую перенести текстовый слой в начальный файл - легко это можно сделать, например, Crutch'ем..

а вообще, интересно, каким образом создавались данные djvu - версия файлов - 18.. в 3й спецификации djvu упоминается 20я версия, датированная 1999м годом, а самый древний общедоступный инструмент для создания djvu - DjVuSolo - вроде бы делает файлы 21й версии.. откуда такое старьё?)))
Автор: AKazak
Дата сообщения: 26.10.2015 06:46
NME
Откуда сея старина я не знаю. По невозможности внедрения текстового слоя в таком формате я понял.
По ухудшению качества в FR я озадачен. Сейчас я использую такие настройки сохранения в DJVU:

При таких настроек вроде бы изменения качества не должно быть. Или вы имеете ввиду то, что FR перед распознаванием растеризует каждую страницу и шарм DJVU теряется?
Посмотрите, пожалуйста.
Автор: NME
Дата сообщения: 26.10.2015 21:43
AKazak

Цитата:
Или вы имеете ввиду то, что FR перед распознаванием растеризует каждую страницу

я не особый знаток файнридера, но похоже на то..
нужно просто сравнить 2 файла - начальный и результат на предмет качества графики и размера файла (для более точного сравнения текстовый слой можно скопировать в исходный файл) и выбрать наиболее подходящий.. может быть файл из-под файна будет удовлетворять потребностям, тогда ничего делать не надо, но обычно качество фр бывает хуже оригинала..
Автор: NME
Дата сообщения: 08.11.2015 18:25
строили мы, строили и, наконец, построили..(ч)
мне таки удалось создать BG44-слой без использования сторонних утилит и программа для добавления новых элементов маски на имеющуюся djvu-станицу без её перекодирования может выйти в публику
[more=Описание]DjVu Blits Merger v0.1

НАЗНАЧЕНИЕ И ОПИСАНИЕ ПРОГРАММЫ
программа предназначена для добавления на страницы djvu-книги графических изображений (mask-слоя) из другого djvu-файла.. может применяться для добавления в книгу номеров страниц, колонтитулов, другой необходимой информации без перекодирования файла, а также для объединения графики с двух страниц, закодированных с разной степенью сжатия (например, aggressive и lossless)..
есть поддержка Drag & Drop (ком. строки пока нет, но будет)..

в реальности программа делает следующее - копирует блиты и соответствующие им шейпы из одной djvu-страницы в другую.. если в копируемой странице слой маски раскрашен (есть чанк FGbz), то на итоговой странице соответствующие блиты будут также раскрашены.. если раскраска выполнена другим чанком - FG44, то копируется только маска.. информация о цвете не будет скопирована также в том случае, если в реципиенте есть слой FG44 - цвет скопированных блитов будет определяться именно этим чанком..
так как страница djvu может быть либо пустая (только чанк INFO), либо иметь 1 слой - маски, либо 3 (маска Sjbz, цвет маски FGbz или FG44, задний фон BG44), то программа в требуемых случаях "докрашивает" неокрашенные блиты черным, а также создает белый задний фон..

программа позволяет вставлять скопированные с одной страницы блиты на одну, несколько или все страницы книги (например, при вставке колонтитула).. для этого выбираем вставляемый одностраничный файл и указываем куда нужно вставить.. также есть возможность вставить на разные страницы графику из разных одностраничных файлов (например, при вставке номеров страниц).. для этого вставляемым файлам присваиваем имена в соответствии с номером страницы (1.djvu, 005.djvu), в которую будем вставлять, кладем их в одну папку и указываем данную папку в соответствующем поле..

существующие требования и ограничения:
- основная djvu-книга должна быть многостраничной;
- вставляемые файлы - одностраничные, имеющие чанк маски - Sjbz;
- если одностраничные файлы используют словари символов Djbz, то они должны быть встроены в данные файлы (внешние словари не допускаются);
- привязка осуществляется к левому нижнему углу страницы (следует учитывать при разных размерах дающей и получающей графику страниц);
- не работает с экзотическими чанками Smmr, BGjp, FGjp и т.п.


СИСТЕМНЫЕ ТРЕБОВАНИЯ
Windows XP+
.NET Framework 2.0


ОПИСАНИЕ ИНТЕРФЕЙСА

Основной DjVu
Открыть - открываем файл, в который будет вставлена графика из файла(ов), указанных ниже
Сохранить - сохранить как.. файл с изменениями

----------
Вставляемый(ые) одностраничный(ые) DjVu
Открыть файл - открываем файл, графика из которого будет вставлена в основную djvu-книгу
Открыть файл - открываем папку с одностраничными файлами, графика из которых будет вставлена в основную djvu-книгу

----------
Область редактирования - область документа (страницы), на которые копируется графика
Весь документ
Страницы (отдельные - через запятую, диапазон - через тире.. пример:
"-4,7,10-12,55-" - редактирование страниц 1,2,3,4,7,10,11,12,55 и до конца документа)

----------
RU/EN - переключение интерфейса на русский/английский язык

----------
Статусбар - адрес эл. почты


ТУДУ
* поддержка ком. строки
* возможность вставки графики в одностраничный документ
* возможность вставки графики из многостраничного документа
* привязка вставляемой графики к разным углам или сторонам страниц
* возможность выбора разной привязки для четных/нечетных страниц
* доперевести диалоги

[/more]
изначально я планировал реализовать бОльший функционал, но процесс что-то подзатянулся и мне немного надоело.. так что выкладываю то, что есть - остальное есть в туду, при благоприятном стечении обстоятельств позже доделаю..
в планах также программа для удаления блитов, вмести они будут являться не имеющим аналогов редактором djvu-файлов - без проблем можно будет корректировать маску - убрать грязь, отредактировать что-то (убрать ненужное, вставить нужное) и т.п..
жаль только, что данные программы появляются сейчас, а не на пике популярности формата - лет 15-20 назад..

Страницы: 123456789

Предыдущая тема: дубль


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.