» Утилиты для DjVu: FR11 DTL Crutch, DjVu Anno Editor и др.

Автор: NME
Дата сообщения: 05.10.2014 09:38

amaid
болезни известные.. первая называется "я после файнридера уже правил текстовый слой с помощью djvused'а", вторая - "я юзаю файнридер 11 билда ниже 583".. обе лечатся перераспознанием..

Автор: NME
Дата сообщения: 07.10.2014 13:15

добавил в Chunk Remover возможность быстрого удаления произвольного диапазона страниц.. заодно англ. фейс прикрутил, перевод - в основном машинный.. версия 04 в шапке..

Добавлено:
да, еще и имя сохраняемого файла теперь можно указывать..

Автор: amaid
Дата сообщения: 07.10.2014 16:27

может, на досуге, прикрутишь еще возможность удаления страниц без текстового слоя

Автор: NME
Дата сообщения: 08.10.2014 08:06

amaid

Цитата:

возможность удаления страниц без текстового слоя

а какой в этом практический смысл?

Автор: amaid
Дата сообщения: 08.10.2014 16:15

если это хлопотно, то фиг с ним
смысл - ну, например, при перераспознании тех самых доков, которые кратч не хавает, DjvuSmall пропускает пустые страницы (а иногда виснет), потом OCR криво накладывается, приходится искать в доке пустые страницы и удалять вручную; иногда бывает нужно удалить тяжелые картинки, чтобы файл не тормозил и т.д.
Добавлено:
сейчас мне приходится КАЖДЫЙ чужой документ по окончании добавления OCR проверять на последней странице - совпало или нет. Потому что в нем могла быть пустая страница, пропущенная DjvuSmall

Автор: NME
Дата сообщения: 09.10.2014 09:24

amaid
видимо, с момента первого поста в этом топике ничего не изменилось..
для меня лично загадка, до какой степени нужно быть приверженцем DjvuSmall'а, чтобы использовать его недоделанную функцию извлечения графики, в то время как других простейших способов - целый вагон, не говоря о том, что фр уже давно djvu целиком хавает.. и именно для этого приходится портить книги.. это как рисовать карандашом на библиотечной книге - вроде и информация не потерялась, в то же время для следующего читателя это создает некоторые неудобства.. и нарушение комфортной навигации по эл. книге - это тоже дополнительное неудобство.. да, пометки можно стереть, а страницы вставить, но для этого нужен соответствующий инструмент и время.. кстати, на днях таки должен доделать DjVuCleanPageInserter, чтобы была возможность удобного восстановления того, что удалили или недосканировали отдельные граждане.. там осталось только сделать автоматическую вставку страниц в книги с заголовками страниц (title), если какие-то номера пропущены..
в общем, если хочешь продолжать юзать DjvuSmall - пожалуйста, мне все равно.. только я в этом смаллоизвращлечении участие принципиально принимать не буду..

Автор: amaid
Дата сообщения: 09.10.2014 10:13

понял, понял, не трать так много букаф

пока DjvuSmall не имеет равных по удобству и широте настроек компиляции/декомпиляции djvu, придется пользоваться им (если знаешь что-то поудобнее - подскажи)
что касается файна, то, начиная с 10 версии, OCR стал хуже, поэтому те, кто пользуется новыми файнами для создания djvu РЕАЛЬНО УХУДШАЮТ КАЧЕСТВО книг ради маленького комфорта для себя лично. Предпочитаю мучиться с DjvuSmall и восьмым файном, и другим советую. Говнокниг в сети хватает, не стоит приумножать их количество.

Автор: NME
Дата сообщения: 09.10.2014 11:35

amaid
про компиляцию речи не ведется, а экспортировать можно в том же WinDjView Extended - чем не устраивает?
по поводу качества распознания - вопрос холиварный.. в каких-то случаях 8ка лучше справляется, в каких-то новые версии, где-то одинаково.. возможно, в большем проценте случаев 8ка лучше распознает, я не знаю, не спорю и ничего не имею против 8ки.. я лишь против удаления страниц из книги.. и, если DjvuSmall подразумевает удаление пустых страниц из книги, то фтопку этот DjvuSmall (исключительно при экспорте в графику)..

Автор: amaid
Дата сообщения: 09.10.2014 15:20

в DjvuSmall просто удобнее декодировать - в один клик (отдельная папка для изображений создается в заданном месте автоматически)
случаи, когда новые файны справлялись лучше версий 8-9, за долгую практику НИ РАЗУ не обнаружены, зато выявлена закономерность: чем хуже скан и чем больше языков в тексте, тем огромнее разница в качестве OCR. Не надо холиварных песен, дружище - проверь сначала на любом паршивом djvu, не поленись. Если найдешь хоть один файл, с которым новый файн справился лучше, публично покаюсь в ошибках.

Добавлено:
дрожать за пустые странички, но при этом не желать разобраться с OCR - вот это я бы назвал извращением

Автор: NME
Дата сообщения: 09.10.2014 22:38

amaid
в рамках работы над программой HeadWorder в качестве рабочего материала использовал какой-то словарь или энциклопедию, где распозание было препоганейшего качества.. завтра постараюсь потестировать ее на новых билдах..
с качеством ocr файридера пусть разбираются те, кто делает ocr-слой в книгах, я этим не занимаюсь, у меня других дел хватает.. а если надо будет заняться - то обязательно разберусь, можешь не сомневаться.. а пока что качество распознания в фр11 и 12 тех немногочисленных документов, что мне на работе приходится переводить для себя из сканов в текст, меня более чем устраивает..

Автор: NME
Дата сообщения: 10.10.2014 10:33

в общем, на тестируемой книге 12 показала еще более удручающие результаты.. сравниваемыми словами были заглавные слова с ударениями.. основные ошибки - Ё вместо Е и Й вместо Й.. у 8ки тоже таких ошибок полно, но гораздо меньше 12.. такое ощущение, что словарь на заглавных словах отключался - СИСТЁМА, УСИЛЁНИЯ, РЕЗЁРВА.. без дополнительного обучения 8ка справилась лучше..
но это был отдельный вопрос, никак не влияющий на мое мнение, что ложку овна в виде удаления страниц в бочку меда класть не нужно..

Автор: amaid
Дата сообщения: 10.10.2014 11:24

попробуй 9ку, она лучше всех распознает буквы (но иногда крупно косячит с форматированием)
жаль, что нет нормального способа внедрять OCR от 9ки в djvu...

Автор: NME
Дата сообщения: 10.10.2014 15:11

в моем примере 1 слово из прибл. 200 девятка хуже восьмерки распознала АКСЕЛЕРОГРАФ АКСЕЛЕРОТРАФ, в остальном полное совпадение, включая ошибки..

Автор: NME
Дата сообщения: 10.10.2014 23:12

amaid

Цитата:

жаль, что нет нормального способа внедрять OCR от 9ки в djvu...

на самом деле способ есть.. что такое DjVuOCR? это оболочка для frfgrab.. a frfgrab вроде как справляется с девяткой до определенного билда.. так что надо всего лишь сделать новую оболочку, правильно определяющую номер страницы.. не хочешь заняться?

Автор: amaid
Дата сообщения: 11.10.2014 08:03

"многоделание - худшее из зол" (Платон)

занимались эксперты, не мне чета - всё без толку

Автор: antobog
Дата сообщения: 09.11.2014 18:45

NME
А как сделать экспорт всех страниц документа в Вашей версии WinDjView extended? Вручную выделять все страницы? Ctrl+A не срабатывает

Автор: NME
Дата сообщения: 09.11.2014 20:53

antobog

Цитата:

* Экспортировать все страницы можно из меню "Файл", меню настроек миниатюр (thumbnails), а также из меню, всплывающем по клику ПКМ по миниатюре/полю миниатюр..

Автор: antobog
Дата сообщения: 10.11.2014 09:04

Цитата:

Экспортировать все страницы можно из меню "Файл"

Не вижу этой опции

Цитата:

меню настроек миниатюр (thumbnails), а также из меню, всплывающем по клику ПКМ по миниатюре/полю миниатюр

Нажимаю меню настроек миниатюр и вижу опцию "экспорт страниц". Если ее нажать, то появляется диалоговое окно, в котором мне предлагают сохранить только одну а не все страницы сразу. Если кликнуть ПКМ по миниатюре, то происходит то же самое - одну страницу я могу экспортировать без проблем, но какой командой это можно сделать сразу со всеми страницами я не понимаю.

Автор: NME
Дата сообщения: 10.11.2014 11:42

Это не Extended..
как экспортировать все страницы в оригинальной версии программы написано в шапке соответствующей темы..
ну, или таки открыть Extended-версию программы..

Автор: antobog
Дата сообщения: 10.11.2014 12:02

NME Вообще-то я точно скачал и запустил именно extended версию по ссылке из шапки этой темы (перешел по ссылке от слова "осилил" в профильную ветку форума и оттуда скачал). Посмотрите, я скачивал отсюда:

Добавлено:
NME
Если это не extended, то не могли бы Вы мне дать ссылку, по которой я смогу всё-таки её скачать. Был бы Вам весьма признателен.

Автор: NME
Дата сообщения: 10.11.2014 13:53

antobog
ссылка-то правильная, только чтобы по-умолчанию все djvu-документы открывались в данной версии (при двойном клике на них), нужно сделать перерегистрацию - открыть программу (запустить ехе-файл, в заголовке программы будет WinDjView Extended), меню Файл -> Настройки -> Дополнительно -> Регистрация.. иначе по-умолчанию документы будут открываться в старой версии..

Автор: antobog
Дата сообщения: 10.11.2014 18:20

NME
Спасибо, теперь разобрался! Еще вопрос - где можно почитать мануал по Вашим дополнениям, присутствующим в WinDjView Extended? В частности меня интересует такой вопрос: что такое сеанс?
P.S. Нашел и прочитал Вашу инструкцию по внедрению в djvu документ OCR слоя, полученного через FR 11. А с FR 12 это не получится сделать?

Автор: NME
Дата сообщения: 10.11.2014 21:43

antobog

Цитата:

мануал по Вашим дополнениям

наиболее полная информация изложена здесь , а также кое-какие комментарии есть в топике по WinDjView..

Цитата:

что такое сеанс?

вопросы по сеансам (или сессиям) также поднимались в топике WinDjView.. в двух словах - это ссылки на открытые в текущий момент книги - при необходимости открытия в дальнейшем данной подборки, можно сохранить и впоследствии открыть данную сессию, чтоб не выискивать и открывать эти книги по одной..

Цитата:

А с FR 12 это не получится сделать?

внимательно читаем шапку..

Автор: RuzzzStudios
Дата сообщения: 12.11.2014 00:39

Есть ли инструмент для изменения мета-данных?

Автор: NME
Дата сообщения: 12.11.2014 11:17

RuzzzStudios
есть djvused из DjVuLibre.. других не встречал (хотя особо и не искал)..

Автор: RuzzzStudios
Дата сообщения: 14.11.2014 22:46

NME
нашел еще exiftool
может кто подскажет где почитать инфу об официальном формате мета-данных для всего документа (автор, название и т.д.)

Автор: NME
Дата сообщения: 17.11.2014 09:05

RuzzzStudios
официального формата, как я понимаю, не существует.. рекомендуется использовать форматы BibTex или PDF DocInfo..
[more=Подробнее]4- METADATA

4.1- DJVULIBRE METADATA

DjVuLibre has introduced metadata annotations a few years ago.
Metadata entries for each page are represent by key/value pairs
located in a metadata directive in the annotation chunk.
Metadata entries for the document are represented similarly
using the methods described in the next section.

The metadata directive has the form

(metadata ... (key "value") ... )

Each entry is identified by a symbol <key>
representing the nature of the metadata entry.
The string <"value"> represents
the value associated with the corresponding key.

Several sets of keys are noteworthy.

* Keys borrowed from the BibTex bibliography system.
These key names are always expressed
in lowercase, such as 'year', 'booktitle', 'editor',
'author', etc.

* Keys borrowed from the PDF DocInfo.
These key names start with an uppercase letter:
'Title', 'Author', 'Subject', 'Keywords', 'Creator',
'Producer', 'Trapped', 'CreationDate', and 'ModDate'.
The values associated with the last two keys
should be dates expressed according to RFC 3339.

4.2- XMP METADATA

The XMP specification describes a general purpose RDF/XML format for
metadata. Just like DjVuLibre metadata, XMP metadata is embedded in
an annotation chunk at the page or document level using the following
annotation directive

(xmp "<rdf:RDF xmlns:rdf=... [escaped XMP here] ...</rdf:RDF>")

The sole argument of the xmp directive is the serialized XMP data
without the "xpacket" wrapper. The "x:xmpmeta" element may also be
dropped. Only elements from "rdf:RDF" inwards are needed.
Since the XMP data is represented as a string, doublequotes and
backslashes must be escaped. Other characters may be escaped as well
(see section 2 above).

The full XMP specification is available from Adobe:

http://www.adobe.com/devnet/xmp/

To maximize interoperability with current viewers, it is recommended
that XMP manipulation programs keep the DjVuLibre metadata in sync.
This is facilitated by synchronizing the PDF DocInfo keys with XMP
properties as follows:

DocInfo key XMP property
------------ ---------------
Title dc:title
Author dc:creator
Subject dc:description
Keywords pdf:Keywords
Producer pdf:Producer
Trapped pdf:Trapped
Creator xmp:CreatorTool
CreationDate xmp:CreateDate
ModDate xmp:ModifyDate

4.3- DOCUMENT ANNOTATIONS AND METADATA

The above schemes provide ways to specify metadata for each page.
But it is often useful to provide metadata that applies to the whole
document. Document wide metadata are represented using one or
several metadata directives in the shared annotations chunk.

This scheme has a potential drawback. Since the shared annotations
is included by all pages, the document wide metadata also appears as
page metadata for all pages. This might not be adequate for some
uses. As a workaround, the djview4 viewer only displays
page metadata that differ from the document metadata.
A more definitive answer would be the definition of a document
annotation chunk located after the DIRM chunk and before any
component file. This space is already used by the NAVM chunk.
This is being considered.

[/more]
имхо мало впихнуть метаданные в файл, нужно чтоб и софт их понимал..

Автор: NME
Дата сообщения: 17.11.2014 11:05

на сайте у monday2000 также есть кое-какая инфа по метаданным Ссылка

Автор: amaid
Дата сообщения: 16.01.2015 19:20

люди грамотные, подскажите, можно ли в блокноте заменить "¬" на "-" в извлеченном из djvu текстовом слое?

Автор: LonerDergunov
Дата сообщения: 16.01.2015 21:47

Цитата:

можно ли в блокноте заменить "¬" на "-" в извлеченном из djvu текстовом слое?

А почему может быть нельзя? Функция замены в любом блокноте есть функция замены.

Страницы: 1 2 3 4 5 6 7 8 9

Предыдущая тема: дубль

Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.