Ru-Board.club
← Вернуться в раздел «Программы»

» Утилиты для DjVu: FR11 DTL Crutch, DjVu Anno Editor и др.

Автор: NME
Дата сообщения: 08.02.2013 16:28
uaply

Цитата:
И что с ней  случится после обратного преобразования?

"... 'пробел'

электронное взаимодействие."
Автор: uaply
Дата сообщения: 08.02.2013 18:30
NME

Ну да, а должно остаться
"... электрон-
электронное взаимодействие"

поскольку изначально никакого неразрывного дефиса там не было, и вообще сам смысл именно в двух словах.
Автор: NME
Дата сообщения: 08.02.2013 18:49
uaply
имхо это такая незначительная мелочь, что на нее даже не стОит обращать внимание.. таких выражений, как "электрон-электронное" или "Баден-Баденский" с разрывом строки на дефисе может быть одно на десятки, а то и сотни книг, в то время как обычных ошибок распознания после ФР в книге будет на порядки больше..
в любом случае, при желании можно вручную этот электрон добавить - координаты слова не теряются..
Автор: uaply
Дата сообщения: 09.02.2013 13:19
NME

Цитата:
можно еще подумать о реализации метода 3 - это добавление второй половинки слова к первой


И ещё метод 0 - просто оставлять как есть знак мягкого переноса, а исправлять только слова в строки. Хотя вряд ли такое кому-то понадобится.
Автор: NME
Дата сообщения: 10.02.2013 10:27
uaply

Цитата:
И ещё метод 0

ну, такой метод оставим разрабам ФР, ибо если они и сделают объединение строк в блок "line", то переносы стопудово оформят именно таким макаром))
в принципе оно всё бы ничего, если б авторы наиболее популярных просмотрщиков добавили функцию слития таких слов при поиске, но навряд ли они будут над этим заморачиваться..
так что чую костылька моя еще поживет, пока кто-нибудь не сделает такую же кроссплатформенную)) ежели кто захочет это сделать - обращайтесь, дам исходники и комментарии, если потребуются..
Автор: sergiokapone
Дата сообщения: 21.06.2013 18:17

Цитата:
• полноценный визивиг редактор графики DjVu с возможностью удаления, сдвига, правки шейпов в маске.. а может быть и корректировки фона тоже..


NME, вот тут есть програмка http://jwilk.net/software/djvusmooth с многообещающим текстом "djvusmooth is a graphical editor for DjVu documents" , правда, только под Linux'ы

Автор: NME
Дата сообщения: 23.06.2013 08:49
sergiokapone
судя по скриншоту, программа работает с закладками, гиперлинками и текстом.. для редактирования закладок и гиперлинков в режиме WYSIWYG программы уже давно существуют, а вот для текста не встречал (не считая самописный "полу-визивиг" редактор, который существует в рамках еще не вышедшей в свет программы у меня на компе)))..
к сожалению, линуксоводом я не являюсь и особого стремления стать им не испытываю, так что посмотреть, что же там редактируется на самом деле видимо не придется..
а "graphical editor" - это скорее "графический редактор", чем "редактор графики".. так что о возможности корректировки шейпов остается снова лишь мечтать..
Автор: Aladdin2
Дата сообщения: 17.10.2013 21:08
В программе DjVu Chunk Remover интересный эффект получился:

Если после удаления чанков отредактировать полученный документ в Document Express, или же просто сохранить копию из просмотрщика, то размер документа восстанавливается до того состояния как были удалены чанки. Содержимое удалённых чанков конечно же вновь из ниоткуда не появляется. Документ при этом нормально открывается.
Автор: LonerDergunov
Дата сообщения: 17.11.2013 00:12
NME
Попробовал FR11 DjVu Text Layer Crutch.
Довольно удобно с одной стороны. Но не хватает групповой обработки и параметров командной строки.
Для каждого файла девять (!) раз тыкать в диалоги, подтверждение выбора и просто в окошки ОК - это полный мрак.
Начал переделывать в FineReadere сотни журналов - и каждый файл вручную приходится прогонять через программу... И нудно, и самое неприятное - при конвеерной обработке можно просто ошибочно выбрать не тот файл.

В этом процессе автоматизация - первостепенная задача, лучше было не городить гуй с кучей диалоговых окон, а сделать простенькую утилитку с комстрокой.
Командная строка - задать имя входного файла (из которого берётся текстовый слой), имя выходного файла (в который вставляется текстовый файл), номер способа обработки.
Групповая обработка - задаётся список файлов из которых берётся текстовый слой и список файлов куда добавляется обработанный слой.
Автор: alpopo
Дата сообщения: 17.11.2013 10:07
подскажите, как пронумеровать страницы в джву?
Автор: Aladdin2
Дата сообщения: 13.12.2013 08:46
Насчёт FineReader - пользуйтесь 8 версией (или 9). Для них уже есть программа DjvuOCR, поддерживающая пакетную обработку.
Автор: sergiokapone
Дата сообщения: 13.12.2013 17:16

Цитата:
Но не хватает групповой обработки и параметров командной строки.


Да, поддерживаю.


Добавлено:

Цитата:
Насчёт FineReader - пользуйтесь 8 версией (или 9). Для них уже есть программа DjvuOCR, поддерживающая пакетную обработку.


Спасибо, капитан.
Автор: NME
Дата сообщения: 14.12.2013 21:59
LonerDergunov

Цитата:
лучше было не городить гуй с кучей диалоговых окон, а сделать простенькую утилитку с комстрокой

я не программист, сделал как сумел..
с комстрокой раньше не сталкивался и изучать желания не было.. и сейчас нет - ни желания, ни времени..
если кто-то хочет допилить - пишите в личку, вышлю исходники (шарп)..
Автор: NME
Дата сообщения: 15.12.2013 09:55
alpopo

Цитата:
подскажите, как пронумеровать страницы в джву?

теоретически - взять 2 djvu-файла: один исходный и второй - чистые листы с нумерацией - и соединить их (т.е. скопировать шейпы из второго файла в первый)..
в кромсаторе этот метод уже реализован (для своих целей), но делать отдельную утилитку автор не захотел - слишком мелко для него..
так что на сегодня только один вариант - декодировать djvu в графику, врисовывать номера, обратно кодировать в djvu..

хотя.. можно еще текстовыми аннотациями..
Автор: alpopo
Дата сообщения: 15.12.2013 13:08
NME
Цитата:
врисовывать номера, обратно кодировать в djvu
Сложновато пока. В пдф это все попроще
Автор: Aladdin2
Дата сообщения: 25.12.2013 20:34
А этот глюк исправите?


Цитата:
Если после удаления чанков отредактировать полученный документ в Document Express, или же просто сохранить копию из просмотрщика, то размер документа восстанавливается до того состояния как были удалены чанки. Содержимое удалённых чанков конечно же вновь из ниоткуда не появляется. Документ при этом нормально открывается.


Я покопался - в чанке DIRM не исправляются размеры страниц, а остаются от исходного документа
Автор: NME
Дата сообщения: 27.12.2013 21:24
Aladdin2
слишком много неизвестных - какие чанки удаляются? при восстановлении размера побайтно тоже всё совпадает? где примеры этих файлов?
очень наврядли, что это глюк ремувера - он всего лишь разбивает файл на блоки, удаляет указанные и собирает его обратно.. какую фигню записывает в файл экспресс я не знаю..
попытался воспроизвести проблему - размер изменился, но не восстановился.. а вот при открытии пересохраненного файла программа выдала ошибку - на счет этого, думаю, гляну на праздниках..
Автор: Aladdin2
Дата сообщения: 29.12.2013 20:00
Смысл такой.
Информация о размере страницы фактически хранится в трёх местах - в начале каждой страницы (4 байта после "FORM"), в чанке DIRM в виде указания на смещение страницы и в чанке DIRM в закодированной части в виде сведений о размере втраницы.
Так вот,

Цитата:
он всего лишь разбивает файл на блоки

Из-за этого закодированная часть DIRM остаётся неизменной, от старого документа. При просмотре документа используется информация о смещении страницы, и новый документ отображается нормально. Но при сохранении редактор использет кодированную часть DIRM, сохраняя для каждой страницы указанно там число байт (содержащие мусор)
Поэтому необходимо добавить исправление информации о размере страницы.
Автор: NME
Дата сообщения: 09.01.2014 19:17
Aladdin2
мда.. для чего так переразмерили блоки - непонятно..
получается, что без перекодирования DIRM не обойтись..
а это будет (если вообще будет) в очень далекой перспективе..
так что программой сейчас лучше не пользоваться, или не редактировать измененные файлы в экспрессах и т.п..
Автор: NME
Дата сообщения: 25.01.2014 21:08

Цитата:
а это будет (если вообще будет) в очень далекой перспективе..

таки напрягся и осилил кодирование тож..
программу исправил..
Автор: amaid
Дата сообщения: 25.01.2014 21:37
NME - спасибо! красавец.
почти BMW

Добавлено:
кто бы еще заточил FR11 DjVu Text Layer Crutch под новую версию файна. Замаялся переделывать OCR
Автор: NME
Дата сообщения: 25.01.2014 21:51
amaid
а там что-то поменялось? не слежу за этим.. скинь в личку ссылки на пару книг, качать и ставить фр ниахота..
Автор: amaid
Дата сообщения: 25.01.2014 23:28
Да, поменялось. Попадаются два вида файлов - чаще всего такой:
http://rghost.ru/51927645
но бывают и с текстом в одну сплошную строку, при этом мягкие переносы сохраняются
как встречу, выложу тоже.
программулина твоя экономила мне многие часы, пока народ не пересел на новые билды файна 11

Добавлено:
а может, что-то можно и с обычными книжками сделать, в которых переносы слов в виде дефисов (слова эти склеить, дефисы убрать, как умеет делать файн 8)? Таких книжек вообще - каждая вторая.
типа: http://rghost.ru/51928113
Из-за этих переносов бывает не удается найти цитату или термин.
Автор: NME
Дата сообщения: 26.01.2014 10:19
amaid
1) так вроде нормально пример обработал.. что с темновым не так?
2) если текст в одну строку - это старые билды фр.. инфы о координатах слов там нет.. поможет только перераспознание..
3) склеить не проблема, но тогда слова с дефисом или тире в конце строки тоже будут склеены.. можно, конечно, заморочиться - попробовать прикрутить какие-либо словари и т.п. или организовать вычитку данных слов, но имхо овчинка не стоит выделки.. проще на автомате перераспознать..
Автор: amaid
Дата сообщения: 26.01.2014 11:48
1. оказалось, что из папки crutch'a пропала dll (хрен его знает куда и когда), поэтому прога не работала как надо, а я грешил на новый файн - сейчас порядок.
3. файн склеивает по словарю, конечно, это самый надежный вариант. Словарей в сети много, жаль, что не считаешь эту овчину нужной.
"На автомате перераспознать" - это разобрать, закинуть в файн, сделать OCR и потом внедрить в файл? Я так и делаю. Каждый такой автомат сжирает от 5 до 20 минут. Умножим на 3-4 книжки в день.
Если есть какой-то другой, неизвестный мне автомат, поделись, буду благодарен.


Добавлено:
Как вариант, можно обойтись без словаря - склеивать ВСЕ дефисы в конце строки, за исключением "-то, -либо, -нибудь". При этом могут изредка неверно склеиться слова типа "темно-зеленый" (если вдруг дефис придется на конец строки), но зато правильно склеятся термины и фамилии, которых нет в словарях (таких миллион, особенно в научной литературе, и файн их клеить не умеет). Имхо, этот вариант и проще, и намного лучше, чем словарный.
Автор: NME
Дата сообщения: 26.01.2014 16:43
amaid

Цитата:
файн склеивает по словарю

файн распознает с использованием словаря.. а склеить после этого - дело нехитрое..

Цитата:
"На автомате перераспознать"

это закинуть djvu в 11 файнридер, получить новый текстовый слой, исправить и перенести его в исходную книгу.. 30-60 секунд не считая время ожидания распознания, в которое можно заниматься другими вещами..

Цитата:
склеивать ВСЕ дефисы в конце строки

склеивание - это необратимый процесс.. убирая все дефисы мы заведомо вносим искажения в текст.. нужно ли это - надо еще подумать.. хотя, если произвести склейку по варианту 2, то откатиться назад будет можно.. в любом случае наврядли сейчас найду время на доработку, мож когда-нить позже.. заодно и от длл-лек избавлюсь))

а самое лучшее - чтоб данная фича была реализована в просмотрщике.. тогда и с текстом мудрить не надо, и поиск отлично работать будет.. жаль Жежерун прекратил развитие своего детища, а энтузазистов, готовых продолжить его дело - нет..
Автор: amaid
Дата сообщения: 26.01.2014 17:44
из 11 файна перенести напрямую в исходный файл не получится (по крайней мере, я не знаю такой программы - подскажете такую или напишите, сделаете больше дело), для 8 файна есть утилитка от Генчо, ею и пользуюсь (к тому же 8 файн распознаёт плохие сканы лучше, чем 11).
Заниматься другим делом толком не получается, потому что все эти операции разборки-заброски-OCR-внедрения требуют постоянно прерываться. Разве что на одном этапе газетку можно почитать, пока OCR идет. И то только если перераспознание не требует ручного вмешательства (а это часто и густо бывает).

Насчет искажений в OCR - да там и так их навалом, искажений. В большинстве книжек целое море ошибок OCR. Что там какие-то пара дефисов, да и то не в каждой книжке.
И потом, OCR не виден же глазом при чтении djvu. А для копирования-вставки-цитирования-поиска-индексации ВСЕМ будет лучше без дефисов.

Цитата:
а самое лучшее - чтоб данная фича была реализована в просмотрщике

кто ж спорит
Автор: NME
Дата сообщения: 26.01.2014 18:18
amaid

Цитата:
подскажете такую

FR11 DjVu Text Layer Crutch
переносит текстовый слой из одного файла в другой в несколько кликов..

многие предпочитают 8ку, сам много лет ее юзал.. и если кажется, что 8ка лучше - надо использовать ее..
а Crutch в помощь тем, кто использует фр11..
Автор: amaid
Дата сообщения: 26.01.2014 18:27
для Crutcha надо создать сначала djvu из файна, а это процесс небыстрый. И зачем добавлять лишней работы себе, если DjvuOCR внедряет в файл напрямую из пакета с frf, а файн 8 распознает получше?
Жаль, DjvuOCR не работает с файном 9, там самый лучший OCR (правда, форматирование часто хромает).
Вот чинить файновские djvu Crutch помогает прекрасно, душа радуется.
Автор: Aladdin2
Дата сообщения: 05.02.2014 00:40
Ура, исправили.

А дальнейшее развитие будет? Тут ещё один глюк нашёлся. Если имеется два чанка INCL, программа выдаёт ошибку (Пример).

И есть некоторые пожелания. Во-первых, позволить удалять чанк INCL (второй из приведённого выше примера), не знаю, может по имени, или по порядку их расположения. Тогда уж заодно можно включить удаление Sjbz - например чтобы получить пустую белую страницу подходящего размера вместо мусорных клякс. Итого только INFO остаётся неудаляемым.

Во-вторых, расширить интерфейс тремя возможностями:
1) Возможность выбрать сразу несколько типов слоёв для их одновременного удаления (а то приходится 1 файл по нескольку раз прогонять).
2) Возможность указать не только файл, но и папку, чтобы программа потом обрабатывала все файлы в этой папке (соответственно для 100 файлов в 100 раз сокращается количество затраченных человекочасов)
3) Возможность автоматической замены существующего файла новым. Процедура вроде не долгая, но если помножить на пункты (1) и (2), то утомляет.

Заодно выскажусь по поводу дефисов. Я за их удаление, правильность от этого только повыситься, т.к. количество переносов в книгах заметно больше количества 'настоящих' дефисов на границах строк. И тире - не знаю как в 11 версии, а раньше тире и дефис были разными символами

P.S. А я со своей стороны сделаю прогу для пунктов:
• программа для создания и внедрения в книгу пустых страниц..
• программа для удаления страниц из книги..
+ ещё некоторые

Страницы: 123456789

Предыдущая тема: дубль


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.