Ru-Board.club
← Вернуться в раздел «Программы»

» Утилиты для DjVu: FR11 DTL Crutch, DjVu Anno Editor и др.

Автор: NME
Дата сообщения: 13.05.2014 20:21
Bu
дело не в спичках, а в последующей обработке этой информации, доп. проверках, конвертации данных и т.п.. изменив данный тип переменной придется логику переделывать, а это может быть чревато ошибками, уж не говоря о потраченном времени на исправление кода и всякие тестирования..
при написании пожеланий желательно, чтобы производился хотя бы поверхностный их анализ - насколько это может быть востребовано, какой их практический смысл.. имхо нельзя программы перегружать ненужным функционалом, ни к чему хорошему это не приведет..
надеюсь, мы друг друга поняли и тема с двойными переносами закрыта..
Автор: hogu77
Дата сообщения: 14.05.2014 00:29
NME

Цитата:
при написании пожеланий желательно, чтобы производился хотя бы поверхностный их анализ - насколько это может быть востребовано, какой их практический смысл..имхо нельзя программы перегружать ненужным функционалом, ни к чему хорошему это не приведет..

Если кто-то криворуко OCR'ит DjVu'хи, и пытается с помощью Crutch'а залатать свои огрехи, то это проблема не NME, а криворучника.
Создавать из сабжа комбайн считаю нецелесообразным, и так фич до фигища.
IMXO.
Автор: NME
Дата сообщения: 15.05.2014 08:30
исправлен баг в DjVu Chunk Remover, ссылку обновил..
Автор: hogu77
Дата сообщения: 26.05.2014 14:37
NME, а вы не думаете об изменении названия FR11 DjVu Text Layer Crutch? FR11 может сбить с толку, наверно, хотя я и не утверждаю, но-о, думаю что если FR и дальше ничего не будет делать с этой проблемой, то вам предстоит ещё не раз менять название вашей программы с FR11 на FR12, 13, ...
Автор: NME
Дата сообщения: 26.05.2014 15:54
hogu77
не думал об этом.. мне не принципиально.. хотя, наверное, лучше оставить - кому надо, тот разберется.. а менять название каждый раз при выпуске новой версии ФР имхо не правильно..
Автор: NME
Дата сообщения: 01.06.2014 21:51
сделал видеоинструкцию по созданию оглавления (TOC) в книге формата DjVu.. в ней в том числе
показано, как пользоваться DjVu Annotations Editor'ом..
ссылки в шапке..
Автор: amaid
Дата сообщения: 02.06.2014 14:28
NME, снимаю шляпу.
FR11 DjVu Text Layer Crutch стоит применять ко всем файлам - склеивает слова, в которых файн ошибочно ставит дефисы вместо мягких переносов (а это все слова, отсутствующие в словариках файна - термины, фамилии и пр.). Плюс прога научилась работать со слоями 8 файна! больше не придется перераспознавать файлы с мусорными переносами, а это многие-многие часы экономятся.
Не очень понял только, в каких случаях бывает нужно удалять зоны столбец, регион, параграф?
(может, мне это тоже надо, а я не в курсе)
Автор: NME
Дата сообщения: 02.06.2014 15:36
amaid
ну, раз я сделал возможность создавать зоны "параграф", то должен был создать инструмент для их удаления))
а столбцы и регионы "до кучи" сделал, их Document Express Editor создает.. хотя распознавать в нем русский текст нельзя - полная фигня получается, м.б. с английским там лучше дело обстоит..

Добавлено:
а касательно корректного поиска по словам, разделенным переносом - мне кажется, лучше было бы, если б просмотрщик сам это дело определял и находил нужные слова.. заглянул я в код WinDjView - в принципе, там не очень сложно будет это реализовать.. жаль, что автор прекратил дальнейшее развитие программы.. видимо, как всегда - если что-то нужно, придется самому это делать.. в шапке написано, что я хотел бы в данной программе иметь возможность поиска по закладкам, но сомневаюсь в своих способностях это реализовать.. похоже, если я это таки хочу - придется забить на сомнения и самому упорно копать код.. и мое незнание языка программирования, на котором написана программа, будет существенно замедляющим процесс фактором, но не сдерживающим..
Автор: amaid
Дата сообщения: 02.06.2014 16:37
Для меня главное не поиск в WinDjView, а индексация в поисковой программе (Архивариус), с помощью которой я ищу в огромных массивах текстов цитаты, термины и фамилии, т.е. как раз то, что не терпит дефисов внутри себя. Поэтому приходилось заново распознавать сотни и сотни нужных книжек. Теперь с этим муторным делом покончено, слава ннму. Надо бы прогнать через кратч все скопившиеся у меня 5258 книжек djvu, но не знаю, как это сделать оптом, а поштучно делать - нету моральных сил.


Добавлено:
кстати, а создавать зоны параграфов зачем? что это дает нам практически (для поиска-копирования)?
Автор: NME
Дата сообщения: 02.06.2014 19:54
amaid

Цитата:
5258 книжек djvu

я думаю, это легко сделать простеньким батничком.. здесь на форуме есть соответствующий топик - задачи на bat-файлах - можно самому почитать или попросить помочь..

Цитата:
а создавать зоны параграфов зачем?

можно создать 2 книги с параграфами и без, скопировать\вставить в текстовый редактор и увидеть разницу (это если неохота описание к программе читать, ибо там все написано)..
Автор: amaid
Дата сообщения: 02.06.2014 20:06
почитал описание - действительно зона "параграф" нужная и полезная
батник попрошу кого-нибудь написать, ок.
Автор: amaid
Дата сообщения: 02.06.2014 22:42
чё-то никто не откликается
Автор: NME
Дата сообщения: 04.06.2014 21:45
amaid

Цитата:
чё-то никто не откликается

нетерпеливый какой..
я думаю, это потому что задача поставлена следующим образом: "вот вы тут поизучайте то и сделайте мне сё" - кому нафиг надо че-то куда-то смотреть и изучать! уж если обращаешься за помощью, то нужно ставить задачу максимально просто и понятно: "нужно найти все файлы djvu в каталоге с подкаталогами и подставить их в качестве аргумента командной строки fr11DTLcrutch03.exe "d:\temp\мой файл.djvu" -mh" - тогда и ответ был бы намного быстрее..
если чуть модифицировать пример на первой странице первой части топика - получится это
Код: @echo off
echo wait...
set ind=0
:next
set /a ind+=1
set tmp=
for /f "delims=\ tokens=%ind%" %%a in ("%~dp0") do set tmp=%%a
if not "%tmp%"=="" goto next
set /a ind-=1
for /f "delims=\ tokens=%ind%*" %%a in ('dir *.djvu /b /s') do (
echo %%b
fr11DTLcrutch03.exe "%%b" -mh
)
pause
Автор: amaid
Дата сообщения: 04.06.2014 23:24
спасибо, добрый человек!
завтра потренируюсь на текущей кучке файлов, потом натравлю на всю библиотеку.
(резервную копии сделаю, да)

Добавлено:
не утерпел, кинул несколько дежавюх в папку с программой и запустил батник
висит "wait..." и ничего не происходит.

Добавлено:
сорри, не углядел пробелы в начале строк - вытер, заработало
Автор: hogu77
Дата сообщения: 05.06.2014 12:50
NME

Цитата:
уж если обращаешься за помощью, то нужно ставить задачу максимально просто и понятно:<...>

Прикольно, хотя мне вряд ли понадобиться.

P.S. Не, а мне вот интересно, amaid пишет что "у меня 5258 книжек djvu". И что, во всех до единой одна и та же проблема?
Насколько я помню, когда ФР начал сохранять в формате DjVu он там такие "номера" откалывал от билда к билду что только держись. То строку целиком выделял то переносы, это из самого известного, может чего и запамятовал, давно было. Отсюда и вопрос, файлы то разной ... испорченности.
Автор: amaid
Дата сообщения: 05.06.2014 16:39
У файнов всех версий довольно маленький словарь, которым они руководствуются при расстановке мягких переносов, поэтому фамилии и спец. термины часто и густо остаются с дефисами посредине слова. Кратч решает эту проблему, склеивая такие слова. Поэтому имеет смысл обработать кратчем ВСЕ имеющиеся djvu файлы, независимо от того, какой версией файна делался OCR.
А у файлов, созданных в FR 11-12, кратч еще и абзацы клеит внутри.
Сам я файном djvu не делаю, DJVU Small удобнее в настройке и, кажись, пошустрее. А теперь все дежавюхи, которые делаю, буду в финале прогонять через кратч.
Автор: hogu77
Дата сообщения: 05.06.2014 17:27
amaid

Цитата:
термины часто и густо остаются с дефисами посредине слова. Кратч решает эту проблему, склеивая такие слова. Поэтому имеет смысл обработать кратчем ВСЕ имеющиеся djvu файлы, независимо от того, какой версией файна делался OCR

С этим понятно.

Цитата:
А у файлов, созданных в FR 11-12, кратч еще и абзацы клеит внутри.

Этот вариант решения тоже прописан в батнике?
Там по дефолту настройки?

Цитата:
Сам я файном djvu не делаю,<...>

Да мне от файна тоже только OCR и нужен. Да и тот, через кратч пропускать надо.
Автор: amaid
Дата сообщения: 05.06.2014 18:38

Цитата:
Этот вариант решения тоже прописан в батнике?

это дефолтный параметр, специально не надо прописывать, как я понял

Цитата:
Да мне от файна тоже только OCR и нужен

сравнивал OCR от разных версий файна. Однозначно лучший текст дает FR9 (если не считать косячное форматирование), на втором месте FR8, на третьем FR11. Чем хуже скан, тем заметнее разница в качестве OCR и тем больше превосходство девятки.
FR10 - отстой. FR12 - не знаю, не сравнивал.
Сам я восьмеркой распознаю. Для девятки нет нормальной проги по внедрению OCR в djvu, увы.
Автор: NME
Дата сообщения: 05.06.2014 21:00
amaid

Цитата:
Для девятки нет нормальной проги по внедрению OCR в djvu, увы.

1) в топике по электронным книгам Astra55 предлагал способ создания djvu: файнридер->pdf->djvu.. если полученный djvu будет хуже оригинала, можно текстовый слой перекинуть..
2) DjvuOCR понимает 9ку до какого-то билда (кажется 724го).. только там одна хитрость - надо на одном ядре распознавать, иначе страницы перепутаны будут..
так что варианты есть, осталось решить, стоит ли овчинка выделки..
Автор: hogu77
Дата сообщения: 05.06.2014 23:52
NME

Цитата:
1) в топике по электронным книгам Astra55 предлагал способ создания djvu: файнридер->pdf->djvu.. если полученный djvu будет хуже оригинала, можно текстовый слой перекинуть..

Так так раньше и поступали, сначала в PDF — Pdf To Djvu GUI или в Pdftodjvu LE — DjVu — оттуда OCR — в оригинальный DjVu — а теперь и в FR11 DjVu Text Layer Crutch).
Сейчас всё гораздо упростилось.


Цитата:
2) DjvuOCR понимает 9ку до какого-то билда (кажется 724го).. только там одна хитрость - надо на одном ядре распознавать, иначе страницы перепутаны будут..


Для этих целей патч вроде был, только всё равно плохо выходило.

amaid

Цитата:
Сам я восьмеркой распознаю.

Да, для русско-английских книг/журналов, самое оно.

Автор: amaid
Дата сообщения: 06.06.2014 00:16

Цитата:
можно текстовый слой перекинуть

пробовал по всякому, разными прогами, ничего дельного не вышло

Цитата:
надо на одном ядре распознавать

это известно, но ничего не дает, компы все давно многоядерные
разве что ограничить работу файна одним ядром попробовать (если религия позволяет)

Цитата:
стоит ли овчинка выделки

для отвратных сканов - безусловно
или, скажем, для фотографий, сделанных мыльницей в библиотеке (бывало у меня такое - только девятка приемлемо могла распознать)
для средних сканов и лучше - не стоит маяться

Цитата:
для русско-английских книг/журналов

у меня обычно 5 языков стоит, книжки научные - результат почти всегда очень хороший
в целом, восьмерка рулит
Автор: amaid
Дата сообщения: 06.06.2014 07:16
пока воздержался от обработки всей коллекции.
выяснилось, что кратч слепляет слова с частицами -то, -либо, -нибудь
конечно, это всего лишь ложка дегтя в бочонке меда, но есть надежда, что nme внесет в прогу коррективы
а может как-нибудь даже встроит батник в интерфейс (с опцией выбора каталога для обработки)))

Добавлено:
да, и хорошо бы кратчу запоминать последнюю настройку (постоянно забываю ставить галку на "объединять слова")
Автор: NME
Дата сообщения: 06.06.2014 10:16
amaid

Цитата:
кратч слепляет слова с частицами -то, -либо, -нибудь

ессно..
-то, -либо, -нибудь, кое-, кой-, -ка, -де, -с, -тка, -тко, -таки, во-, в-, по-, сложные слова и т.п. - как учесть все правила русского языка? если для -либо, -нибудь и некоторых других можно еще создать правило, то для других - невозможно, т.к. они могут писаться как через дефис, так и слитно.. наверное, сделаю так - будет осуществляться проверка по текстовому файлу с исключениями - кто какие исключения там пропишет, такие программа и обработает..

Цитата:
встроит батник в интерфейс

это что за зверь?
если выбор папки из интерфейса - то этого не будет, т.к. очень много переделывать придется - сейчас программа заточена на обработку только 1го файла.. и, тем более, возможность групповой обработки сейчас существует - юзать ком. строку..
если же это - возможность указания каталога в батнике, то немного подкорректировав код
Код: @echo off
echo wait...
set ind=0
set path=%~dp0
:next
set /a ind+=1
set tmp=
for /f "delims=\ tokens=%ind%" %%a in ("%~dp0") do set tmp=%%a
if not "%tmp%"=="" goto next
set /a ind-=1
for /f "delims=\ tokens=%ind%*" %%a in ('dir *.djvu /b /s') do (
echo %path%%%b
"полный путь до файла\fr11DTLcrutch.exe" "%path%%%b" -mh
)
pause
Автор: amaid
Дата сообщения: 06.06.2014 16:24

Цитата:
как учесть все правила русского языка

учесть все правила невозможно, да и не нужно.
Достаточно участь самые распространенные дефисы. Остальными придется пожертвовать.
Лично я готов похерить и -то -либо -нибудь ради спасения терминов и фамилий.

Цитата:
кто какие исключения там пропишет

это ИДЕАЛЬНЫЙ вариант. Существуют словари "Слитно, раздельно, через дефис", которые помогут свести ошибки к пренебрежимо малой величине.

С отсутствием пользовательских настроек и интерфейса для пакетной обработки - ну ладно
печально, но не смертельно.
Автор: hogu77
Дата сообщения: 07.06.2014 22:26
Интересное кино, по дефолтным настройкам в FR11 DjVu Text Layer Crutch надо сначала исправить файнридеровский OCR и только потом его вносить в оригинальный djvu файл. Если начнёшь кратчем править в оригинальном файле то всей строкой не выделяет а по-словно.
Теперь понятно почему Dracula не смог сходу повторить редактирование текстового слоя.
_________________________________________-

К слову, NME а вы не думали, касательно своей программы, что можно автоматизировать процесс переноса исправленного OCR из одного djvu в другой? Что бы не было этих манцев с программой DjVuOCR. Это трудно воплотить?
Автор: NME
Дата сообщения: 08.06.2014 21:16
hogu77

Цитата:
по дефолтным настройкам в FR11 DjVu Text Layer Crutch надо сначала исправить файнридеровский OCR и только потом его вносить в оригинальный djvu файл

это кто такое сказал?

Цитата:
автоматизировать процесс переноса исправленного OCR из одного djvu в другой?

давно всё реализовано..
основная проблема в том, что наши люди в основном писатели, а читать мануалы - эт не для нас..
Автор: alpopo
Дата сообщения: 09.06.2014 10:31
Напомните, как пронумеровать страницы в ДЖВУ
Автор: NME
Дата сообщения: 09.06.2014 11:14
alpopo
Версия для печати -> поиск
Автор: hogu77
Дата сообщения: 09.06.2014 13:16
NME

Цитата:
это кто такое сказал?

То-то и оно что никто не сказал. Никто не сказал, и не показал, как корректно проводить перенос исправленного текстового слоя из djvu файла полученного от abbyy, в оригинальный. И в первую очередь этого нет в самой инструкции к FR11 DjVu Text Layer Crutch. Инструкция написана сухим, казённым инженерным языком, про наглядное выражение работы с программой я-уж вообще молчу.

NME, вы сделали замечательную программу так необходимую для работы. Но использование данной версии (0.3) превращается в увлекательный квэст. В инструкции ни слова не сказано что программа работает с 12-й ФР, есть ли отличия в OCR между 11-ой и 12-ой версиях и как это сказывается на кратче, и сказывается ли вообще, корректно ли v.0.3 работает с юникодом, и пр. и пр. На все эти вопросы конечный пользователь отвечает сам, как Христофор Колумб продвигаясь по Терре Инкогните.
Уважаемый автор, вы к сожалению не один кто столь куцо преподносит свой труд. На моей памяти, только описание работы с Pdf & Djvu Bookmarker, от NBell'a достойно, по крайней мере, внимания.
Простите за возможную грубость в словах по отношению к вам. Ниже привожу ещё один сложный случай ответа на который в инструкции я не увидел.
Видео - http://rghost.ru/56264981
Проблемный файл - http://rghost.ru/56265009
Автор: NME
Дата сообщения: 09.06.2014 17:54
hogu77
инструкции "для чайников" настолько развратили народ, что даже слегка подумать - уже лениво..
по 3х-кнопочной программе действительно квест может получиться очень увлекательный, заблудиться - как нефиг делать.. итак, начнем..

1) читаем в описании
Цитата:
для книг, созданных с помощью ABBYY FineReader билд 11.0.102.583 и выше (далее - ФР11+)
путем нехитрых арифметических операций можно понять, что 12 - это выше, чем 11.. для совсем ленивых в шапке указано
Цитата:
(в т.ч. ФР12)


2)
Цитата:
есть ли отличия в OCR между 11-ой и 12-ой версиях и как это сказывается на кратче
описание программы не учебник по OCR'ам различных версий файнридера, пусть ABBYY-вцы описывают, если это кому-нибудь надо.. если бы от этого зависела последовательность действий в программе - то скорее всего упоминание бы сделал, а так как его нет - значит и не надо.. для справки - различий в версиях нет, я это уже это говорил в топике ранее..

3)
Цитата:
корректно ли v.0.3 работает с юникодом
а что, были проблемы? или это так - лишь бы побольше умных вопросов задать? программа работает с текстовым слоем djvu, если интересно его описание - оно есть в спецификации к формату..

4) смотрим на 2 из 3х кнопок

Цитата:
Скопировать текстовый слой без изменений в другой файл DjVu
-
Сохранить исправленный текстовый слой в другой файл DjVu - при выборе корректного файла DjVu (многостраничный, в одном файле [bundled multi-page document]) исправленный слой переносится в него. Если файл не существует - сохраняется копия изначального DjVu-файла с измененным текстовым слоем

и как можно прочитав это задать вопрос про возможность переноса исправленного OCR из одного djvu в другой?

касательно видео - это либо баг, либо ручное вмешательство в текстовый слой.. буду посмотреть..

я не против критики, предложений и т.п., только все должно быть обосновано.. а пока в большинстве своем я вижу возмущения людей либо не читающих инструкции, либо ленивых до подумать..

Добавлено:
hogu77
в общем, на 99,9% что текстовый слой был модифицирован.. программа такие случаи не обрабатывает и не будет обрабатывать - все внешние вмешательства не предугадаешь, кому надо - будет делать как положено..
кстати, "краткая инструкция" по созданию текста посредством фр 11 и 12 в соседнем топике приводилась.. но.. да ладно..

Страницы: 123456789

Предыдущая тема: дубль


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.