Ru-Board.club
← Вернуться в раздел «Программы»

» Сканирование и оцифровка текста *.txt, *doc, *.pdf, *.djvu

Автор: Dickobraz
Дата сообщения: 03.06.2004 16:55
max67
Могу поправить исходники djvused, но после 26 июня, т.к. 7 уезжаю в командировку.

Добавлено
выложить все утилиты из djvulibre руки не доходят, но может и успею до 7 числа. Если сделаю, будут на opendjvu.nm.ru
Автор: max67
Дата сообщения: 03.06.2004 17:39
Dickobraz
Спасибо. Будем ждать.
У меня то всё мысль вертелась о макросе для перекодировки sed-скрипта - сказываются штампы пользования уварованным проприетарным софтом.
Перекомпилировать сам djvused это был бы идеальный вариант. Под native win32?
Автор: xalex
Дата сообщения: 03.06.2004 19:57
Dickobraz

Не могли бы вы скомпилировать под Windows утилиту cjb2 из
djvulibre 3.5.13.pre14-3 ?

В этой преверсии добавлен кардинально улучшенный (в 2 раза) алгоритм
для lossy режима.

max67

Наверное это в IFF формате.
Автор: Dickobraz
Дата сообщения: 04.06.2004 06:32
xalex

Цитата:
Не могли бы вы скомпилировать под Windows утилиту cjb2 из
djvulibre 3.5.13.pre14-3 ?

Попробую, если update до версии 3.5.13 пройдет успешно, но еще раз повторю - сильно быстро не получиться, т.к. очень не хватает свободного времени.

Кстати, если посмотреть командой tdump -ee djvupro.exe какие функции экспортирует djvupro.exe, то можно увидеть все описания классов из djvulibre. Идея такая - использовать менеджер для подготовки файлов к сжатию свой, в котором можно навернуть все что угодно, а компрессор вызывать из djvupro, как из dll. Проблема в одном - кто бы взялся? В принципе ничего сложного, просто рутины много...
Автор: Dickobraz
Дата сообщения: 08.06.2004 04:36
На opendjvu.nm.ru выложил утилиты из пакета djvulibre-3.5.13
Автор: juliab
Дата сообщения: 08.06.2004 09:09
А как сделать экспорт в графику всего файла djvu
DocExpress позволяет вытягивать только по одной страничке?

А то надо с десяток журналов перепаковать- 70 листов серой графики 300 точек 24 бита, в итоге каждый файл по 12 метров, хочу меньше, но по одной странице переделывать - застрелишься
Автор: max67
Дата сообщения: 08.06.2004 11:11
juliab
Под Win, наверное, проще всего воспользоваться лизардтеховской консольной утилитой:
DjVuDecode.exe
Ей удобно перегонять многостраничные djvu в многостраничные же несжатые tif.
Вот возможные опции:

Цитата:
Usage: (DjVu Version: 3.6.100)

DjVuDecode.exe [options] <input> <output> ... <file|dir>
--output-format=<format> Selected Desired output format of pnm, pgm,

pbm, bmp, tif, jpeg, ps, pict.
--layer=<layer> Select the layer to decode. One of all, mask,

foreground, background.
--config=<filename> Use a non-standard configuration file.
--profile=<name> Use the options under 'name' profile.
--verbose Print verbose messages.
--filelist=<filename> Specify a text file containing a list of

input files.
--help Print the usage instructions.
--page-range=<range> Specify the ranges of pages to convert.

Ranges are specified like "1-5,10,11".
--dpi=<25-1200> Dots (pixels) Per Inch.
--hflip Horizontally flips the output.
--vflip Vertically flips the output.
--rotate=<angle> Rotate the output either 90, 180, or 270 clockwise.
--togray If input is color, reduce to gray scale.
--tobitonal[=<1-255>] Reduces to bitonal, optional threshold.
--upsample=<factor> Upsample the image by the specified factor.
--subsample=<factor> Subsample the image by the specified factor.
--resize=<width>x<height> Resize the image to the specified size.
--crop=<x0>,<y0>,<width>x<height> Crop the image to the specified region.


Могу выслать по почте (1.5 Mb)

Так же можно пользовать ddjvu из DjvuLibre, которую постом выше выложил Dickobraz (По случаю, большое спасибо)



Автор: xalex
Дата сообщения: 08.06.2004 20:05
Dickobraz
max67
Есть ли какая-нибудь программа для декодирования словаря
(indirect djvu формата) в картинки символов (содержащихся в этом словаре) ?

Автор: estimated
Дата сообщения: 08.06.2004 21:00
juliab
Еще один вариант - использовать IrfanView 3.90 (и выше) !

Правда из-под GUI он декодирует только в BMP. Серые картинки при этом получатся довольно приличного размера. Положение может несколько улучшить сохранение на NTFS-том с компрессией.

А вот из командной строки можно задать самому формат для сохранения
(сам только сейчас обнаружил):

i_view32.exe c:\multipage.djvu /extract=(c:\temp,tif)
c:\multipage.djvu - исходный djvu
c:\temp - целевая папка
tif - формат для сохранения
(возможные варианты можно посмотреть в диалоге IrfanView Save/SaveAs)
Автор: cornborer
Дата сообщения: 09.06.2004 05:44
max67

Цитата:
Могу выслать по почте (1.5 Mb)

А можно мне закинуть: cornborer{друг человека}pisem.net ?
Автор: juliab
Дата сообщения: 09.06.2004 07:34
Спасибо всем.

Попробовал и djvuextract и iview - не получается выдернуть все сразу, после первой страницы процесс успешно останавливается и все.

а в djvudecode я хочу bmp выдернуть, а после первой страницы он вываливается, я так понимаю, что-то с именем выходного файла надо сделать, как диапазон задать?

DjVuDecode.exe --output-format=bmp --layer=all --page-range=1-27 01.djvu 01.bmp

** Unrecognized DjVu Message: [Contact LizardTech for assistance]
** Message name: Error
Parameter: ** Unrecognized DjVu Message: [Contact LizardTech for assistance]

Parameter: ** Message name: BmpStream.bad_BMP

В bmp каждая страница по 16 метров, а потом пакетно конвернуть куда надо - без проблем, а в многостраничном тифе получается каждая страница примерно по 15, и с таким файлом мой комп просто не живет.
Автор: estimated
Дата сообщения: 09.06.2004 09:07
juliab
Ну, в набор файлов (TIF или PNG) - не многостраничный, а каждый по отдельности - конвертнуть получается? Если да, то в чем дальше проблема, чем ты их потом открываешь, что значит "комп не живет", что за комп в конце концов (проц/оперативка)?
Автор: juliab
Дата сообщения: 09.06.2004 09:26
estimated

я ирфану говорю сконверти файл такой-то. Он честно берет из него страницу, конвертит в заданный формат и говорит, все, готово. Звездочки не всасывает
i_view32.exe c:\01.djvu /convert=c:\temp\01.bmp

Получается, проблема, как задать выходное имя, чтобы получилось на выходе 70 файлов постранично каждый

Такая же проблема с djvuDecode
BMP могу получить только с одной страницы, опять же из-за имени выходного файла неизменного, скорее всего, потому как вылетает на ошибке после первой страницы, а многостраничный тиф размером в гиг с хвостиком - чего мне с ним делать.


Добавлено
все получилось
это русификатор что -ли кривой в ирфане, пункта "многостраничное изображение" не было
Переключился на английский фейс и все нашлось.
Автор: max67
Дата сообщения: 09.06.2004 10:08
juliab
Вижу что опоздал с рацпредложениями. Ну и хорошо что с ирфаном все получилось.

С DjVuDecode можно использовать консольный for-цикл или засунуть все в какой-нибудь коммандный файлик, например:
tobmp.cmd
******************
md .\Out
for /L %%i in (1,1,6) do DjVuDecode.exe --output-format=bmp --page-range=%%i tt.djvu .\Out\%%i.bmp
******************
Наверняка, можно замутить и что-нибудь более универсальное, но это для знатоков консольных извращений.

xalex

Цитата:
программа для декодирования словаря

Никогда про такое дело не слышал. В стандартном наборе утилит от lizardteсh и djvulibre такой возможности нет.
Лучше спросить на офсайте djvulibre.

cornborer
Сейчас вышлю. (Если все еще надо.)
Автор: estimated
Дата сообщения: 09.06.2004 11:52
juliab
Значит, через GUI в IrfanView получилось.
А в командной строке ты перепутал "convert" с "extract" и вместо имени целевого файла надо задавать целевую папку. В общем, еще раз внимательно посмотри на формат команды, указаный мной на предыдущей странице.

Автор: cornborer
Дата сообщения: 10.06.2004 05:04
max67
10х!
Автор: MusicLover
Дата сообщения: 10.06.2004 05:29
Народ, я вот что не удобно, что в djvu и pdf нельзя выдрать текст из файлов... Или из pdf в Quark или Photoshop можно достать? Я не проверял пока...
Автор: Meaningless
Дата сообщения: 10.06.2004 09:52

Цитата:
А как сделать экспорт в графику всего файла djvu

А что, просто в FinePrint напечатать на скорую руку не катит?
Собственно это касается любого формата...
Автор: Dickobraz
Дата сообщения: 11.06.2004 11:07
На opendjvu.nm.ru выложил исправленную версию djvused.exe. Теперь при экспорте текста, аннотации и мета-тегов все выводится в символах, а не в восьмеричных кодах. Но требуется глубокое тестирование.
Автор: Nep
Дата сообщения: 12.06.2004 08:57
Astra55

Цитата:
WBR,
Astra

Эмуляция подписи запрещена!
Автор: estimated
Дата сообщения: 21.06.2004 13:15
Dickobraz
скачал djvu_utils.zip, там в cjb2.html читаю:

Цитата:
...Lossy compression is enabled by selecting option -lossy or option -clean
...
-clean
Remove flyspecks from the input image. This option enables a heuristic algorithm that removes very small marks. Such marks are often causes by noise and dust during the scanning process. The threshold mark size is chosen according to the resolution specified with option -dpi.


Они (составители хелпа) что там, CLEAN со SCAN перепутали?
В cjb2.exe в качестве опций можно использовать и то и другое?
Автор: xalex
Дата сообщения: 21.06.2004 16:45
estimated

Цитата:
Они (составители хелпа) что там, CLEAN со SCAN перепутали?


Тут (в djvulibre/cjb2) "clean" - глагол,
а в Djvu Solo/Edit "clean" - прилагалельное.

Так что все нормально.
Автор: estimated
Дата сообщения: 21.06.2004 21:30
xalex: спасибо! теперь понятно
Автор: gencho
Дата сообщения: 23.06.2004 14:04
ghosty

Цитата:
У меня сейчас другая проблема - небольшая, но неприятная. После использования утилитки от Генчо при копировании русского текста из созданного файла этот текст неизменно отображается в виде кракозябликов. Пока решения не нашел. Кто-нибудь сталкивался?


Побольше подробности можно?
Проблем еще стоит или все уже в порядке?
Версия FRFGrab с которой дело сделано, языки указанные в FineReader, codepage и локальный язык компутера, на котором сделана обработка?
Автор: Astra55
Дата сообщения: 23.06.2004 19:12
2 estimated

Косяк судя по всему в винде. Есть такой прикол - если на клаве язык выбран другой, то в некоторых софтах в буфер записывается неизвестно что. Софт Генчо я прогонял тщательно. проблем не было.

WBR,
Astra55
Автор: ghosty
Дата сообщения: 24.06.2004 00:18
gencho

Цитата:
Побольше подробности можно?
Проблем еще стоит или все уже в порядке?
Версия FRFGrab с которой дело сделано, языки указанные в FineReader, codepage и локальный язык компутера, на котором сделана обработка?

Спасибо за отклик. Проблема разрешилась. Без моего ведома были изменены языковые настройки системы, а я грешил на твою программу. Мне надо было разобраться вначале.
Благодарим за утилиту.
Автор: Meaningless
Дата сообщения: 24.06.2004 11:52

Цитата:
Косяк судя по всему в винде

Это не косяк, это фича


Цитата:
Есть такой прикол - если на клаве язык выбран другой, то в некоторых софтах

во всех, которые не поддерживают Unicode
Автор: gencho
Дата сообщения: 24.06.2004 17:03
Meaningless

Цитата:
во всех, которые не поддерживают Unicode


Я ето знаю. Но когда я попробовал конвертировать текст с ФайнРидера, не минуя через локальный язык, DjVu browser начал при Copy/Paste иногда выдавать польная чушь. Какой то символ сбивает браузера. Я думаю что ето какая то ошибка в браузере. Поетому и предупреждение стоит в readme, что язык распознавания ФайнРидера должен соответствовать локального языка компутера.
Автор: asdfg2003
Дата сообщения: 25.06.2004 13:46
давно не слышно новых версий кромсатора..проект закрыт?
как идет развитие ридера для *.djvu от Dickobraz?
Автор: bolega
Дата сообщения: 28.06.2004 08:53

Цитата:

давно не слышно новых версий кромсатора..проект закрыт?

Идет подготовка новой версии, терпение.
Слишком много нового.

Страницы: 12345678910111213

Предыдущая тема: Sockscap


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.