Ru-Board.club
← Вернуться в раздел «Программы»

» Scan Tailor: Часть 2

Автор: monday2000
Дата сообщения: 04.11.2010 20:50
LazyKent

Цитата:
Сейчас оригинальный Cuneiform находится в версии 1.0.0.
https://launchpad.net/cuneiform-linux

Я его сумел скомпилировать под Windows - т.е. CuneiForm-Linux v1.0.0 с http://launchpad.net/cuneiform-linux

Использованный компилятор - MS VC++ 6.0.

То есть я линуксовый клон CuneiForm скомпилировал под Windows.

Все подробности тут:

http://www.djvu-scan.ru/forum/index.php?topic=115.0
Автор: anagnost96
Дата сообщения: 08.11.2010 16:46
Под влиянием iit512 решился опубликовать собственное решение "всё в одном", на сей раз -- для создания PDF. Утилита называется pdfbeads и написана на Ruby с использованием расширения RMagick. При наличии собственно интерпретатора Ruby и пакетного менеджера RubyGems пакет можно скачать и установить командой

$ gem install pdfbeads

Идея заключалась в том, чтобы по возможности организовать создание PDF-файлов по модели, привычной по формату DJVU: те же двух- и трехслойные страницы, те же методы "подклейки фона" и "раскраски маски". Кроме того, pdfbeads может играть роль оболочки к jbig2enc -- свободному кодировщику формата JBIG2. Среди возможностей скрипта:

-- сжатие маски по технологии JBIG2 (с использованием jbig2enc) или Fax G4;

-- различные форматы сжатия для фоновых изображений (jpeg2000, jpeg, deflate);

-- корректная обработка малоцветных индексированных изображений (создается маска из нескольких слоев, каждый -- со своим цветом);

-- автоматическая сегментация "смешанных" файлов, полученных с помощью ScanTailor, причем для картинок можно задать разрешение, формат сжатия и (при желании) принудительную конвертацию в оттенки серого;

-- разбиение полноцветного изображения на фон и передний план по заданной маске (подобно тому, как это делает djvumake при указании опции PPM);

-- добавление текстового слоя из hOCR;

-- добавление оглавления, метаданных и меток страниц.

Имеется также русская страница руководства.

Автор: terminat0r
Дата сообщения: 08.11.2010 18:29
anagnost96
интересно. а вот в чем дело, когда я подсовываю многостраничный тифф
pdfbeads amu-o.tiff >amu-o.pdf
, все это кодируется в много одностраничных jbig2 файлов а потом
Page not completed: could not access amu-o.jbig2
Processed amu-o.tiff
Но это понятно так как файла amu-o.jbig2 нет, есть много amu-o_0ххх.jbig2 файлов. Т.е. многостраничные тиффы не поддерживаются?
Автор: anagnost96
Дата сообщения: 08.11.2010 18:36
terminat0r

Да, пока что не поддерживаются. Проблема в том, что к каждому скану текстовой страницы может быть привязано несколько вспомогательных файлов, и непонятно, как их учитывать, если базовые файлы все упакованы вместе. Я об этом долго думал, и в итоге счел, что овчинка не стоит выделки.
Автор: LazyKent
Дата сообщения: 08.11.2010 19:05
anagnost96
Я не могу понять, как мне скачать исходники и скомпилировать программу, если RubyGems отсутствует.
Автор: woodyfon
Дата сообщения: 08.11.2010 19:11
anagnost96, я так понял ваша программа консольная. А будет ли GUI-версия?
Автор: anagnost96
Дата сообщения: 08.11.2010 19:51
LazyKent

Если дело происходит под Windows, то надо брать такой инсталлятор Ruby, в котором RubyGems уже имеется. Если же под Linux, то в репозитарии Вашего дистрибутива должен быть пакет, посредством которого оно устанаваливается. В любом случае задача сводится с предыдущей.

На самом деле поставить RubyGems абсолютно никакой проблемы не представляет. Вот подобрать совместимую версию RMagick может оказаться несколько сложнее, особенно под Windows.

woodyfon

Ну, если только в очень отдаленной перспективе... Честно говоря, меня пока что вполне устраивает консольная версия.
Автор: LazyKent
Дата сообщения: 08.11.2010 20:25
anagnost96
Дело в том, что мне нужно собрать rpm-пакет на OBS (openSUSE Build Service). Для этого я должен закачать туда исходник в tar.bz2. Это можно как-то реализовать?

Вообще, описание внушает.
Спасибо.
Автор: anagnost96
Дата сообщения: 08.11.2010 21:21
LazyKent

Ах, вот оно что... Да, OBS -- это серьезно. Ну что ж, получить архив с программой вообще-то не проблема: качаем файл с расширением gem вручную с rubygems.org, открываем в архиваторе -- внутри видим искомый tar.gz. Ну, "исходников" в обычном понимании там, конечно, нет: ruby же интерпретируемый язык.

Только у меня тогда вопрос: а rpm-пакет потом будет устанавливать свое содержимое в основной каталог с расширениями ruby, или всё-таки вместе с gem'ами?


Автор: LazyKent
Дата сообщения: 08.11.2010 21:41
anagnost96

Я не знаю пока, куда будет устанавливаться содержимое. Никогда не собирал подобных пакетов. Надо почитать, какая в openSUSE политика насчёт rubygem.
Вот что-то нашёл: http://en.opensuse.org/openSUSE:Packaging_Ruby Ещё могу в рассылке opensuse-packaging поспрашивать.

Но не сомневайтесь — всё будет в лучшем виде, когда разберусь.
Автор: anagnost96
Дата сообщения: 08.11.2010 21:53
LazyKent

Если я правильно понял, то из этого документа следует, что для сборки rpm всё-таки нужно брать за основу gem, а не тарбол. Ну что ж, IMHO это правильно. Жаль, что в Ubuntu не так.
Автор: LazyKent
Дата сообщения: 08.11.2010 22:23

Цитата:
Жаль, что в Ubuntu не так.

Ну, есть мнение в сообществе, что openSUSE позиционирует себя как дистрибутив для разработчиков, в отличие от Ubuntu. Оттого и все эти "вкусные плюшки".


Цитата:
Никогда не собирал подобных пакетов.
Ошибся. Нашёл такой, и вижу, что скрипты ставятся в %{rb_sitelib}, а скомпилированные библиотеки (если имеются) в %{rb_sitearch}.
Это будет для i586 /usr/lib/ruby/site_ruby/<version> и /usr/lib/ruby/site_ruby/<version>/i586-linux соответственно.
Автор: denver 22
Дата сообщения: 09.11.2010 10:18
anagnost96
Эх, хорошая программа и столько мучений для её установки. Как будто разраб специально вносит доп. сложности ))). Даже на Убунту похоже с полпинка не установить ((
Автор: monday2000
Дата сообщения: 09.11.2010 10:33
anagnost96

Цитата:
решился опубликовать собственное решение "всё в одном", на сей раз -- для создания PDF.

Очень интересно. А почему PDF, а не DjVu? Жаль, что опять надо ставить какой-то очередной интерпретатор на винду.

Хотелось бы ещё со временем увидеть версию под Windows, готовую к применению.

Тут у меня была такая идейка одна: есть что-то вроде Файнридера под Linux. От ABBYY. Причём кто-то говорил, что научился получать от него XML-файл с OCR-данными. Нельзя ли это дело как-то под виндой суметь запустить? Потому что наверняка же Файнридер под Linux будет в виде консольного приложения (а не гуёвого как сам Файнридер, что весьма неудобно).
Автор: C0USIN
Дата сообщения: 09.11.2010 11:46

Цитата:
А почему PDF, а не DjVu?

Для Djvu разве подобных инструментов еще нет?
А PDF это стандарт. И еще там можно внедрять векторные данные, чего нет в Djvu.
Если это решение позволит делать подклейку фона и раскраску маски в PDF то будет здорово.
Автор: anagnost96
Дата сообщения: 09.11.2010 12:00
monday2000

Цитата:
Очень интересно. А почему PDF, а не DjVu?


Для DjVu технология и так уже отработана, а с PDF было интересно разобраться.

denver 22

Дык расскажите, в чем мучения-то. Можно приватом, чтобы топик не засорять.
Автор: C0USIN
Дата сообщения: 10.11.2010 10:57
anagnost96
Можешь помочь завести pdfbeads под Windows?
А то непонятно ничего (((

Я установил Ruby 1.8.6 (более новый не катит, т.к. RMagick есть только для этой версии)
Установил собственно RMagick
gem install rmagick-2.12.0-x86-mswin32.gem --local
Установил ImageMagick-6.5.6-8-Q8-windows-dll.exe

jbig2enc есть только в исходниках. Как его собрать?

gem install hpricot выдает [more=ошибку]
Код: [no]$gem install hpricot
Building native extensions. This could take a while...
ERROR: Error installing hpricot:
ERROR: Failed to build gem native extension.

C:/Ruby186/bin/ruby.exe extconf.rb
checking for stdio.h... yes
creating Makefile

make
make: *** No rule to make target `ruby.h', needed by `fast_xs.o'. Stop.


Gem files will remain installed in C:/Ruby186/lib/ruby/gems/1.8/gems/hpricot-0.8.3 for inspection.
Results logged to C:/Ruby186/lib/ruby/gems/1.8/gems/hpricot-0.8.3/ext/fast_xs/gem_make.out
[/no]
Автор: anagnost96
Дата сообщения: 10.11.2010 14:24
C0USIN

Насчет 1.8.6 -- всё правильно, я тоже брал его.

Виндовую версию jbig2enc можно найти по этой ссылке.

Насчет hpricot ничего посоветовать не могу: мне самому не удалось его установить под виндой. В принципе, будет работать и без него, но, конечно, без функциональности, связанной с созданием OCR-слоя.
Автор: LazyKent
Дата сообщения: 10.11.2010 15:08
anagnost96
Для создания текстового слоя достаточно иметь в директории HTML-файлы? Никаких особых параметров не нужно задавать?
Автор: anagnost96
Дата сообщения: 10.11.2010 15:09
Не нужно.
Автор: C0USIN
Дата сообщения: 10.11.2010 15:29
anagnost96
а куда кинуть файл jbig2.exe?
Автор: Melirius
Дата сообщения: 10.11.2010 15:33
monday2000

А что Вам вообще надо от консольного FineReader? Если чисто распознавание, так "их есть у меня" и уже давно...
Автор: anagnost96
Дата сообщения: 10.11.2010 15:38
C0USIN

В какую-нибудь директорию, входящую в переменную окружения PATH. К ней же, кстати, надо добавить и папку C:\Ruby186\bin, если этого не сделал инсталлятор.
Автор: monday2000
Дата сообщения: 10.11.2010 15:54
C0USIN

Цитата:
А PDF это стандарт.

Но вообще-то, для оцифровки бумажных книг DjVu лучше, чем PDF. Я даже об этом недавно статью написал - "Сравнение форматов DjVu и PDF" http://www.djvu-soft.narod.ru/scan/djvu_vs_pdf.htm .
Melirius

Цитата:
А что Вам вообще надо от консольного FineReader?

Это дало бы возможность полностью автоматического внедрения OCR-слоя в DjVu. В том числе пакетно. Сейчас же требуются лишние телодвижения - нужно открывать Файнридер, делать там распознанный пакет, указывать его DjVuOCR'у. А с консольным FineReader было бы проще - открыл DjVu, нажал кнопку "Распознать", подождал - и всё.
Автор: C0USIN
Дата сообщения: 10.11.2010 15:57
anagnost96

Цитата:
В какую-нибудь директорию, входящую в переменную окружения PATH

Не помогает.
Цитата:
JBIG2 compression has been requested, but the encoder is not available.

Вот мои переменные:
PATH=C:\Ruby186\lib\ruby\1.8\i386-mingw32;C:\Ruby186\bin;C:\Program Files (x86)\ImageMagick-6.5.6-Q8;C:\Program Files\Common Files\Microsoft Shared\Windows Live;C:\Program Files (x86)\Common Files\Microsoft Shared\Windows Live;C:\Windows\system32;C:\Windows;C:\Windows\System32\Wbem;C:\Windows\System32\WindowsPowerShell\v1.0\;C:\Program Files (x86)\Common Files\Acronis\SnapAPI\;C:\Program Files (x86)\Windows Live\Shared;C:\Program Files (x86)\gcc\bin;C:\Program Files (x86)\gcc\mingw\bin

Почему-то gcc не видит ruby.h лежащий в папке C:\Ruby186\lib\ruby\1.8\i386-mingw32
Автор: Melirius
Дата сообщения: 10.11.2010 19:35
monday2000

Тогда рекомендую вдумчиво перечитать Help к моему пакету, Вы откроете немало интересных вещей, в частности, как действительно из командной строки запускать FR на распознавание в несколько потоков (по числу ядер компа). Там даже приведён полный разбор bat-файла, который это делает, и приведён его полный текст. Ежли что не понятно, обращайтесь.
Автор: monday2000
Дата сообщения: 10.11.2010 22:05
Melirius

Цитата:
как действительно из командной строки запускать FR на распознавание в несколько потоков (по числу ядер компа).

Вот это: http://www.djvu-soft.narod.ru/soft/fr_auto.htm ? Это слишком ненадёжно и не массово-воспроизводимо. Лучше уж суметь запустить под виндой линуксовую командно-строчную версию файнридера http://ocr4linux.com/. Там можно свободно скачать триальную версию. Только она немного приболевшая - её нужно подлечить , да под виндой суметь использовать.И всё.
Автор: VidelSamogO
Дата сообщения: 11.11.2010 07:36
Итак, ждать обновлений пока не приходится судя по выражению лиц завсегдатаев форума. А последний удачный бета-релиз с ручным деворпингом, я перезалил, дабы не исчезал из поля зрения.
[more=ссылки для закачки]
http://depositfiles.com/files/tyznmiogs
------------------------------------------------------------
http://dl.free.fr/jwrhPt4Aj
------------------------------------------------------------
http://hotfile.com/dl/81811586/7dd56fa/Scan_Tailor_0.9.10_pre.7z.html
------------------------------------------------------------
http://ifile.it/8pgql0u
------------------------------------------------------------
http://rapidshare.com/files/430104970/Scan_Tailor_0.9.10_pre.7z
------------------------------------------------------------
http://www.fileserve.com/file/Y85MtHy
------------------------------------------------------------
http://www.gigaup.fr/?g=YDUGI6VV5Q
------------------------------------------------------------
http://www.load.to/orgv3yo3W6/Scan_Tailor_0.9.10_pre.7z
------------------------------------------------------------
http://www.megaporn.com/?d=PE9X2269
------------------------------------------------------------
http://www.megaupload.com/?d=MUWA513M
------------------------------------------------------------
http://www.terafiles.net/v-93577.html
------------------------------------------------------------
http://www.ultraup.org/?lien=bc7151fbe88cee07758fcaabf8168c77_Scan_Tailor_0.9.10_pre.7z
------------------------------------------------------------
http://www.zshare.net/download/825825157e21e845/
------------------------------------------------------------


Informations about the file
Size :     3.95 Mo
Upload Date :     2010-11-11 06:16:00[/more]
Автор: Melirius
Дата сообщения: 11.11.2010 11:34
monday2000

"Вольному - воля, спасённому - рай..." Как хотите - у меня и толпы знакомых уже 2 года без нареканий работает и под Win, и под Linux.
Автор: monday2000
Дата сообщения: 11.11.2010 12:23
Melirius
Всё это, понимаете, без гарантии. Построено на хакерских приёмах. Нет, нужен железно работающий у всех и всегда вариант, без опасностей сбоев. Цитата из http://www.djvu-soft.narod.ru/soft/fr_auto.htm :

Цитата:
Удаляем исходник на всякий пожарный - FineBR как-то нервно относится к посторонним tiff-ам в своей папке, временами вылетает.

Да и через bat-файлы - это слишком неудобно. Сделайте, что ли, простую и удобную вспомогательную программу (выполняющую работу батников) - скажем, с 8 портабельным файнридером - и тогда уж можно будет о чём-то говорить.

Страницы: 12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758596061

Предыдущая тема: CmCkA v4


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.