Ru-Board.club
← Вернуться в раздел «Программы»

» Scan Tailor: Часть 2

Автор: anagnost96
Дата сообщения: 12.10.2010 12:24
iit512

Небольшое замечание к скрипту: наверное, нет смысла писать -compress Group4, а потом делать вывод в pbm?
Автор: monday2000
Дата сообщения: 12.10.2010 13:32
U235

Цитата:
CuneiForm нормально под Win32 (проверял под VC++) собирается, с выводом в hocr.

Может быть, речь идёт о сборке под Windows Linux-порта CuneiForm? Тогда расскажите, пожалуйста, как это делается (конкретно).
Автор: iit512
Дата сообщения: 12.10.2010 22:43

Цитата:
Небольшое замечание к скрипту: наверное, нет смысла писать -compress Group4, а потом делать вывод в pbm?

Спасибо, убрал это.
===
Все же: есть ли возможность заставить tesseract сделать hOCR без специального конфигурационного файла?
Автор: anagnost96
Дата сообщения: 13.10.2010 00:11

Цитата:
Все же: есть ли возможность заставить tesseract сделать hOCR без специального конфигурационного файла?


В принципе, ничто не мешает создать файлик в текущем каталоге в процессе работы скрипта, а потом его за собой подчистить.
Автор: iit512
Дата сообщения: 13.10.2010 19:50
Да,я тоже подумал, что так можно сделать. Но жаль, что это не предусмотрено как опция.
Автор: iit512
Дата сообщения: 15.10.2010 01:31
На случай если сюда заглянет Tulon: Scan Tailor падает, если включить сортировку контента.
http://sourceforge.net/tracker/?func=detail&aid=3087706&group_id=227253&atid=1070628
Наверное, можно сделать какой-нибудь crash report или debug, но как -- я, к сожалению, не знаю.
Автор: Salvatorul
Дата сообщения: 15.10.2010 03:32
iit512
Бага известная. В git кажется уже поправили. По крайней мере, неделю назад собирал, проблем не заметил. Если собирать с опцией -DCMAKE_BUILD_TYPE=Debug то будет работать в любом случае.
Автор: LazyKent
Дата сообщения: 15.10.2010 07:01
iit512
При распознавании текста, на мой взгляд, нет необходимости конвертировать картинку в BMP. Cuneiform справляется с PNM.
Автор: iit512
Дата сообщения: 15.10.2010 21:10

Цитата:
При распознавании текста, на мой взгляд, нет необходимости конвертировать картинку в BMP. Cuneiform справляется с PNM.

К сожалению, это не так:

Код: > cuneiform -l ruseng s-008.pnm
Cuneiform for Linux 0.7.0 (multilang)
s-008.pnm is not a BMP file.
Автор: LazyKent
Дата сообщения: 15.10.2010 21:30
iit512
Cuneiform for Linux 0.7.0 (multilang) — это не то. Был такой проект, но давно не развивается.
Сейчас оригинальный Cuneiform находится в версии 1.0.0.
https://launchpad.net/cuneiform-linux

По факту. Я проверил, прежде чем написать.

И вообще, дайте нормальные контакты с баг-трекером и т. д. (или в личку отправьте). Я планирую сделать пакет для openSUSE, когда программа достигнет стабильности. У меня есть ещё несколько вопросов и претензий, но считаю, что тема про Scan Tailor не совсем то место, где нужно обсуждать.
Автор: iit512
Дата сообщения: 15.10.2010 21:31

Цитата:
Если собирать с опцией -DCMAKE_BUILD_TYPE=Debug то будет работать в любом случае.

Огромное спасибо за совет! Помогло.
В git, похоже, не исправили, потому что выкачивал вчера и это не работало.

LazyKent:
Добавлено:

Цитата:
Сейчас оригинальный Cuneiform находится в версии 1.0.0.

Мне нужен именно multilang, но это не так важно, поскольку

Код: $ cuneiform -l ruseng s-003.pnm
Cuneiform for Linux 1.0.0
s-003.pnm is not a BMP file.
Автор: LazyKent
Дата сообщения: 15.10.2010 23:34

Цитата:
Ubuntu 10.04, compiled

Угу. Спросите у мейнтейнеров, они libMagick++ включили в зависимости сборки?

В openSUSE мы проблем не испытываем:

Код: % convert 069.tif 069.pnm
% identify 069.pnm
069.pnm PNM 4196x5640 4196x5640+0+0 1-bit Palette PseudoClass 2c 2.824mb 0.630u 0:02
% cuneiform -l ruseng 069.pnm -o 069.txt
Cuneiform for Linux 1.0.0
% less 069.txt
налов воспроизводятся или как черный, или как белый. Каждый пиксел содержит только один бит информации, так чт
о файл имеет небольшой размер. При сканировании материала в режиме line-art использ~те очень высокое разрешени
е, приближающееся к разрешающей способности выводного устройства печати, (как минимум 1200 ppi (cM. главу 7)).
А при сканировании для OCR максимум 300 рр1.
и В режиме grayscale (8-битный) посредством 256 отгенков серого воспроизводятся все тона и цвета оригинала. Ка
ждый пиксел содержит восемь бит информации, поэтому размер файлов в восемь раз больше но сравнению с размерами
файла, полученного в результате сканирования в режиме line-art.
Автор: iit512
Дата сообщения: 15.10.2010 23:37

Цитата:
Спросите у мейнтейнеров

Мейнтейнеров чего? Я сам собирал с параметрами по умолчанию.
Автор: LazyKent
Дата сообщения: 15.10.2010 23:46
Я напишу вам на следующей неделе всё, что думаю.
Прошу не пугаться.


Добавлено:
Чтобы закрыть вопрос с форматами.

Читаем здесь: https://launchpad.net/cuneiform-linux/+series

Цитата:
0.2 series Obsolete
Latest releases: 0.2
Blueprints targeted: None

This release enables recognition of other languages as well as support for any image format supported by ImageMagick.


Подчёркиваю: support for any image format supported by ImageMagick
Автор: iit512
Дата сообщения: 17.10.2010 06:57
Понял, спасибо.
Автор: iit512
Дата сообщения: 17.10.2010 14:50
anagnost96:

Цитата:
нельзя ли предусмотреть выбор OCR-движка (cuneiform или tesseract)?

Сделано (версия 1.4)
Автор: Salvatorul
Дата сообщения: 19.10.2010 12:35
Скрипт не понимает абсолютных путей?


Код: ***@asus-x58l:~/Desktop$ ./img2djvu -d 600 /media/Data/Scan/prezente/out
ls: cannot access /home/***/Desktop//media/Data/Scan/prezente/out: No such file or directory
0 files:
./img2djvu: line 236: cd: /home/***/Desktop//media/Data/Scan/prezente/out: No such file or directory
Failure
Temporary directory left: /tmp/pages1yujm
Автор: iit512
Дата сообщения: 20.10.2010 00:13

Цитата:
Скрипт не понимает абсолютных путей?

Да. Это фича.

Цитата:
И зачем-то ругается на на наличие поддиректорий в папке out, что не есть гуд.

Уже нет (версия 1.5).
Автор: ndch
Дата сообщения: 25.10.2010 06:53
Зарелизили scantailor 0.9.9.2


Добавлено:
Версия 0.9.9.2 - 24 октября 2010
Исправлены проблемы с сортировкой страниц под Linux.
Исправлено появление в проекте страниц, ранее удаленных по частям.
Улучшение производительности на стадии вывода.
Добавлены переводы на немецкий и на французский.
Совместимось с последней версией boost.
Автор: woodyfon
Дата сообщения: 25.10.2010 17:15
Зарелизьте кто-нибудь версию st с dewarping-ом, пожалуйста.
Автор: Salvatorul
Дата сообщения: 26.10.2010 23:25

Цитата:
Зарелизьте кто-нибудь версию st с dewarping-ом, пожалуйста.

А чего там релизить?
git clone git://scantailor.git.sourceforge.net/gitroot/scantailor/scantailor
cd scantailor
cmake .
make
Автор: iit512
Дата сообщения: 27.10.2010 02:19
Спасибо! Все отлично работает теперь!
Автор: woodyfon
Дата сообщения: 27.10.2010 23:32
Salvatorul, под windows
Кстати, заметил. может и ни для кого не открытие, но st совершенно не предназначен для обработки цветных изображений, особенно отсканированных страниц цветных журналов. Посоветуйте какую-нибудь программку для обработки цветных изображений.
А почему приложения под/для, которая обсуждается в последних топиках нету в шапке, а то уже суть потерял, а хотелось бы попробовать.
Автор: ndch
Дата сообщения: 28.10.2010 06:52
woodyfon

Цитата:
программку для обработки цветных изображений

Фотошоп
Автор: Salvatorul
Дата сообщения: 28.10.2010 23:47
woodyfon

Цитата:
Salvatorul, под windows


Дык под виндовс тоже можно из исходников собирать


Цитата:
Кстати, заметил. может и ни для кого не открытие, но st совершенно не предназначен для обработки цветных изображений, особенно отсканированных страниц цветных журналов.


Хмъ... Обработал st где-то десяток журналов, вполне работоспособно.
Автор: woodyfon
Дата сообщения: 29.10.2010 01:06
ndch, с автоматической обработкой.
Salvatorul, собирать то можно, но для одного, а может, и последнего раза очень долго и сложно.
Вот имеено работоспособно. В этом я полностью, как ни странно, поддерживаю monday2000.
Автор: LonerDergunov
Дата сообщения: 31.10.2010 19:27
Однако журналы с картинками обрабатывать - доставляет.
В режиме Pictures Zones нет возможности прямоугольного выделения (большинство картинок - прямоугольники). Нужно четыре раза тыкнуть мышкой... при этом на глазок не выходит сделать ровно, и получается зачастую кривоватая фигура.
Или все же есть способ делать прямоугольники?
Автор: slava_kry
Дата сообщения: 31.10.2010 20:24
woodyfon

Цитата:
с автоматической обработкой.

Фотошоп
Автор: monday2000
Дата сообщения: 02.11.2010 09:10
Я тут Tulon написал письмо с одной мелочной просьбой, а он мне вот что в частности ответил:

Цитата:
Я уже практически отошел от дел. Уже несколько недель не брался за ST, и не тянет. На англоязычном форуме уже объявил, что в лучшем случае допишу dewarping, и на этом все.
Автор: slava_kry
Дата сообщения: 02.11.2010 12:51
Ну что же и за то, что есть большое спасибо в любом случае.

Страницы: 12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758596061

Предыдущая тема: CmCkA v4


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.