Ru-Board.club
← Вернуться в раздел «Программы»

» Scan Tailor

Автор: VadimirTT
Дата сообщения: 10.05.2009 13:31

Цитата:
Кстати интересно посмотреть, как СК

_http://ifile.it/gaicjtp
стандартная метода обработки в кромсаторе
насчет исходника, он ужасен - цветное сканирование с jpg сжатием, в общем, это проблема не создателя программы обработки, а тех кто сканировал
Автор: anagnost96
Дата сообщения: 10.05.2009 14:07

Цитата:
Для таких книг видимо стоит для всех страниц отключать удаление пятен. В обычных книгах таких страниц - от силы пяток.


Проблема-то ведь в том, что страдают не только отточия в оглавлении (таких страниц и правда немного), но и многоточия в тексте, особенно если там точек больше трех или они отбиты пробелом от предшествующего текста. Трудно заранее отследить все страницы, на которых они встретятся (это может быть и больше половины страниц книги). В результате получается, что despeckle практически бесполезен, т. к. из соображений безопасности его приходится отключать всегда.

Причем многоточия -- это только наиболее заметная из проблем. Сейчас попробовал обработать скан, где встречаются фрагменты греческого текста, причем использован шрифт с большими перепадами в толщине штрихов. В результате буквы распадаются на отдельные кусочки, и если они вдруг окажутся слишком мелкими -- то пиши пропало: исчезают целые слова. В общем, мне кажется, что тут всё-таки нужна некоторая регулировка агрессивности: например, того размера пятен в пикселях, ниже которого они считаются кандидатами на удаление.
Автор: Arcand
Дата сообщения: 10.05.2009 15:47
anagnost96
Если не затруднит, выложите проблемные сканы. Сейчас я занимаюсь деспеклом, хотелось бы потестить на серьезном
Эта просьба ко всем заинтересованным.
Автор: Tulon
Дата сообщения: 10.05.2009 16:47
VadimirTT

Цитата:
стандартная метода обработки в кромсаторе

Ну что, в СК тоже получились черные линии, не такие большие как в СТ, но все же. Как я уже говорил, в принципе наверное можно обрабатывать такие ситуации, но дело это неблагодарное - горе-сканировщики всегда придумают, чем поставить в тупик даже очень хорошую прорнамму.


Цитата:
насчет исходника, он ужасен - цветное сканирование с jpg сжатием, в общем, это проблема не создателя программы обработки, а тех кто сканировал

К тому же 150 DPI и уже выполненная компенсация наклона (чего лучше не делать отделньно). Впрочем сами буквы в СТ получились вполне приличными для такого исходника.

anagnost96

Цитата:
В результате буквы распадаются на отдельные кусочки, и если они вдруг окажутся слишком мелкими -- то пиши пропало: исчезают целые слова. В общем, мне кажется, что тут всё-таки нужна некоторая регулировка агрессивности: например, того размера пятен в пикселях, ниже которого они считаются кандидатами на удаление.

Надо полагать опять 150 DPI jpeg?
В конце концов конечно появится регулировка аггрессивности удаления пятен, но это будет после того, как будут исчерпаны другие методы.
Автор: anagnost96
Дата сообщения: 10.05.2009 18:03

Цитата:
Если не затруднит, выложите проблемные сканы.


Выложил несколько страниц сюда: http://www.thessalonica.org.ru/downloads/despeckle2.zip. К греческому на самом деле мог бы специально внимание не привлекать, т. к. та же проблема и с латиницей: подвержены исчезновению небольшие словечки (предлоги), в особенности вблизи корешка, где книга неплотно прилегала к стеклу. Кроме того, на некоторых страницах пропадают тире, которыми выделены номера страниц.


Цитата:
Надо полагать опять 150 DPI jpeg?


Там на самом деле было где-то между 200 и 300, а что до jpeg -- ну так не в RAW же мне книжки снимать.

Но на сей раз я специально взял вместо фотографий вполне приличные сканы на 300 DPI.
Автор: Tulon
Дата сообщения: 10.05.2009 19:26

Цитата:
Выложил несколько страниц сюда: http://www.thessalonica.org.ru/downloads/despeckle2.zip. К греческому на самом деле мог бы специально внимание не привлекать, т. к. та же проблема и с латиницей: подвержены исчезновению небольшие словечки (предлоги), в особенности вблизи корешка, где книга неплотно прилегала к стеклу. Кроме того, на некоторых страницах пропадают тире, которыми выделены номера страниц.

Тут мы имеем нетипичную неравномерность освещения. Типичный случай - фон ближе к корешку темнеет, буквы остаются как есть или темнеют незначительно. Тут буквы выцветают (становятся светлее), фон тоже незначительно светлеет. Как обрабатывать такой случай, я не знаю. Существующий метод выделяет фон, и затем увеличивает контраст там, где фон темнее, а сам фон белит. Здесь фон меняется незначительно, да еще и не в ту сторону.
Я смотрю что у одной половинки скана изменение освещения типичное, а у другой нет. В такой ситуации я бы перевернул книгу на 90 градусов и сканировал бы отдельные страницы, а не развороты. К despeckle это все конечно отношения не имеет, но по нему я уже изложил свою точку зрения.


Цитата:
Там на самом деле было где-то между 200 и 300, а что до jpeg -- ну так не в RAW же мне книжки снимать.

Когда сканер по какой-то причине недоступен - можно конечно и фотиком пользоваться, но на хорошие результаты в таком случае расчитывать не приходится.


Цитата:
Но на сей раз я специально взял вместо фотографий вполне приличные сканы на 300 DPI.

Эти конечно лучше предыдущих, но вот засада - нетипичная неравномерность освещения. Опять же интересно посмотреть, как такие сканы обработает СК или BR.

Добавлено:
Хотя в СК наверное можно будет получить приемлемый результат, просто задрав порог бинаризации - благо фон достаточно чистый.
Автор: Arcand
Дата сообщения: 11.05.2009 03:14
Tulon
Цитата:
Тут мы имеем нетипичную неравномерность освещения. Типичный случай - фон ближе к корешку темнеет, буквы остаются как есть или темнеют незначительно. Тут буквы выцветают (становятся светлее), фон тоже незначительно светлеет.
На самом деле это довольно типичный случай при сканировании разворотами - лампа сканера светит немного вперед по ходу каретки. Поэтому дальняя сторона сгиба получается засвеченной (светлой), ближняя - недосвеченной (темной) по сравнению с основным сканом. При сканировании надо стараться сильнее прижимать к стеклу корешок книги. В целом хороший скан. Минусы - искривления строк и пересвет одной стороны корешка. С точки зрения деспекла здесь не вижу проблем (по опыту работы с СК, да и у меня не должно быть).
Сегодня постараюсь обработать скан в Кореле.
Автор: iit512
Дата сообщения: 11.05.2009 08:04

Цитата:
Моя догадка такая: прогнав пакетную обработку на стадии Вывод, вы потом проходите по ней вручную, и вам приходится долго ждать, поскольку происходит повторный вывод. Если так, то как я уже говорил, не делать повторный вывод если ничего не изменилось - есть в планах.

Ваша догадка абсолютно правильная -- именно это я имел в виду. Прошу прощения за косноязычность. Спасибо!

Цитата:
В результате получается, что despeckle практически бесполезен, т. к. из соображений безопасности его приходится отключать всегда.

Согласен. Я его практически всегда и отключаю.

Цитата:
Ну что, в СК тоже получились черные линии, не такие большие как в СТ, но все же.

Тогда беру свои слова обратно. Это баг бинаризации, но не уникальный для СТ

Цитата:
насчет исходника, он ужасен - цветное сканирование с jpg сжатием

Да еще и 150 dpi Я применяю СК и СТ именно для таких тяжелых случаев, когда контент доступен только в такой "ужасной" форме. Следующая стадия -- доставать книгу и сканировать заново, чем кстати, сегодня и занимался (для других книг, еще более ужасных).
Автор: anagnost96
Дата сообщения: 11.05.2009 08:49

Цитата:
Тут мы имеем нетипичную неравномерность освещения.


Ну хорошо, корешок брать не будем: там сложности действительно не только с despeckle, но и с выравниванием освещения. Но вот проблемные многоточия и тире (да и некоторые буковки, которые тоже подвержены исчезновению, если не поднять порог бинаризации) расположены вполне себе по центру страницы. Т. е. приведенные образцы сохраняют силу в качестве иллюстрации к моим словам о том, что сейчас despeckle лучше не использовать, поскольку заранее неизвестно, что именно и на каких страницах может попасть под нож.


Цитата:
Когда сканер по какой-то причине недоступен - можно конечно и фотиком пользоваться, но на хорошие результаты в таком случае расчитывать не приходится.


Мой опыт убеждает меня в обратном. При съемке на фотик, конечно, приходится учитывать больше факторов, но сам процесс идет гораздо веселее, а качество получается не сказать, чтобы сильно хуже. Тем более, как выяснилось, именно СТ обрабатывает фотки очень прилично. Более того, меня не покидает ощущение, что с данной конкретной книжкой было бы меньше проблем, если бы я снимал ее на фотик, а не на сканер.

Но это так, мысли вслух: спорить на эту тему, наверное, нет смысла.

Автор: VadimirTT
Дата сообщения: 11.05.2009 09:51
anagnost96
Error 404!
/downloads/despeckle2.zip.
File Not Found!
Автор: Arcand
Дата сообщения: 11.05.2009 10:16
VadimirTT
Точку в конце уберите

Добавлено:
anagnost96
http://abab.front.ru/job1.djvu
Обработал в Корел, включая деспекл. Дескью и кроп делал в СК. Торопился, поэтому может что-то пропустил
Автор: VadimirTT
Дата сообщения: 11.05.2009 12:34
anagnost96
сделал Ваш пример в кромсаторе, по стандартной методике, только немного задрал порог бинаризации до 220: _http://ifile.it/a09xlkr
З.Ы. ghosty сказал бы, что такие книги, с греческим текстом и пр., надо сканировать в 600
Автор: Tulon
Дата сообщения: 12.05.2009 00:39
Бинаризация и в СК, и в Кореле получилась хорошо, но это потому, что порог задавался вручную. Может и в СТ со временем появится полностью ручное задание порога бинаризации, для сложных случаев. По поводу Despeckle - я уже говорил, что, перед тем, как делать регулировку аггрессивности, сначала нужно исчерпать другие методы. Ручная регулировка - это для меня капитуляция перед проблемой. К тому же она будет привязана к конкретному алгоритму, что не есть хорошо.
Автор: monday2000
Дата сообщения: 12.05.2009 08:27
Tulon
Cuneiform-Qt http://www.altlinux.org/Cuneiform-Qt в планах хотят интегрировать со ScanTailor. Любопытно, что имеется в виду.
Автор: ITTY
Дата сообщения: 12.05.2009 09:29
У меня версия 0.9.5, 4-е процессорная машина, 4Гб память, WinXP + SP3.
При Deskew программа пару раз падала.
Автор: monday2000
Дата сообщения: 12.05.2009 10:41
http://jenyay.net/blog/2009/04/30/scan-tailor-programma-dlya-obrabotki-otskanirovannykh-knig/
Автор: CrackMe
Дата сообщения: 12.05.2009 20:01
Tulon
А почему вы в инструкции по сборке не указали , что нужно установить пакет libboost1.35-dev?
Автор: Tulon
Дата сообщения: 13.05.2009 00:27

Цитата:
Cuneiform-Qt http://www.altlinux.org/Cuneiform-Qt в планах хотят интегрировать со ScanTailor. Любопытно, что имеется в виду.

Не знаю, со мной они не связывались. Самый реальный вариант - взять исходники СТ, выкинуть оттуда две последних стадии, и заменить их стадией OCR.


Цитата:
У меня версия 0.9.5, 4-е процессорная машина, 4Гб память, WinXP + SP3.
При Deskew программа пару раз падала.

Я так понимаю падения не воспроизводятся? Придется видимо все-таки прикручивать обработчик падений с трассировщиком стека.


Цитата:
http://jenyay.net/blog/2009/04/30/scan-tailor-programma-dlya-obrabotki-otskanirovannykh-knig/

Видел.


Цитата:
А почему вы в инструкции по сборке не указали , что нужно установить пакет libboost1.35-dev?

Инструкция несколько устарела. Раньше нужные компоненты boost'а поставлялись вместе с СТ, а теперь уже нет - обновлять их слишком гемморойно, да и дистрибутивы не приветствуют такой подход. А инструкция между прочим на Wiki и доступна для редактирования без всякой регистрации, так что заметили неточность - поправьте. Кстати 1.35 - это минимальная версия. Можно брать и новее.
Автор: monday2000
Дата сообщения: 13.05.2009 16:34
Tulon

Цитата:
Раньше нужные компоненты boost'а поставлялись вместе с СТ, а теперь уже нет

Кстати, если есть такая возможность - минимализируйте насколько возможно вес дистрибутива СТ.
Автор: Tulon
Дата сообщения: 13.05.2009 22:03

Цитата:
Кстати, если есть такая возможность - минимализируйте насколько возможно вес дистрибутива СТ

Разве еще остались люди на модемах? СТ весит примерно столько, сколько весит средняя книга в djvu формате. Кто качает книги, скачает и СТ.
Автор: Arcand
Дата сообщения: 15.05.2009 05:12
Tulon
Цитата:
Бинаризация и в СК, и в Кореле получилась хорошо, но это потому, что порог задавался вручную.
По крайней мере в случае Корела это не совсем так, точнее совсем не так . Порог я обычно задаю в диапазоне 170-190, в данном случае он был равен 175. Кстати, Вы могли обратить внимание, что текст у меня не жирный - т.е. порог не задран.
Дело в контурной резкости (Unsharp mask). Применение этой обработки считаю для себя обязательной. Ее назначение:
1. При сканировании в 300 дпи книг со шрифтом, имеющим тонкие перемычки ("и", "н" и пр.) последние на сканах получаются бледными (как бы слегка размытыми). Если не принять специальных мер, то на выходе от них останутся фрагменты или они потеряются. Чтобы их спасти, применяю контурную резкость, которая дополнительно усиливает контраст букв. Поэтому, порог бинаризации особо на жирность не влияет. Кстати, перед бинаризацией я выполняю Сглаживание, чтобы не только сгладить буквы, но и чтобы порогом можно было регулировать жирность по вкусу.
2. Случай, о котором шла речь - пересвет текста у одной стороны сгиба. Не всегда удается хорошо прижать корешок к стеклу и, чтобы вытащить бледный текст, применяется контурная резкость.

ИМХО, контурная резкость СТ очень бы не помешала . Не у всех же ОптиуБук. Да и в случае ОптикБука можно в два раза ускорить сканирование, если сканировать разворотами.

Автор: monday2000
Дата сообщения: 15.05.2009 09:30
Tulon

Цитата:
Разве еще остались люди на модемах?

Если я не ошибаюсь, тут кто-то делал билды СТ, которые получались меньше размером, чем Ваши.
Автор: CrackMe
Дата сообщения: 16.05.2009 22:16
Tulon
Добавьте, пожалуйста бип (отключаемый) , который срабатывает после окончания пакетной обработки на какой-то стадии. Например, я сейчас включил стадию нарезки и паралельно читаю блог, но что бы узнать закончилась ли нарзека мне надо переключится обратно и посмотреть не закончилась ли она, а так я мог бы болеее эффективно использовать время.

Добавлено:
Я наверное не точно выразился. идею в виду , что сопровождать исчезновение копки послле успешного окончания процесса обработки.
Автор: Tulon
Дата сообщения: 17.05.2009 14:52
Arcand

Цитата:
ИМХО, контурная резкость СТ очень бы не помешала . Не у всех же ОптиуБук. Да и в случае ОптикБука можно в два раза ускорить сканирование, если сканировать разворотами.

Буду иметь в виду.

monday2000

Цитата:
Если я не ошибаюсь, тут кто-то делал билды СТ, которые получались меньше размером, чем Ваши.

Нет, то было только предложение разделить СТ на две части, одну из которых - dll'ки - качать нужно было бы только один раз или по крайней мере редко.
Процитирую свой ответ:

Цитата:
То есть разделить пакет на две части - сама программа и библиотеки. Экономия будет только при обновлениях, а гемороя значительно прибавится - и пользователям, и мне. Например когда я захочу обновить какую-либо из этих библиотек, то придется писать на странице закачки: "если вы скачивали пакет с dll'ками до такого-то числа", значит вам нужно их обновить". Кстати в первый раз качать придется больше, чем сейчас - поскольку исполнительный файл + dll'ки будут всяко больше, чем статически скомпилированный исполнительный файл. В общем овчинка выделки не стоит. Что такое два-три лишних мега по сравнению с потерей удобства?


CrackMe

Цитата:
Добавьте, пожалуйста бип (отключаемый) , который срабатывает после окончания пакетной обработки на какой-то стадии. Например, я сейчас включил стадию нарезки и паралельно читаю блог, но что бы узнать закончилась ли нарзека мне надо переключится обратно и посмотреть не закончилась ли она, а так я мог бы болеее эффективно использовать время.

А не устроит ли вас вместо бипа мигание таскбара? Тут и опции никакой не пришлось бы добавлять.
Автор: CrackMe
Дата сообщения: 17.05.2009 21:23
Устроит, но так я могу и от компа в пределах комнаты отойти.
не мог ли бы ещё 1 фичу добавить:
переназначьте клавиши q и w не на то, чтобы они меняли главное изображение посередине, а двигали иконки вниз/вверх только маленькие иконки. Дело в том, что я предпочитаю вначале прогнать данный этап в автоматическом режиме для всех изображений, а потом гляжу на маленькие изображения и там где надо нажимаю на иконку и вручную правлю параметры.
Автор: monday2000
Дата сообщения: 18.05.2009 15:16
Tulon

Цитата:
В общем овчинка выделки не стоит. Что такое два-три лишних мега по сравнению с потерей удобства?

А, вон оно что. Я тоже так думаю.
Автор: CrackMe
Дата сообщения: 20.05.2009 18:07
Нашёл баг: при добавлении файла в существующий проект, нажимаю в диалоге по совей домашней директории и и СТ вылетает. ОС убунту 8.10.

Добавлено:
Предлагаю голосовать за номинирование СТ на sourceforge.net
Автор: Tulon
Дата сообщения: 20.05.2009 21:38

Цитата:
Нашёл баг: при добавлении файла в существующий проект, нажимаю в диалоге по совей домашней директории и и СТ вылетает. ОС убунту 8.10.

Тоже Ubuntu 8.10, но воспроизвести не смог.
Раз уж вы под Linux, вам будет не сложно сделать backtrace.

Код:
gdb scantailor
run
Автор: CrackMe
Дата сообщения: 21.05.2009 10:09
Tulon
[more=код]
Код: (gdb) bt
#0 0xb7d4307f in ?? () from /usr/lib/libQtGui.so.4
#1 0xb7d43903 in QSortFilterProxyModel::mapToSource ()
from /usr/lib/libQtGui.so.4
#2 0xb7c6fb91 in ?? () from /usr/lib/libQtGui.so.4
#3 0xb7c70592 in ?? () from /usr/lib/libQtGui.so.4
#4 0xb7c76a9a in QFileDialog::qt_metacall () from /usr/lib/libQtGui.so.4
#5 0xb75a4a60 in QMetaObject::activate () from /usr/lib/libQtCore.so.4
#6 0xb75a57e2 in QMetaObject::activate () from /usr/lib/libQtCore.so.4
#7 0xb7debfd3 in ?? () from /usr/lib/libQtGui.so.4
#8 0xb7c8c315 in ?? () from /usr/lib/libQtGui.so.4
#9 0xb7dec095 in ?? () from /usr/lib/libQtGui.so.4
#10 0xb75a4a60 in QMetaObject::activate () from /usr/lib/libQtCore.so.4
#11 0xb75a57e2 in QMetaObject::activate () from /usr/lib/libQtCore.so.4
#12 0xb7d0ef89 in QItemSelectionModel::currentChanged ()
from /usr/lib/libQtGui.so.4
#13 0xb7d0f12d in QItemSelectionModel::setCurrentIndex ()
from /usr/lib/libQtGui.so.4
#14 0xb7cc0fca in QAbstractItemView::mousePressEvent ()
from /usr/lib/libQtGui.so.4
#15 0xb784e949 in QWidget::event () from /usr/lib/libQtGui.so.4
#16 0xb7b85fd3 in QFrame::event () from /usr/lib/libQtGui.so.4
#17 0xb7c1c7df in QAbstractScrollArea::viewportEvent ()
from /usr/lib/libQtGui.so.4
---Type <return> to continue, or q <return> to quit---

Автор: Tulon
Дата сообщения: 21.05.2009 23:26
CrackMe
Это оказался баг в Qt. Появился где-то в 4.4.x, потом пропал, а потом появился снова в 4.5.1 (это последняя на данный момент версия). В 4.5.2 будет исправлен, а пока что просто не пользуйтесь левой панелью.

Страницы: 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172

Предыдущая тема: Невозможно установить Acronis True Image Home v10.0.4940


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.