Ru-Board.club
← Вернуться в раздел «Программы»

» Scan Tailor

Автор: amz01
Дата сообщения: 08.02.2010 19:09
StanFreeWare
Такая деталь - ни в одном архиве с сепаратором нет его описания, в том числе, назначения, функциональности и параметров "in-out". Низзя так!...

Если прога делается для общественности, она должна быть минимально документирована и снабжена встроенным хелпом. Этим страдают все доморощенные шедевры - "как хош, так и разбирайся". ST - не исключение.
Автор: StanFreeWare
Дата сообщения: 08.02.2010 19:11
amz01
У всех шедевров есть документация в вики-формате.
Автор: amz01
Дата сообщения: 08.02.2010 19:15
StanFreeWare
Цитата:
У всех шедевров есть документация в вики-формате

Спасибо. Это называется "Баня. Через дорогу раздевалка"...

Автор: StanFreeWare
Дата сообщения: 08.02.2010 19:41
amz01
Так лучше?
Separator 0.61, Corrector 0.21
Автор: amz01
Дата сообщения: 08.02.2010 19:44
StanFreeWare
В каком смысле?
Я уже забыл, как их юзать, а описания внутри нет. Завтра буду посмотреть.
Автор: woodyfon
Дата сообщения: 08.02.2010 21:55

Цитата:
Что-то я пропустил: Вы дадите исходники алгоритма

Алгоритм первым я скину Tulon-у, да и то, если человек захочет кодить. Мнения о том, каким должен быть ST, радиально разошлись. Поэтому не думаю, что для других это будет важно и интересно. Бинарники уже есть, исходники дам тогда, когда увижу, что этого хотят большинство. А так смысла нет, дам исходники - человек уже не сможет их использовать в коммерческих программах, если ему предложат.
Автор: terminat0r
Дата сообщения: 08.02.2010 23:08
woodyfon

Цитата:
А так смысла нет, дам исходники - человек уже не сможет их использовать в коммерческих программах, если ему предложат.

Вы плохо представляете себе лицензирование под GPL, автор кода всегда может отдать/продать свой код, не зависимо от того под какой лицензией он этот код выпустил раньше.
Автор: ndch
Дата сообщения: 08.02.2010 23:48
amz01

Цитата:
ndch
Разрешение 300 ppi. Куда больше?

Тут уже писали эмпирическое правило, заключающееся в соотношении строк текста/дюйм.
Hint: 6-7 строк.
РАЗРЕШЕНИЕ МАЛЕНЬКОЕ, на вид ~150 ppi. Качество печати и следовательно скана хреновое. Следовательно с этим геморой в квадрате.
"Черные" скриншоты - часто проблемная часть.
Вот за 5 минут такая гадость получается. Можешь сравнить с оригиналом.
Кортинко приблизительно
Растр видишь ? Вот из-за него весь геморрой.
Попробую позже домучать.
hint:sattva descreen.
По вышеприведенной недообработке (ну всё равно читается лучше, чем до) должно быть все очевидно, потому не написал никаких комментариев.

Добавлено:
Поколотил бы "программистов" делающих такие скриншоты для книг.
Блондинки они или слепые? В винде же есть тема/оформление "контрастная белая".
Переключается на "раз".
Автор: StanFreeWare
Дата сообщения: 09.02.2010 05:13
ndch
Эмпирические правила какие-то приплетаете, эмоции никому не нужные. Dpi=300. И это факт. От вас всего-то просят результат (получение которого расписано в обещанных лицах, т.е. четко по шагам, а не "вот за пять минут"), превышающий по качеству то, что уже опубликовано amz01, желательно ужатый в djvu-страницы со сравнимым размером в kb слоя BG44. Здесь еще один скан от amz01, с серым скриншотом.
Автор: amz01
Дата сообщения: 09.02.2010 06:27
ndch За "слепую блондинку" - низкий поклон. И получи в ответ:"хреновому танцору всегда что-то мешает".
А насчёт качества сканов - они полностью соответствуют качеству оригинала. И муар такой-же на оригинале. Это издатели книги ламеры отстойные.
Ничего ты лучше не сделаешь, только время потеряешь. Я больше двух недель возился с разными вариантами и прибамбасами. А до этого 5 лет пытался сделать, но пока не появился STA с разделением сканов - ничего не выходило приличного.

Цитата:
В винде же есть тема/оформление "контрастная белая".
А зачем это нужно? К какому месту его прикладывать? Как это может повлиять на сканер?

Цитата:
читается лучше, чем до
Ты это сожми, сначала, а потом увидим - лучше или хуже...

"Граждане!"... Я же прямым текстом писал ранее, что, хоть качество картинок и хреновенькое, они всё-равно достаточно видны для понимания их содержимого. Я не стал их улучшать по безобразия, потому, что они не несут основной смысловой нагрузки, а только иллюстрируют текст книги. Если попадётся книга, где рисунки важны, то я их доведу до приличной кондиции без наукообразного шаманского бормотания. А получать рак мозгов "из спортивного интереса" - фиг вам.
Автор: slava_kry
Дата сообщения: 09.02.2010 08:11
amz01
StanFreeWare
ndch

Держите http://www.onlinedisk.ru/file/345025/ - 520 кБ

Внутри два вида 600 и 300 дпи (300 сделаны из 600)

Увеличиваете ресемплером до 600 (я делал ФотоЗумом), правите уровни, делаете битмар, битмар кодируете в дежавю. Или битмар 600 уменьшаете до битмар 300 и делаете дежавю. Результат в архиве.

И как мне кажется, всё это здесь оффтопик!?
Автор: amz01
Дата сообщения: 09.02.2010 08:24
slava_kry
Во первых, это не оффтопик. Мы говорим о работе в STA, что прямо соответствует названию темы.
Во-вторых, если на одну страницу с твоей гениальной обработкой идёт, в среднем 120 кило, то 1000 страниц попросит 120 метров. С таким размером я могу просто вставить картинки, очень близкие к оригиналу и гораздо качественнее, чем у тебя. Всё упирается в размер.
В-третьих, чудес не бывает.

Цитата:
а если слепой ведет слепого, то оба упадут в яму.
А если слепой ведёт зрячего, то в яму свалится только он...
Автор: slava_kry
Дата сообщения: 09.02.2010 16:08
amz01

Цитата:
А если слепой ведёт зрячего, то в яму свалится только он...

Задорный, молодой... глюпый аднака
Автор: amz01
Дата сообщения: 09.02.2010 16:27
slava_kry Самокритика - дело хорошее. Одобряю.
Автор: monday2000
Дата сообщения: 09.02.2010 17:03
woodyfon

Цитата:
исходники дам тогда, когда увижу, что этого хотят большинство.

Почему только СТ - такие исходники должны вообще быть доступны всем желающим. ИМХО чем скорее Вы выложите исходники, тем лучше.
Автор: ycheff
Дата сообщения: 09.02.2010 18:58
Опробовал подготовку сканов с программой Scan Tailor. Первое впечатление некоторой эйфории сменяется разочарованием.
Программа съедает то, что съедать не должна - многоточия, линии на графиках, некоторые символы и т.д. - все это часто исчезает, и требуется строгая проверка и повторение части работы заново. Программа исходно настроена на слишком сильную коррекцию контраста и яркости.
Подскажите, как бы зафиксировать (сделать настройку по умолчанию) настройку параметров (особенно отбеливания фона) на свои сканы. Спасибо.
Автор: woodyfon
Дата сообщения: 09.02.2010 19:17
monday2000
Нет определенности, какую лицензию должны иметь исходники. Сейчас этот вопрос решаем с автором алгоритма. То ли это будет GNU GPL, то ли Apache License пока неизвестно.
Сторонников ST в вашем лице я не вижу, поэтому не думаю , что вам будет это интересно. Хотел, чтобы были клоны ST, а не отдельные подпрограммки. И вообще зачем вам исходники, если у вас на разработку ST времени нету?

Добавлено:

Цитата:
Опробовал подготовку сканов с программой Scan Tailor. Первое впечатление некоторой эйфории сменяется разочарованием.
Программа съедает то, что съедать не должна - многоточия, линии на графиках, некоторые символы и т.д. - все это часто исчезает, и требуется строгая проверка и повторение части работы заново. Программа исходно настроена на слишком сильную коррекцию контраста и яркости.
Подскажите, как бы зафиксировать (сделать настройку по умолчанию) настройку параметров (особенно отбеливания фона) на свои сканы. Спасибо.

Попробуйте снять галочку с "Убирать пятна", программа даже точки в формулах или в пунктирах принимает за "мусор". А то, что сильно настроена контраст и яркость , изменить врядли получиться. Зато можно изменить режим вывода.
Автор: dma200899
Дата сообщения: 10.02.2010 04:23
Не отправляется файл дампа.

Падение на этом файле:
http://www.onlinedisk.ru/file/345889/
Автор: monday2000
Дата сообщения: 10.02.2010 08:08
woodyfon

Цитата:
И вообще зачем вам исходники

Я бы добавил их сюда: http://www.djvu-soft.narod.ru/bookscanlib/project.htm .

Добавлено:
Восстановление формы страницы текста для коррекции геометрических искажений
Ramiz Zeynalov, Alexander Velizhev, Anton Konushin
Department of Computational Mathematics and Cybernetics

http://www.graphicon.ru/proceedings/2009/conference/se9/121/121_Paper.pdf
Автор: ndch
Дата сообщения: 10.02.2010 09:12
slava_kry

Цитата:
И как мне кажется, всё это здесь оффтопик!?

Да, оффтопик.

Но не совсем оффтопик если бы звучало в такой формулировке: Для таких сканов требуется пост- или пре- обработка относительно СТ. Т.е. как бы неплохо было бы если в контекстном меню столбца превьюшек СТ было "скопировать путь данного скана" и "обновить данный скан" для/после обработки во внешней софтине.

slava_kry, согласитесь, не так уж и плохо что есть "юноши бледные, со взлядом безумным" :) А то грустно бы совсем было.

StanFreeWare

Цитата:
Эмпирические правила какие-то приплетаете, эмоции никому не нужные.

Скажите об этом многим:для начала Arcand,Tulon.
Более древние упоминания лень искать.
Это правило лежит на поверхности: возьмите много разных книг и прозрачную дюймовую линейку - происхождение станет очевидно.

Если до Вас не доходит намёками, объясняю "в лоб": Прочтите "Версия для печати" и не надо изобретать велосипед заново! Вы же открываете для себя такие бородатые фокусы и потом рассказываете всем, что жуть становится.


Цитата:
Dpi=300. И это факт.

Нравится задираться ? Скажи тогда какая линеатура. И это очень даже объективно.
Линиатура минимальная для обработки с целью получения неплохого результата, но качество печати оставляет желать лучшего, отсюда и посредственный результат.

amz01
Цитата:
За "слепую блондинку" - низкий поклон. И получи в ответ:"хреновому танцору всегда что-то мешает".

Ну что ж, будем прощаться, если Вы ничего не хотите ни видеть, ни слышать.
На будущее: пожалуйста, не хамите. А если нахамили - найдите мужество и извинитесь.
Автор: StanFreeWare
Дата сообщения: 10.02.2010 09:33
ndch
Я имел в виду следующее: (2696pix / 300dpi) * 25.4 mm_per_inch = 228.3mm = реальная высота данной книги. Все сходится. Что вы имели в виду под фразой

Цитата:
на вид ~150 ppi
?
Автор: Dashout
Дата сообщения: 10.02.2010 11:24
StanFreeWare

Цитата:
реальная высота данной книги
при каких полях?
мое убеждение, что для е-книги постоянным значением должна обладать стандартная ширина текстовой строки (области текста). Все другие параметры и действия, обеспечивающие наилучшее качество этой строки при просмотре (печати) - переменные.
т.е. выходит, что DPI должна быть динамической величиной, а не статической
Автор: StanFreeWare
Дата сообщения: 10.02.2010 11:33
Dashout

Цитата:
при каких полях? .. т.е. выходит, что DPI должна быть динамической величиной, а не статической

При реальных бумажных полях. Сказанное вами верно, только если вы не желаете сохранить информацию о реальном размере отсканированной бумажной книги, например, для создания последующей бумажной копии в натуральную величину из полученного djvu. Откройте любую djvu-книгу и выберите масштаб 100% - это и будет реальный размер страниц книги в миллиметрах после распечатки (можете линейку приложить к монитору).
Автор: Dashout
Дата сообщения: 10.02.2010 11:44

Цитата:
При реальных бумажных полях

поля - переменная величина
нельзя говорить "ЛЮБУЮ"
даже страницы в книге могут быть отсканированы с различным масштабом
А фокус при фотосъемке?
по-моему, все - таки нужно опираться на конечную продукцию - читабельную книгу ( в т.ч. и страницу)
Прошу понять правильно, я не хотел вас обидеть тем, что лично Вы делаете не качественные книги
но ведь и сканы, и книги бывают разные (я уже приводил примеры)
Автор: monday2000
Дата сообщения: 10.02.2010 11:53
woodyfon
Я сделал dewarping для картинки из Вашего поста с примерами алгоритма Рамиза Зейналова в Book Restorer 4.2.1.

Вот что получилось:


Как видно, результат dewarping в Book Restorer 4.2.1 (DBR) значительно превосходит по качеству dewarping по алгоритму Рамиза Зейналова (DRZ). А именно, после DRZ строки получаются волнистыми, тогда как после DBR строки получаются совершенно прямыми.

Выводы:

1. Dewarping в Book Restorer 4.2.1 пока заменить нечем.

2. Алгоритм Рамиза Зейналова необходимо совершенствовать.

3. Внедрять в СТ какой-либо из имеющихся алгоритмов dewarping (от Rob или от Рамиза Зейналова) пока что бессмысленно.
Автор: woodyfon
Дата сообщения: 10.02.2010 12:07
monday2000,
1. Реверсите код dewarpinga из BR. Будем внедрять! Это ж полностью коммерческая программа с закрытыми исходными кодами.
2. А о том, что алгоритм DRZ не совершенный, я не спорю. По мере изучения проблемы постараюсь вникнуть и что-то усовершенствовать, если удастся. Прошу, чтобы кто-нибудь присоединился. Математики, кодеры...А то как критиковать, так любят, а что-то создать или помочь на деле, так в кусты: нет времени, мне это неинтересно и т. д. Я же говорил, что данный алгоритм является наилучшим из доступных. И еще одно замечание: данное изображение я обработал с настройками по умолчанию. Попытаюсь, сделать лучше. Но строки после BR не полностью ровные, также есть геометрические искажения возле начала строк. Заметьте, DRZ коректирует даже перспективные искажения. Я не понимаю, почему у вас эталонами обработки являются BR и SK? Вроде же появились достойные альтернативы.
3. По крайней мере DRZ гораздо лучше, чем алгоритм Rob-a. И ненамного хуже BR. Это беря в учет, что Dewarp будет, уверен, в бесплатной программе ST.
Автор: Dashout
Дата сообщения: 10.02.2010 12:33
ndch

Цитата:
Скажите об этом многим:для начала Arcand,Tulon.
Более древние упоминания лень искать.
Это правило лежит на поверхности: возьмите много разных книг и прозрачную дюймовую линейку - происхождение станет очевидно.

к своему стыду не читал ветку полностью, тоже пытался изобрести велосипед
Ну тогда тем более не понятно, почему Tulon оставил статический DPI на входе...
Автор: Tulon
Дата сообщения: 10.02.2010 14:05
Почему важно знать реальный DPI? Попробую объяснить. Во первых под реальным DPI я понимаю такой, который позволяет по имеющемуся изображению объекта, оценить его физические размеры (дюймы, мм), которые он имел на исходном физическом носителе (в книге). Вот пара ситуаций, в которых эта информация используется:
1. Тянет ли данный объект на изображении по размерам на букву? Без реального DPI на этот вопрос не ответить.
2. Алгоритм Select Content медленный, поэтому мы прогоняем его на уменьшенной копии изображения. А насколько его можно уменьшить, так чтобы дыры и углубления в буквах не пропадали (это важно)? По пиксельному размеру этого не оценить, потому что у кого-то сканер формата A3 (большие размеры), а у кого-то софт для сканирования автоматически обрезает скан по размерам сканируемого объекта (малые размеры). При этом и тот и другой возможно сканировали одну и ту же книгу в одном и том же DPI.
Автор: ndch
Дата сообщения: 10.02.2010 14:24
Dashout

Цитата:
Ну тогда тем более не понятно, почему Tulon оставил статический DPI на входе...

Потому что очень ресурсоёмко и очень накладно. Полезность не очень большая. Он неоднократно говорил "есть более приоритетные направления". И это действительно так.

Информация к размышлению:
Каков размер символов (в пикселях) для уверенного распознавания в FineReader ?
Одинаков ли размер символов в глянцевом журнале, например хакер, игромания, и т.п. что там молодёжь читает.
Что надо дописать что бы был "динамический DPI на входе" и может ли это быть без разбития на части. Каков предполагаемый объем и трудоёмкость. Как это отразится на общей производительности программы.
В каком разрешении нужно сканировать, чтоб не заморачиваться по поводу мелких шрифтов ?


Добавлено:
StanFreeWare
Цитата:
Что вы имели в виду под фразой
Цитата:на вид ~150 ppi

Уже разжевали и в рот положили, тык теперь и проглотить за Вас ?

Будьте добры, просвятитесь что же такое линиатура.
http://www.google.com/search?q=lpi+линиатура
http://ru.wikipedia.org/wiki/Lines_Per_Inch

И как выглядит реальный оттиск, в т.ч. среднего качества.
http://en.wikipedia.org/wiki/Color_bleeding_(printing)

Книги же не на лазерном принтере печатают.
Автор: monday2000
Дата сообщения: 10.02.2010 14:37
woodyfon

Цитата:
1. Реверсите код dewarpinga из BR. Будем внедрять!

А в принципе, такая мысль у меня мелькала ранее (в порядке фантастики, конечно). Хотя, чисто теоретически, не исключаю, что сделать это можно.

Цитата:
А то как критиковать, так любят, а что-то создать или помочь на деле, так в кусты:

. Важно было установить, пригоден ли DRZ в принципе. Я думаю - не пригоден (пока, по крайней мере).

Цитата:
Попытаюсь, сделать лучше.

Надеюсь, сам автор тоже захочет попытаться.

Цитата:
3. По крайней мере DRZ гораздо лучше, чем алгоритм Rob-a. И ненамного хуже BR.

Всё-таки использовать DRZ пока нельзя. Это самый важный вывод.

Страницы: 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172

Предыдущая тема: Невозможно установить Acronis True Image Home v10.0.4940


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.