Ru-Board.club
← Вернуться в раздел «Программы»

» Scan Tailor

Автор: Dashout
Дата сообщения: 29.01.2010 17:03
amz01

Цитата:
А что ты курил?

Может по-вежливее...
Автор: amz01
Дата сообщения: 29.01.2010 17:13
Dashout
А грузить народ понятиями "сырьё-вторсырьё" - это вежливо?
Автор: Dashout
Дата сообщения: 29.01.2010 17:25
amz01
не понимаю, что Вас так обидело...
предмет-процесс-продукт - это филосовское определение любой (любой!) работы. На этом понятии построена вся управленческая культура производства.
Применительно к промышленным технология - сырье-процесс (функция) - продукт.
В данном случае, в разряд сырья входят 1) сканы, как продукция процесса сканирования и 2) сканы (как правильно назвать?) от процесса декодирования книг в формате djvu, pdf.
при этом, я не навязываю свое мнение, а высказал собственную точку зрения. Речь не о форме, а о содержании...
Автор: amz01
Дата сообщения: 29.01.2010 17:37
Dashout
Я тоже высказал свою точку зрения. При чём тут обида? Все термины и понятия в технологии сканобработки уже давно устаканились и всякий терминологический постмодерн только глаза режет своей экзотической эклектичностью.

А по содержанию интересны не концептуальные реверансы, а конкретные алгоритмы, как было выше сказано, - определение кривизны строк, эффективные алгоритмы улучшения освещённости изображения и т.п. Тут добавление новых понятий из фабрично-заводского тезауруса - как мёртвому припарка.

Расскажи лучше, чем и как сгладить буквы в двухбитовом черно-белом тексте. Мне это сейчас нужно. Все граф. "редактора" как только видят такое изображение - сразу прячут все свои "процессоры для сырья", гады.

А "управленческая культура производства", по-моему, построена на такой цепочке: деньги-товар-кучаденег-Куршевель.
Автор: Dashout
Дата сообщения: 29.01.2010 17:58
amz01
Последующие Ваши посты игнорирую
Автор: amz01
Дата сообщения: 29.01.2010 18:00
Dashout
Я этого не переживу...
Автор: StanFreeWare
Дата сообщения: 29.01.2010 18:18
Добавил ссылку на раздел, касающийся совместного использования STA + Djvu Imager в шапку темы.
Автор: dma200899
Дата сообщения: 29.01.2010 18:33
amz01


Цитата:
Что меня достаёт в BR - он, собака, на выходе меняет названия файлов на 1,2,3... Прямо "унтер Пришибеев в натуральную величину". Потом приходится выяснять что к чему относится, блин


поставьте в настройках стандартной страницы галочку в поле "сохранять начальное имя"
или выберите тот вариант нумерации, который вам симпатичнее.
Автор: amz01
Дата сообщения: 29.01.2010 18:37
dma200899
Вот за это биг мерси! Я туда даже не заглядывал ни разу - лазил только в общие настройки. Теперь будет гораздо проще обрабатывать сканы. Позор на мою лысую голову...
Автор: denver 22
Дата сообщения: 29.01.2010 21:58
StanFreeWare
Спасибо за ссылку. Смотрел страничку, когда не нужна была. А сейчас - забыл. Буду изучать
Автор: woodyfon
Дата сообщения: 29.01.2010 22:11
Вот сделал подборку статей на тему исправление кривизны строк.
_http://narod.ru/disk/17402999000/Dewarping.rar.html [2,18 Мб]
В данных статьях осуществлен обзор существующих методов, перечислены их недостатки и достоинства. Метода применяются как к серым, так и бинарным изображениям. Хотелось, чтобы их посмотрели несколько человек, сделали свои замечания. В конце концов нужно определить один (самый универсальный) метод. Если кого заинтересовал, прошу в личку
Автор: Tulon
Дата сообщения: 30.01.2010 02:16
Сделал сборку из текущих исходников:
http://www.onlinedisk.ru/file/334746/

Сделана попытка обрабатывать сложные случаи неравномерности освещения, которые случаются при съемке камерой.

Также присутствует вторая версия алгоритма выпрямления строк от Rob'а, хотя и в недоделанном виде. Во первых, у него на данный момент есть три булевых параметра, которые я просто зашил в код. Во вторых, он пока работает только в режиме черно-белого вывода в 600 dpi. А еще он медленный, хотя я уже вижу пару способов его ускорить. В общем все его ограничения будут со временем сняты.
Автор: amz01
Дата сообщения: 30.01.2010 12:56
TulonНадо обязательно включить туда патч из STA, чтобы можно было разделять текст и картинки. Без этого нет смысла юзать эту версию.
Автор: Sensile
Дата сообщения: 30.01.2010 14:57
При использовании dewarp получилось интересное геометрическое искажение
http://s003.radikal.ru/i204/1001/ac/0958d726e089.tif (300 кб)
Автор: Tulon
Дата сообщения: 30.01.2010 18:34
amz01

Цитата:
TulonНадо обязательно включить туда патч из STA, чтобы можно было разделять текст и картинки. Без этого нет смысла юзать эту версию.

Включать все, что требуют пользователи - верный путь загубить проект.

Sensile

Цитата:
При использовании dewarp получилось интересное геометрическое искажение
http://s003.radikal.ru/i204/1001/ac/0958d726e089.tif (300 кб)

Алгоритм экспериментальный, бла-бла-бла, и вообще не я его автор - ко мне не приставайте.
Автор: woodyfon
Дата сообщения: 30.01.2010 18:54
Перелопатив много статей, понял, что лучшим алгоритмом будет аглоритм "Восстановление формы страницы текста для коррекции геометрических искажений ". Для начала думаю его реализовать для бинарных (черно-белых) изображений. Краткая схема алгоритма следующая:
1. Подавление неравномерного освещения и бинаризация
2. Объединение символов в строки
3. Анализ геометрии строк и построение карты глубины
4. Построение поверхности по карте глубины
5. Проецирование с учётом полученной поверхности
Предлагаю, что каждый, кому интересный данный вопрос взял по пункту и детально разобрал. Например, первый требует выравнивания освещенности изображения в целом. Для этого используется два метода – деление изображения на его низкочастотную
составляющую и ретинекс. Связался с автором алгоритма. Поссмотрим, что ответит. Жаль, конечо, если не будет сотрудничать. Статью по алгоритму можно скачать по ссылке, которую давал выше постами.
Автор: StanFreeWare
Дата сообщения: 31.01.2010 07:57
Потенциально возможная методика создания малоцветных книг с помощью СТА:
1. Проходим все стадии с нормальными настройками, получаем два слоя - растровая часть и полноцветная картинка с дырками от растровой части (то, что сейчас делается Grey Text).
2. "Дырявые" страницы обрабатываются алгоритмом разделения текста по цветовой составляющей.
3. Полученные составляющие обрабатываются в ST только на этапе 6 (сейчас невозможно из-за невозможности группового обхода стадий 2 и 4) для получения гладкого бинарного вида для каждой составляющей.
4. Бинарные составляющие собираются в малоцветный tif, где каждой из составляющих задается свой цвет - черный, синий, красный и т.д., из которого получается малоцветная djvu-заготовка без иллюстраций.
5. Иллюстрации, выделенные на этапе 1 и обработанные с целью исключения растра подключаются к заготовке с помощью Djvu Imager.
Вновь приходим к необходимости наличия пресловутых трех фич.
Автор: amz01
Дата сообщения: 31.01.2010 08:04
Вот отсканировал и собрал книгу "Трельсен Э. - Модель СОМ и библиотека ATL 3"
Использовал STA.



http://rapidshare.com/files/343696058/Troelsen_ATL3.rar
Автор: StanFreeWare
Дата сообщения: 31.01.2010 08:28
amz01
Типичный результат использования STA.
Но я бы еще попробовал вытянуть контрастность иллюстраций и попытался избавиться от растра. Но это уже на любителя.
Автор: amz01
Дата сообщения: 31.01.2010 08:35
StanFreeWareПри улучшении качества картинок размер сильно растёт. Минимум в 3 раза. Оно нам надо?
Можно вообще оригинальные картинки вставить - это 600 метров получится.
Автор: StanFreeWare
Дата сообщения: 31.01.2010 08:48
amz01
Вы утрируете. Видимо, вы имеете в виду качество обложки - да, ее вы явно пережали. Качество обложки вполне можно на порядок увеличить - общий размер файла книги увеличится максимум на полмегабайта. Зато книга будет выглядеть на порядок аккуратней.
Я же имел в виду избавление от растра именно в иллюстрациях, и это как раз уменьшит результирующий размер djvu. Картинка-то получается проще.
В любом случае это скорее повод для обсуждения в топике Сканирование, обработка.
Автор: amz01
Дата сообщения: 31.01.2010 08:56
StanFreeWare
Обложка тут не при чём. Её качество значения не имеет. Я про остальные картинки - нет у них никакого растра, они такие в книге. А книга отпечатана на туалетной бумаге. Картинки обработаны фокусом и блуром Гаусса 3х3. Без этого они вообще никакие. Могу закинуть оригинал пары картинок для проверки.

Я хотел ещё улучшить картинки, но поскольку в этой книге они не несут особой информации, то решил оставить на таком уровне. Там всё, что надо, можно вполне разобрать. В этой книге главное - текст. А он читабелен на 100%.
Автор: monday2000
Дата сообщения: 02.02.2010 09:03
amz01

Цитата:
Что меня достаёт в BR - он, собака, на выходе меняет названия файлов на 1,2,3...

Там есть опция, включающая "выходные" имена в виде 0001, 0002, ... - см. http://www.djvu-soft.narod.ru/scan/curved_text.htm .

Цитата:
Насчет ползунка - не согласен.

Вот как раз подвернулись под руку сканы, где синие кругляши резаков здорово мешают - из-за того, что страницы слишком близки друг к другу:
http://ifile.it/tw28jx3 (1 МБ)

Добавлено:
denver 22

Цитата:
Вы можете либо дополнить статью об использовании DjVu Imager (с SK) применительно к Scantailor 0.9.7.1 anagnost96 или написать отдельный вариант? Если ДА, то и ссылочку сюда же...

Я, конечно, имею это в планах. Просто я всё надеюсь - что СТА будет доделан в соответствии с моими предложениями (без этого всё слишком громоздко) - а тогда уж можно будет писать и доку. Может, Вы это сделаете? Или, быть может, U235? Вы же оба уже собирали свои сборки ST - значит, опыт имеете.

Добавлено:
Dashout

Цитата:
не понимаю, что Вас так обидело...

Извините, но я тоже согласился бы тут с мнением amz01: не могли бы Вы быть впредь немного более .... э-э-э ... лаконичным? Например, что такое "читабельный", вряд ли нуждается в объяснениях.

amz01

Цитата:
А грузить народ понятиями "сырьё-вторсырьё" - это вежливо?

На мой взгляд, совершенно справедливое замечание. Изъясняться столь пространно, как Dashout вот здесь - некрасиво, невежливо и неуважительно по отношению к окружающим (кто бы они ни были). Конкретно: неэтично объяснять всем то, что и так всем ясно, типа "вода мокрая, а небо голубое".

Добавлено:

Цитата:
Надо обязательно включить туда патч из STA, чтобы можно было разделять текст и картинки. Без этого нет смысла юзать эту версию.

Я тоже поддерживаю эту просьбу.
Tulon

Цитата:
Включать все, что требуют пользователи - верный путь загубить проект.

Но и не включать ничего, что просят пользователи, тоже. Метод разделённых сканов - ИМХО уже прочно вошёл в обиход DjVu-книгосканирования. К тому же - зачем же тогда было делать зоны в СТ, если не сделать при этом вывод в стиле разделённых сканов?
Автор: denver 22
Дата сообщения: 02.02.2010 09:45
monday2000

Цитата:
Может, Вы это сделаете? Или, быть может, U235? Вы же оба уже собирали свои сборки ST - значит, опыт имеете.

Если речь только о сборке с патчем это одно... А вот добавить новые фичи - вы же знаете, что я не программист.
Я, к сожалению полностью сносил Винду, где было всё установлено для сборки программы из исходников. Желание собрать последнюю версию с патчем есть, а вот со временем... беда просто.
Короче я не обещаю, но надеюсь, что как-нибудь сделаю. ИМХО, у U235 наверняка это быстрее бы получилось.
Автор: Tulon
Дата сообщения: 02.02.2010 09:53
monday2000

Цитата:
Вот как раз подвернулись под руку сканы, где синие кругляши резаков здорово мешают - из-за того, что страницы слишком близки друг к другу:

Имейте совесть такие примеры приводить. Там же реальное DPI меньше сотни! Там пиксельный размер 640x480, даже чуть меньше, и это двухстраничный скан, да еще и JPEG! И нифига там рукоятки резака не мешают. Обнаружил правда что вернулось старое неудобное поведение при наклоне резака при зуме - так это отдельный вопрос.

И вообще, monday2000, хватит уже жаловаться: то вам не так, это не этак. Хочу резаки как в СК и выравнивание освещения, как в BR! При этом как удалось у вас выпытать, выравнивание освещения в BR, в отличии от ST, портит картинки. Но все равно хочу как в BR!

У меня вообще уже назревает мысль закрыть этот проект нафиг. Ну или по крайней мере уйти в полный игнор, ради сохранения душевного спокойствия. Завидую корпоративным разработчикам, потому что им не приходится выслушивать бесконечные "хочу то", "не работает это", и "продукт XX гораздо лучше".
Автор: anagnost96
Дата сообщения: 02.02.2010 10:02
monday2000

Я, к сожалению, сейчас очень занят и потому не могу заниматься дальнейшей модификацией СТ. Кроме того, реализовать Ваши предложения не так-то просто, поскольку они, как ни верти, плохо укладываются в идеологию программы. В самом деле, сейчас вывод в смешанном режиме построен на противопоставлении бинаризованного текста и полноцветных картинок. При этом для картинок применяются некоторые параметры по умолчанию, а вот параметры вывода текста можно настроить. Но что произойдет, если мы допустим вывод текста без бинаризации? Окажется, что все настройки, доступные для смешанного режима, в этом случае просто-напросто неактуальны. А что тогда отображать вместо них? Т. е. как ни верти, а нужно кардинально (причем не совсем понятно, как именно) менять раскладку диалоговых панелей.

И это при том, что я всё равно не понимаю (даже прочитав описание ST GreyText), для чего такой режим мог бы быть нужен.

Кстати, я убедился, что мой патч не подходит к текущей версии из git. Требуется модификация, которую, однако, IMHO нет смысла делать, пока алгоритм dewarping не будет доведен до ума.

Tulon

Попалась страница, на которой СТ при включенном dewarping'е гарантированно вылетает. Запостить куда-нибудь, или "алгоритм экспериментальный и бла-бла-бла"?

Автор: Tulon
Дата сообщения: 02.02.2010 10:30

Цитата:
Попалась страница, на которой СТ при включенном dewarping'е гарантированно вылетает. Запостить куда-нибудь, или "алгоритм экспериментальный и бла-бла-бла"?

Выкладывайте. Одно дело когда ошибается алгоритм компьютерного зрения - такова жизнь, но падать программа не должна.
Автор: monday2000
Дата сообщения: 02.02.2010 10:38
Tulon

Цитата:
Имейте совесть такие примеры приводить. Там же реальное DPI меньше сотни!

Согласен, с DPI там плохо дело. Но DPI-то там ни при чём - я хотел лишь показать, что бывают сканы, где соседние страницы настолько плотно прилегают друг к другу, что практически не остаётся никакого белого просвета между ними. Просто у меня нет другого такого примера - с нормальным DPI. Ранее мне попадались такие сканы с нормальным DPI - просто не сохранились.

На таких вот сканах уже имеет значение - что синие кругляши резаков не находятся за пределами сканов (лишь на обычных сканах это не важно, т.к. там точность реза не важна) - потому что, когда вручную подправляешь резак, кругляши загораживают собой начала линии будущего реза (верхнее и нижнее), т.е. мешаются.

Цитата:
Хочу резаки как в СК и выравнивание освещения, как в BR!

Разве я говорю "хочу"? Нет, я лишь говорю "так есть" (о недостатках). Т.е. я лишь стараюсь максимально полно выявить недостатки программы - что крайне важно для её правильного понимания. При этом приходится всегда "невзирать на лица" и не щадить ничьего самолюбия - но тут уж ничего не поделаешь, интересы дела того требуют. Чего стоят эти лицемерные хвалебные песнопения от того же Wired - грош им цена...
Автор: denver 22
Дата сообщения: 02.02.2010 10:49
anagnost96

Цитата:
мой патч не подходит к текущей версии из git

А для 0.9.7.2?
Автор: monday2000
Дата сообщения: 02.02.2010 10:53
anagnost96

Цитата:
Окажется, что все настройки, доступные для смешанного режима, в этом случае просто-напросто неактуальны. А что тогда отображать вместо них?

Не совсем понимаю, что Вы имеете в виду. Возможно, нужен какой-то особый трюк. Но очевидно, что в принципе то, о чём я прошу, можно сделать - просто, быть может, путём каких-то дополнительных ухищрений.
А вывод каждого сорта сканов в свою папку внутри "out" Вы смогли бы сделать?

Цитата:
И это при том, что я всё равно не понимаю (даже прочитав описание ST GreyText), для чего такой режим мог бы быть нужен.

Выравнивание освещённости или выпрямление искривленных строк в Book Restorer 4.1. Обе эти процедуры нельзя делать просто над серыми сканами - а только над такими, откуда были вырезаны картинки (иначе картинки необратимо портятся).

Кроме того, возможно, возникнет некая иная потребность по обработке серых сканов с вырезанными картинками - в некоей сторонней программе (сейчас всё не предусмотришь конкретно). Скажем, ужирнение букв в СК. Или контурная резкость в Corel PHOTO-PAINT (как в http://www.djvu-soft.narod.ru/scan/corel_scan.htm ).

Страницы: 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172

Предыдущая тема: Невозможно установить Acronis True Image Home v10.0.4940


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.