Tulon Цитата: Вы же все равно собираетесь стадии 3-6 делать в ST, и соответственно все равно придется проходить и полезную область и все остальное.
Да, но, если у нас случай одностраничных сканов, то мой вариант даёт возможность сразу после разрезания разворотов "отсеять" в сторону отрезанные ошмётки соседних страниц - и повторно загрузить в программу уже сканы без этих ошметков.
Хотя, справедливости ради, я не пробовал ещё ни одной такой книги обработать. Возникает вопрос:
а надо ли вообще отрезать такие ошметки в СТ? В СК однозначно было надо - т.к. они сбивали распознавание контура текста и вообще визуально затрудняли обработку (проще говоря, наличие неотрезанных ошмётков - это лишнее заметное неудобство для пользователя - думаю, это очевидно всем - вот посмотрите на скан с неотрезанным ошмётком соседней страницы:
)
В случае же, когда у нас сдвоенные развороты, то тогда необходимости разделить СТ на 2 программы я пока не вижу - т.к. после разрезания сдвоенного разворота мы получаем 2 полноценных скана, и ничего не нужно "отсеивать" в сторону.
Для случая одиночных сканов есть ещё вариант - как избежать разделения программы на 2: можно, после отрезания ошмётков, на последующих стадиях просто не показывать их (ошметки) в программе - а показывать только их пока ещё "виртуально-отрезанные" "основные части" (т.е. сканы без ошметка) - но бог ты мой, как же это будет сложно реализовать.
Добавлено: Tulon А почему Вы так боитесь разбить СТ на 2 программы, как я предлагаю? Как по-Вашему, какие минусы у этой идеи? Разве это хоть на сколько-нибудь усложнит жизнь пользователей? Если и усложнит - то только на самую малость - за счёт того, что нужно будет лишний раз выгрузить-загрузить сканы. Так ли уж это непосильно для тех же "домохозяек"? Думаю, практически нисколько.
Зато сколько плюсов мы приобретаем! Вот такие:
1. Повышение гибкости обработки сканов (пользователя уже не заставляют силой непременно пройти через все стадии каждый раз).
2. Борьба с вредным универсализмом.
3. Появляется возможность использовать СТ в иных целях - не связанных с DjVu-книгосканированием - например, подготовка сканов для распознавания в CuneiForm.
4. Вам же проще будет разрабатывать.
5. Возможность использования сторонних программ до точки разрезания. Например, разрезаем сканы в СК - а докрамсываем в СТ. Или наоборот. А такое вполне может быть - каждая программа в чём-то сильна, а в чём-то слаба.
6. Требованием "каждый раз проходить через все стадии" Вы всех юзеров стрижёте под одну гребёнку. А люди ведь разные - кому-то захочется обрабатывать сканы в иной последовательности (например, порезать, бинаризовать, и уже на таких сканах искать полезную область). И хоть тресни, такого человека никакими силами не заставишь делать иначе - что Вы, людей не знаете?
7. Увеличение конкурентных преимуществ СТ перед СК, где тоже вся функциональность "налеплена" в одну-единственную программу (гибрид печки с мясорубкой и стиральной машиной).
Я, в общем-то, как-то интуитивно чувствую, что СТ надо разделить на 2 программы. Потому что нынешнее требование СТ - "каждый раз проходить через все стадии" - воспринимается как насилие - и всякий раз вызывает невольный протест. Вот такой, чисто психологический момент. А всякое насилие рано или поздно разрешается его устранением. Так будет и с СТ - попомните мои слова (т.е. стадии 1-2 будут стараться делать где-то ещё, а не в СТ).
Я бы сделал разбиение так:
1-я программа: нынешние стадии СТ 1,2,3.
2-я программа: нынешние стадии СТ 3,4,5,6.
Да, 3-ю стадию (Deskew) разумно включить в обе такие программы - так наиболее гибко.
Добавлено: Вспомните ещё раз мою аналогию с горно-обогатительным комбинатом. Его же не дураки придумывали.
Руда проходит по конвейеру через ряд
независимых аппаратов (каждый из которых выполняет одну простейшую функцию) - а вовсе не загружается в один-единственный универсальный аппарат. Причём, в зависимости от вида/качества руды, последовательность проходимых ею видов аппаратов может меняться.