Уважаемый Tulon
Если текст покажется Вам полезен – буду рад. Нет – не проблема. Для меня главное это как-то поучавствовать в том большом и нужном деле, которое Вы реализуете. Вспомните японский "кружок качества" – только 5% предложений дают эффект, но не было бы предложений, не было бы и этих значимых 5%.
Правильное позиционирование на нужный сегмент рынка упорядочит техническую реализацию комплекса СТ, обеспечит максимальную полезность программы для конечного пользователя, увеличит степень полезности, а следовательно рост количества пользователей.
На мой взгляд, схема выглядит так:
Идея конвейера СТ позволяет максимально быстро и качественно сформировать маршрут C-F-A-(GH)-K. Основная сердцевина этого маршрута (C-F-A) уже реализована. Этот маршрут закрывает потребности большого числа пользователей – такая рыночная ниша в настоящее время реально существует.
Следуя идее конвейера СТ логично было бы предположить, что 85% изображений (сырья) на входе в блок С имеют отличное качество. 15% - проблемные изображения, но ведь СТ не позиционирует себя как средство для устранения брака сканирования! На мой взгляд, потенциал этого комплекса значительно выше!
Лозунг к конвейеру СТ – "Что положил, то и получил"!
Для исправления изображений, вводится блок дополнительной обработки (В). Одновременно, из блока С исключаются все алгоритмы корректировки текста.
Качественное развитие блока В в идеале приведет к внедрению векторных символов – а это уже шаг до ОСR. Но уверяю вас, сегмент рынка (потребители) блока L останутся и при OCR – это отдельный сегмент рынка.
Правильное позиционирование позволит стабильно наращивать объем потребителей (полезность программы). С точки зрения маршрутов, реализовать маршрут (D,E,M,O)-C-F-A-(GH)-K, последовательно наращивая возможности блока В.
Обращаю внимание на предусловие (блок Х). Оно может при данном позиционировании звучать так: "читабельная страница А4". Изображения текста на станицах всей книги имеют строго постоянный и фиксированный масштаб отображения!".
Напрашивается некая дополнительная зона - информационная площадь страницы (ИП), более сложный вариант ее реализации отработан у Вас в алгоритме выделения полезной области.
Ориентация на ИП позволит в т.ч. устранить эффект динамически меняющегося фокуса при фотосканировании (блок О), а следовательно увеличит полезность комплекса.
Можно предположить, что ИП – это некая маска строго прямоугольной формы. Внутри ИП содержатся упорядоченные (с равными межблоковыми расстояниями) маски блоков информационной области текстовой строки (ИПТС).
Размер ИП устанавливается не по одной странице, а при анализе всей совокупности страниц.
Принятая ширина ИП – аксиома!
Наложение ИП на растр осуществляется по любому углу текстового блока с последующим масштабированием внутренних блоков ИПТС. Далее можно идти методом исключений: разрыв блоков ИПТС против принятой ширины (а также по высоте) формирует некую площадь, которая является либо картинкой, либо пустым местом.
Блок картинки и текста имеют различный инструментарий корректировки. Следовательно, нужно обеспечить вывод файла целиком и, отдельно, файлов картинок (по желанию пользователя). Зная код ИП, индекс файла картинки и его координаты на ИП кодировщик в PDF, DJVU (G,H) должен легко собрать в один файл – готовую продукцию.
В любом случае реализации - удачи Вам и спасибо за труд!
Если текст покажется Вам полезен – буду рад. Нет – не проблема. Для меня главное это как-то поучавствовать в том большом и нужном деле, которое Вы реализуете. Вспомните японский "кружок качества" – только 5% предложений дают эффект, но не было бы предложений, не было бы и этих значимых 5%.
Правильное позиционирование на нужный сегмент рынка упорядочит техническую реализацию комплекса СТ, обеспечит максимальную полезность программы для конечного пользователя, увеличит степень полезности, а следовательно рост количества пользователей.
На мой взгляд, схема выглядит так:
Идея конвейера СТ позволяет максимально быстро и качественно сформировать маршрут C-F-A-(GH)-K. Основная сердцевина этого маршрута (C-F-A) уже реализована. Этот маршрут закрывает потребности большого числа пользователей – такая рыночная ниша в настоящее время реально существует.
Следуя идее конвейера СТ логично было бы предположить, что 85% изображений (сырья) на входе в блок С имеют отличное качество. 15% - проблемные изображения, но ведь СТ не позиционирует себя как средство для устранения брака сканирования! На мой взгляд, потенциал этого комплекса значительно выше!
Лозунг к конвейеру СТ – "Что положил, то и получил"!
Для исправления изображений, вводится блок дополнительной обработки (В). Одновременно, из блока С исключаются все алгоритмы корректировки текста.
Качественное развитие блока В в идеале приведет к внедрению векторных символов – а это уже шаг до ОСR. Но уверяю вас, сегмент рынка (потребители) блока L останутся и при OCR – это отдельный сегмент рынка.
Правильное позиционирование позволит стабильно наращивать объем потребителей (полезность программы). С точки зрения маршрутов, реализовать маршрут (D,E,M,O)-C-F-A-(GH)-K, последовательно наращивая возможности блока В.
Обращаю внимание на предусловие (блок Х). Оно может при данном позиционировании звучать так: "читабельная страница А4". Изображения текста на станицах всей книги имеют строго постоянный и фиксированный масштаб отображения!".
Напрашивается некая дополнительная зона - информационная площадь страницы (ИП), более сложный вариант ее реализации отработан у Вас в алгоритме выделения полезной области.
Ориентация на ИП позволит в т.ч. устранить эффект динамически меняющегося фокуса при фотосканировании (блок О), а следовательно увеличит полезность комплекса.
Можно предположить, что ИП – это некая маска строго прямоугольной формы. Внутри ИП содержатся упорядоченные (с равными межблоковыми расстояниями) маски блоков информационной области текстовой строки (ИПТС).
Размер ИП устанавливается не по одной странице, а при анализе всей совокупности страниц.
Принятая ширина ИП – аксиома!
Наложение ИП на растр осуществляется по любому углу текстового блока с последующим масштабированием внутренних блоков ИПТС. Далее можно идти методом исключений: разрыв блоков ИПТС против принятой ширины (а также по высоте) формирует некую площадь, которая является либо картинкой, либо пустым местом.
Блок картинки и текста имеют различный инструментарий корректировки. Следовательно, нужно обеспечить вывод файла целиком и, отдельно, файлов картинок (по желанию пользователя). Зная код ИП, индекс файла картинки и его координаты на ИП кодировщик в PDF, DJVU (G,H) должен легко собрать в один файл – готовую продукцию.
В любом случае реализации - удачи Вам и спасибо за труд!