» Scan Tailor

Автор: ndch
Дата сообщения: 10.02.2010 14:42

StanFreeWare,я считаю что НЕОБХОДИМО до пользования сканером ознакомится с подводными камнями сканирования, а не пытаться "вытянуть через фотошоп", т.к. часто невозможно получить качественный результат при небрежном сканировании, особенно на недорогих (читай некачественных) книгах.
Посредственный результат - легко.

Автор: Dashout
Дата сообщения: 10.02.2010 14:47

чуть позже отвечу...
навскидку. предложение по введению ИП намного упростит алгоритм
Уважаемый Tulon
Цитата:

по имеющемуся изображению объекта

под объектом я понимаю некую прямоугольную и стандартную (для всей книги) площадь на странице, на которой располагаются более мелкие объекты (символы)
Конечной продукцией мне надо обеспечить вывод этой площади (OCR пока отсутствует).
Следовательно. мне ее надо зафиксировать (просчитать) и уже потом разбираться внутри.
Фиксируя ИП я могу легко привязать ее по 2 граням к любому углу текстового блока, выровнять, обеспечить вывод и 1 и 2 страниц на печать.
устраняется операция разбить на страницы - она реализуется при привязке ИП
при этом, вывод будет более качественный ...

Автор: ndch
Дата сообщения: 10.02.2010 14:47

woodyfon
Цитата:

почему у вас эталонами обработки являются BR и SK

Потому что в BR получается посредственный результат их плохих исходников.
Кто хочет заморочится на хороший скан книги - использует предназначеный для этого сканер, как например OpticBook 3600. Да, он в 3 раза дороже недорогого Epson V30. Но сканирует быстрее, без тени у корешка и искажения строк.

Автор: StanFreeWare
Дата сообщения: 10.02.2010 16:04

ndch
Позволю себе еще раз напомнить вашу фразу целиком:

Цитата:

РАЗРЕШЕНИЕ МАЛЕНЬКОЕ, на вид ~150 ppi.

Написали бы lpi, не было бы недоразумений. Формулируйте ваши мысли точнее, пожалуйста.

Автор: Tulon
Дата сообщения: 10.02.2010 16:21

Dashout
Я извиняюсь, но я мало что понял в вашем описании ИП, что в первый раз когда вы о нем говорили, что сейчас. Написано очень абстрактно и совершенно оторвано от реальности. Кроме того у меня есть подозрение, что вы исходите из неверных предпосылок. Например неверна предпосылка о том, что интересующая нас область на исходном скане будет одинаковой для группы сканов. На практике, первые 5 этапов в ST - это и есть определение этого самого ИП, если конечно я правильно понял, что это такое. И заметьте, что эти этапы чисто аналитические - они не генерируют новых изображений, они просто собирают данные об исходном. Последний шестой этап берет исходное изображение, берет зону, которая нас интересует, делает с ней всякие манипуляции, после чего выводит результат в файл. Так что можно сказать, что я уже реализовал все, что вы предлагали (с поправкой на мое слабое понимание вашего предложения).

Автор: woodyfon
Дата сообщения: 10.02.2010 17:03

ndch

Цитата:

Потому что в BR получается посредственный результат их плохих исходников.
Кто хочет заморочится на хороший скан книги - использует предназначеный для этого сканер, как например OpticBook 3600. Да, он в 3 раза дороже недорогого Epson V30. Но сканирует быстрее, без тени у корешка и искажения строк.

Не согласен. Кто хочет получить нормальный скан книги, с попадя не меняет технику (где бы видили, чтобы не работал движок и покупали новую машину), а пытается придумать/разработать технологию "ручного" сканирования, заключающийся в скорости, удобстве, качестве. К примеру, тень корешка можно оставить, но вырезать потом в ST - исключаем. Для этого во время сканирования придерживаем книгу двумя руками (не надо пользоваться другими предметами - это только усложнит), и давим сильнее когда лампа подойдет к центру книги. Подробно можна почитать в тему про оцифровку электронных книг. Не знаю, лично у меня не получается сделать скан с искривленными строками (использую Mustek ScanExpress A3 USB c CIS-оптикой). Поэтому для меня искривление строк не столь важное. Требуя, хм прося/делая

, dewarp-a хочется хоть что-то привнести в проект.
monday2000

Цитата:

А в принципе, такая мысль у меня мелькала ранее (в порядке фантастики, конечно). Хотя, чисто теоретически, не исключаю, что сделать это можно.

Да у вас, извините, почти все теория. Как известно. теория есть порождение практики. Да даже теоретически Этого сделать нельзя. Полное нарушение лицензии программы.

Если внедрять пока нельзя, то давайте альтернативу. Будем разбирать. Могу предположить, что искривление строк происходит в основном происходит в переплете книг. Поэтому разумнее взять алгоритм людей с азиатскими фамилиями (точных имен не помню) и внедрить. По статье он легкий в исполнении и быстр. Автор над алгоритмом работать уже не будет: сейчас в аспирантуре занят совершенно другими задачами, тема диссертации не имеет никакого отношения
к обработке изображений. Автор также подчеркивал, что алгоритм предназначен в основном для изображений книг, оцифровка которых производилась фотоаппаратами высокого качества.

Автор: Tulon
Дата сообщения: 10.02.2010 19:10

dma200899
Поправил в Git и вылет и неправильное отображение в черном виде. Там кстати DPI были битые - 85 миллионов точек на дюйм. Теперь будет просить исправлять такие.

Автор: ndch
Дата сообщения: 10.02.2010 19:23

Цитата:

Кто хочет получить нормальный скан книги, с попадя не меняет технику (где бы видили, чтобы не работал движок и покупали новую машину), а пытается придумать/разработать технологию "ручного" сканирования, заключающийся в скорости, удобстве, качестве. К примеру, тень корешка можно оставить, но вырезать потом в ST - исключаем. Для этого во время сканирования придерживаем книгу двумя руками (не надо пользоваться другими предметами - это только усложнит), и давим сильнее когда лампа подойдет к центру книги.Подробно можна почитать в тему про оцифровку электронных книг. Не знаю, лично у меня не получается сделать скан с искривленными строками (использую Mustek ScanExpress A3 USB c CIS-оптикой).

И где здесь скорость ? Где удобство ? Где качество ?

Угу, возить картошку десятками тонн на "оке", дескать вот машина, на ней и вози.
Или ещё лучший пример - строительный раствор.
"А чё, так тоже можно, ну и что что неудобно"

действительно, подробно можна почитать в тему про оцифровку электронных книг.
я за всю жизнь не нашел причин для покупки/рекомендации за a4 Mustek.

A3 действительно дороги, что и делает покупку Mustek размера A3 разумной, но не для случая сканирования небольших по размеру книг.

Автор: woodyfon
Дата сообщения: 10.02.2010 19:34

Скажу одно - 100 страниц книг (50 сканов) = 1 час. Какая нафиг... картошка :) , не путайте божий дар с яичницей. А если нет машины, что на велосипеде перевозить? Да я и сам не прочь поменять "машину", но денег никто не дает :) Нужно как-то выкручиваться. Так и знал, что кто-то да скажет типа "мучаетесь как при царском режиме". Если не хотим чтобы были искажения строк, черные полоски возле переплета на OptiBook надо сканировать постранично. И вообще я привел пример, который должен был пойти в тему обсуждения техники сканирования. Сорри за оффтоп. Предлагаю в этой теме больше не обсуждать методы и способы сканирования.

Автор: cnf
Дата сообщения: 10.02.2010 23:37

Тема постепенно превращается в сплошной оффтоп. Может хватит?
С тех пор как я начал использовать ST, процесс оцифровки книг у меня упростился в разы. Мне НРАВИТСЯ ИМЕННО ЭТА ПРОГРАММА! Именно ЭТА! Я не хочу читать в этой теме про клоны SCAN TAILOR. Меня не интересует STA и им подобные. Если хотите обсуждать STA или какие-то другие производные, откройте новую тему/темы и делайте это там. Не превращайте ЭТУ тему в помойку.
Tulon Спасибо за программу. Вы создали отличный продукт для массового пользователя.

Автор: amz01
Дата сообщения: 11.02.2010 08:00

cnf Теперь я знаю, кто Центр Вселенной! Кажись, ты.
С чего это ты решил, что последнее слово за тобой и тебе дано право затыкать народу рот?

А что, эта тема создавалась для распевания дифирамбов и лизоблюдства? Тогда, пардон, надо предупреждать - я бы пару дифирамбов насочинял...

Автор: denver 22
Дата сообщения: 11.02.2010 08:05

Всецело поддерживаю cnf. Палку явно перегнули. Лучше создать тему для клонов ST и, в частности, для обсуждения новых подходов в обработке сканов с полутоновыми картинками.
А тут не только тема о ST... Не надо забывать, что ST создавался для максимального удобства обработки. И ваши рассуждения в этом топике только отпугивают людей, пришедших сюда впервые.

Автор: amz01
Дата сообщения: 11.02.2010 08:28

denver 22 Паняна. Это из серии "Дума не место для дискуссий".
Всё равно автор темы игнорит мнения и просьбы народа, для чего тогда нужна эта тема? Для благоговейных почитателей классического ST?

А если ты такой пугливый, переходи на форум "Детские нестрашные сказки". Там будет "максимально удобно". Будешь там вычислять оптимальные углы максимально-дозволенного перегиба палок...

StanFreeWare Давай откроем новую тему по STA и будем там говорить, что захотим? И никто рот не заткнёт.

Автор: monday2000
Дата сообщения: 11.02.2010 09:25

amz01

Цитата:

Всё равно автор темы игнорит мнения и просьбы народа, для чего тогда нужна эта тема? Для благоговейных почитателей классического ST?

Правильно.

denver 22

Цитата:

И ваши рассуждения в этом топике только отпугивают людей, пришедших сюда впервые.

Лучше горькая, да правда, чем красивая, да ложь.

Автор: ndch
Дата сообщения: 11.02.2010 09:49

woodyfon я объяснял Вам почему Tulon считал это не самым перспективным направлением. Объяснял, потому что Вам ЛЕНЬ читать всю тему.

Цитата:

100 страниц книг (50 сканов) = 1 час

Это ОЧЕНЬ медленно. Могу еще раз напомнить про раствор и "оку"
На epson v10 ~125 сканов в час и это тоже медленно, в сравнении. 12 сек/А4 400 dpi - это нормально.

Автор: monday2000
Дата сообщения: 11.02.2010 10:06

Tulon
Вот этот тиф некорректно открывается в СТ
http://s29.ifile.it/bqnrs48/zhyl/26683327/1.zip (6 МБ)

Автор: Tulon
Дата сообщения: 11.02.2010 11:12

amz01

Цитата:

cnf Теперь я знаю, кто Центр Вселенной! Кажись, ты.
С чего это ты решил, что последнее слово за тобой и тебе дано право затыкать народу рот?

А что, эта тема создавалась для распевания дифирамбов и лизоблюдства? Тогда, пардон, надо предупреждать - я бы пару дифирамбов насочинял...

В цивилизованной дискусии переходы на личности недопустимы.

А топик действительно засрали. Если читать все подряд - настроение падает ниже плинтуса. Поэтому я стал читать этот топик как какой-нибудь аггрегатор блогов: если первые пара строк меня не заинтересовали - пропускаю весь пост.

Фич реквесты тоже игнорирую. Что я могу на них ответить? Одно из двух: либо "мне эта идея не нравится потому-то" либо "у меня до этого руки дойдут нескоро". Насчет нескоро, можно и поконкретнее. У меня на локальной машине есть основная ветка ST плюс еще три ветки, где развивается то или иное направление. Для одного разработчика это и так слишком много. Так что о новых фичах речь не идет. А направления развиваются такие:
1. Улучшение деспекла. Сделан неплохой визуализатор того, что удалилось, но регулировки аггрессивности пока нет.
2. Вывод маски картинок как дополнительный TIFF слой в файл вывода. Это альтернатива STA. Работает, но хотелось бы чтобы другие программы не видели бы этот слой ни как отдельную страницу, ни как альфа-канал основного слоя. Сейчас видят как отдельную страницу.
3. Наработки по трассировке линий текста без бинаризации. Это улучшило бы и алгоритм Rob'а, и Рамиза Зейналова.

Добавлено:
monday2000

Цитата:

Вот этот тиф некорректно открывается в СТ
http://s29.ifile.it/bqnrs48/zhyl/26683327/1.zip (6 МБ)

Не дает скачать по этой ссылке. Попробуйте другой обменник.

Автор: monday2000
Дата сообщения: 11.02.2010 12:00

Tulon

Цитата:

Попробуйте другой обменник.

Странно. Вот перелил на ifolder через удалённую закачку на самом ifolder:

http://ifolder.ru/16359717 (удалю, когда скачаете).

Там пустяк - что-нибудь с заголовком Tif-файла. Irfan View прекрасно видит этот файл.

Добавлено:
Tulon

Цитата:

2. Вывод маски картинок как дополнительный TIFF слой в файл вывода. Это альтернатива STA.

Здорово. Только надо бы не просто маску картинок - а в совокупности с пользовательскими зонами (как в СТА). Да Вы б не мучались - а просто взяли б СТА как главную версию, да и всё.

Цитата:

Работает, но хотелось бы чтобы другие программы не видели бы этот слой ни как отдельную страницу, ни как альфа-канал основного слоя. Сейчас видят как отдельную страницу.

Пока непонятно. Надеюсь, как сделаете, станет понятнее.

Добавлено:
Я попросил Илью Межирова, чтобы он попросил Thomas Breuel (своего профессора), одного из авторов "Dewarping of Document Images using Coupled-Snakes" http://pubs.iupr.org/DATA/2009-IUPR-21Aug_1705.pdf , ответить на моё письмо. Вот что мне ответил Thomas Breuel:
По поводу dewarping:

Цитата:

it's not yet available; we'll eventually release something as part of the DECAPOD project.

Цитата:

We're planning on having something useful sometime this year. DECAPOD uses stereo capture in order to ensure reliable dewarping.

http://sites.google.com/site/decapodproject/

DECAPOD is split into a web-based GUI and a set of command line tools for doing the processing.

Capture will be based either on stereo image capture or on the Book Liberator hardware.

Yes, you could also incorporate DECAPOD code into Scantailor, or you could use Decapod itself.

The dewarping code isn't ready for production use yet. When it will be ready, it will largely be command line programs written in a mix of Python and C++.

Please sign up for the mailing list from the Decapod site.

Автор: Tulon
Дата сообщения: 11.02.2010 12:18

Цитата:

Здорово. Только надо бы не просто маску картинок - а в совокупности с пользовательскими зонами (как в СТА). Да Вы б не мучались - а просто взяли б СТА как главную версию, да и всё.

Оно и есть в совокупности. STA добавляет сложности в пользовательский интерфейс, а это решение - нет.

Цитата:

Пока непонятно. Надеюсь, как сделаете, станет понятнее.

Просто программы, поддерживающие многостраничные TIFF'ы, увидят эту маску как вторую страницу, что не есть хорошо. Например грузите вы такой файл в DEE (не проверял), а он вытаскивает эти маски и кодирует их как отдельные страницы. TIFF - формат богатый, и позволяет дополнительный слой представить разными способами. Надо поэкспериментировать и найти такой, чтобы подобных косяков не происходило. Кстати вроде FR тоже пишет дополнительный слой в TIFFы. Надо будет взглянуть на их способ.

Автор: monday2000
Дата сообщения: 11.02.2010 12:28

Tulon

Цитата:

Надо поэкспериментировать и найти такой, чтобы подобных косяков не происходило.

Подозреваю, что это оформлено через самодельные TIF-тэги.

Цитата:

Надо будет взглянуть на их способ.

Сомневаюсь, что они скажут.

Много лет назад я их об этом уже спрашивал.

Но можно делать через добавление своих TIFF-метаданных. Тот же FreeImage имеет полное API для работы с ними, так что, хоть и геморно, но работать с такими Вашими тифами корректно можно будет (сторонними прогами).

Автор: U235
Дата сообщения: 11.02.2010 12:44

monday2000

Цитата:

Подозреваю, что это оформлено через самодельные TIF-тэги.

у ABBYY там значение тэга Compression нестандартное, насколько помню.

Автор: ndch
Дата сообщения: 11.02.2010 13:06

Tulon

Цитата:

направления развиваются такие:
Вывод маски картинок как дополнительный TIFF слой в файл вывода. Это альтернатива STA. Работает, но хотелось бы чтобы другие программы не видели бы этот слой ни как отдельную страницу, ни как альфа-канал основного слоя. Сейчас видят как отдельную страницу.
TIFF - формат богатый, и позволяет дополнительный слой представить разными способами. Надо поэкспериментировать и найти такой, чтобы подобных косяков не происходило.

Как тогда ? Вы руководствуетесь http://partners.adobe.com/public/developer/en/tiff/TIFF6.pdf ?

Автор: Dashout
Дата сообщения: 11.02.2010 13:35

Tulon

Цитата:

Так что можно сказать, что я уже реализовал все, что вы предлагали (с поправкой на мое слабое понимание вашего предложения).

согласен, что ИП у Вас уже реализовано и прекрасно работает.
уже говорил, что пишу это больше для себя, так как другой возможности помочь Вам не имею.
Посмотрите, пожалуйста, можно ли использовать правила подобия фигур для получения однотипного размера страниц на выходе.

исходим из того, что все изображения страниц имеют различный масштаб

1. Подготавливаем шаблон "читабельной" страницы с жестко заложенными размерами. Вычисляем внутренние зависимости и соотношения.
2. по каким - либо признакам накладываем (масштабируем) шаблон на скан. Подставляем в свойства обрабатываемой страницы признаки из шаблона в вычисленной пропорции. Привязываем координаты. Запоминаем коэф. соответствия шаблону. Формируем общую таблицу свойств.
3. При выводе в файл увеличиваем (уменьшаем) картинку в соответствии с коэффициентом соответствия шаблону.
4. На выходе получаем "читабельные" страницы, в которых и поля и символы (размеры букв) приведены к единым размерам.

(пока не используем линии текстовых строк для выполнения искривления - все что вышло за грань ИП отмечается признаком (брак)).

Более подробно: Информационную площадь (ИП) страницы условной книги легко представить в сопоставлении с матрицей книгопечатной машины - размеры этой матрицы прямоугольны и статичны. Грани матрицы - грани ИП - прямоугольник. Пусть применительно к А4 он будет 24*16 (5 см на поля)
Разделив прямоугольник ИП диагональю, получим 2 смежных прямоугольных треугольника с общей гипотенузой. Далее, С2 = А2 + В2, ну и дальше, cos, sin

пусть (в шаблоне) А - высота, В - ширина
ширина В равна размеру длины полной текстовой строки = 16 см. Под прямым углом линия из конца В очерчивает грань А.
А = ?
Чтобы найти А нужно разобраться с технологической структурой страницы.
основная часть (пусть, текстовое пространство), ниже - площадь редактора (используется для ссылок, примечаний). Еще ниже - поле номера страницы (пусть номер страницы внизу). Нижняя линия этого поля является гранью ИП. Ниже номера страницы есть технологическое поле, но его можно и нужно игнорировать (номер матрицы, название книги, ...).
пропускаю поиск текстового блока, так как не знаю какими алгоритмами Вы определяете его грани...
Допустим, нашли грани, далее
Ищем поле номера страницы (максимум 4 знака), находим расстояние в этом поле от последнего знака до грани А, записываем соотношение найденного отрезка к ширине строки В (если номер страницы посредине) и очерчиваем нижнюю грань ИП в виде отрезка В1 = 16 см (перпендикулярного к грани А).
Точка пересечения В1 с гранью А (прямой угол из конца отрезка В) является правым углом ИП.
Проведем гипотенузу от конца отрезка В1 к началу отрезка В. Рассчитали угол, длину С, А
Заполнили в шаблоне значения. Далее, масштабировать значения и пропорции на обрабатываемую страницу будем исходя из правил подобия фигур шаблона и проецируемых фигур на обрабатываемой страницы.

Анализируя страницы, достаточно найти одну четкую с полной текстовой строкой и номером страницы, чтобы вычислить все остальные значения и перенести их в память на описание свойств каждой страницы. Существуют конечно и другие способы, различные мелкие детали.

При привязке шаблона к изображению страницы, вернее после, измеряем правую оставшуюся часть: если размер больше принятого в масштабе В, повторяем операцию и привязываем вторую страницу, если меньше переходим на следующую.

При выводе изображения в файл увеличиваем (уменьшаем) размер картинки по значению полученного коэффициента соответствия (отношение значения В обрабатываемой страницы к В шаблона).

Автор: Tulon
Дата сообщения: 11.02.2010 14:00

monday2000
С вашим файлом ничего не получилось сделать. TIFFReadRGBAImage возвращает мусор и все тут. Большая часть программ под Linux его тоже открыть не могут - только Gimp как-то умудрился. Вердикт - доктор сказал в морг, значит в морг!

Добавлено:
Dashout
Ох, как у вас все сложно и не реализуемо на практике. Как например я найду поле номера страницы? Если бы я мог такие вещи находить, у меня Select Content никогда бы не ошибался.

Если бы я уж задался целью поддержки случая с неизвестными и гуляющими DPI (фотоаппарат без штатива?), я бы первым делом попробовал найти доминирующее расстояние между строками с помощью преобразования Фурье. Это и был бы мой масштаб. Однако, поддержка такого случая меня на данный момент не интересует.

Автор: monday2000
Дата сообщения: 11.02.2010 15:24

Tulon

Цитата:

Вердикт - доктор сказал в морг, значит в морг!

Подозреваю, что там нет палетки (либо неверная). Irfan View, видимо, строит палетку, и внедряет в файл.

Добавлено:
Это экспортированный из PDF тиф.

Автор: Tulon
Дата сообщения: 11.02.2010 16:03

Цитата:

Подозреваю, что там нет палетки (либо неверная). Irfan View, видимо, строит палетку, и внедряет в файл.

Это RGB TIFF, то есть палитры там нет и быть не должно.

Автор: monday2000
Дата сообщения: 11.02.2010 23:20

Tulon

Цитата:

2. Вывод маски картинок как дополнительный TIFF слой в файл вывода. Это альтернатива STA. Работает, но хотелось бы чтобы другие программы не видели бы этот слой ни как отдельную страницу, ни как альфа-канал основного слоя. Сейчас видят как отдельную страницу.

Я тут ещё раз подумал над этой Вашей идеей выводить передний-задний субсканы как многостраничный TIFF'ы - и понял, что эта идея - плохая и неправильная. Делать так не следует.

Может быть, так почему-то удобно Вам - но явно категорически неудобно всем нам - пользователям СТ. Я надеюсь, Вы же не будете уподобляться тут bolega, который как-то заявил мне, что, дескать, СканКромсатор он делает для себя, а если им кто-то ещё и пользуется, то это их, мол, личное желание.

Что прикажете делать с такими Вашими многостраничными TIFF'ами? Ни один из существующих DjVu-кодировщиков не сможет их напрямую закодировать в DjVu. Ну, положим, DjVu Small и DjVu Imager я ещё смогу научить напрямую кодировать такие файлы в DjVu - но ценой этому будет добавление FreeImage.dll в состав DjVu Small - а мне бы этого очень не хотелось (чтобы не раздувать вес программы).

А остальные DjVu-кодировщики? DEE 5.1, Document Express Editor 5 и 6 - их что, выбрасывать? Или лепить отдельную хитрую приблуду, чтобы разбирала Ваши многостраничные TIFF'ы на обычные одностраничные? Вот это уж будет "костыль" так костыль - глупейшая дополнительно-излишняя сущность.

Едиственно правильным решением является STA - т.е. вывод субсканов раздельно друг от друга как обычных одностраничных файлов. Вот сейчас, надеюсь, anagnost96 прикрутит туда какое-нибудь разделение выводимых субсканов (меня устроит любое) - вот им (т.е. STA) и будем реально пользоваться - а Вашими многостраничными TIFF'ами пользоваться никто не будет (раз уж существует STA).

К тому же - это ж какая Вам дополнительная трудоёмкая задача - научиться делать некий хитромудрый вывод в многостраничные TIFF'ы с использованием спец.тегов формата TIFF. Вместо того, чтобы просто взять СТА (уже ведь готов - и делать ничего не надо) в качестве основной ветки СТ. Опять хотите доказать себе самому и всем нам, какой Вы крутой программист (как это было с применением потоко-безопасных алгоритмов - которые являются ничем реально не оправданной сложностью)? Мы уж знаете, лучше поверим Вам на слово...

(относительно Вашего профессионализма). А потом опять скажете что-то вроде "Как я устал..." - конечно, устанете, если будете абсолютно впустую растрачивать (вот таким образом) часть своих сил и времени.

Автор: Tulon
Дата сообщения: 12.02.2010 00:03

monday2000
Устал я вовсе не из-за каких-то сложностей инженерного характера. Как раз наоборот. Решая их, я учусь чему-то новому, и это доставляет мне удовольствие. Устал я от потока негатива, который идет с этого форума. Когда моя программа стройна, что снаружи что изнутри, это доставляет мне удовольстие. Когда приходится жертвовать этой стройностью, это делает меня несчастным. А еще мне не нравится, когда меня изо дня в день просят пожертвовать стройностью то тут то там.

Теперь по конкретике.

В качестве временного решения можно выдирать маску из второго слоя и накладывать ее на первый скриптом на базе ImageMagick. Решение, к которому я стемлюсь, это отдельная программа, которая будет принимать вывод ST, проделывать с ним всякие операции - подавление шума в картинках, увеличение контраста, коррекция уровней, и кодировать все это в DjVu. А если вас такое временное решение не устраивает, то можете использовать тот же STA.

Цитата:

А остальные DjVu-кодировщики? DEE 5.1, Document Express Editor 5 и 6 - их что, выбрасывать?

Метод раздельных сканов с ними все равно не используется. А без раздельных сканов они будут работать как и сейчас. Либо я сделаю так, что они не будут замечать второго слоя в TIFFах, либо в крайнем случае добавлю опцию чтобы второй слой не выводить.

Добавлено:
P.S: Ну вот, небольшой запас хорошего настроения, который я накопил, пока был в игноре - похоже израсходован. Видимо придется опять уйти в игнор - недели на две-три пожалуй.

Автор: U235
Дата сообщения: 12.02.2010 03:01

Tulon, прошу рассмотреть такой вариант:
На выходе СТ (в смешанном режиме) выводить только один файл, без маски: черные буквы (0), белый фон (255), и серые картинки (значения яркости в диапазоне 1-255). Т.е. практически тоже самое, что и сейчас (только сейчас диапазон яркости картинок может быть 0-255).
Изменения программы ST, ИМХО, будут минимальны: нужно будет пройтись по пикселям маски перед выводом и заменить все значения яркости с 0, на 1, на глаз это совершенно не заметно.
В результате:
Те кто захочет использовать СТ для прямого кодирования в djvu и pdf не будут иметь проблем с дополнительными страницами в TIFF и те кто хочет использовать СТ для раздельного кодирования - тоже (т.к. скриптами (я использовал GraphicsMagik, скрипт выложил на сайте) или самописными отдельными программами можно с легкостью выделить как фон, так и текст в отдельные файлы для дальнейшей обработки и кодирования).

Т.е. по сути используется отдельная битовая плоскость в сером TIFF для хранения текстового слоя, все остальное - маска (фон).

Автор: amz01
Дата сообщения: 12.02.2010 06:38

Tulon Уйти в игнор - дело не хитрое, но от себя не спрячешься, совесть замучает.
ST нужна не стройность, это не кисейная барышня с подиума, а нужна полезная и эффективная функциональность, о которой все тут тебе талдычат. Чего пока ещё маловато. И беспокоит тенденция превращения ST в самодостаточного динозавра. А у динозавров нет перспективы, и их самих уже нет.

Плюнь на "стройность" и не парься. Сделай новый STA и народ потянется к тебе.

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72

Предыдущая тема: Невозможно установить Acronis True Image Home v10.0.4940

Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.