Цитата: zhe_zho
, спасибо, у меня иначе:
Настройки (
http://i064.radikal.ru/1103/1f/72e8ed742bcd.jpg )
Исходная картинка текста и результат даю ссылкой
http://s19.radikal.ru/i192/1103/de/75a60b5e7bce.jpg , 84кб, но широкая, может порвать разметку форума.
Причём, ЧСХ, так поганит она только области текста (такое впечатление, что в качестве картинки оно сохраняет специально подготовленное однобитное изображение, которое скармливается распознавателю. Реальные картинки, которые и были в исходном тексте картинками передаются нормально, с теми настройками, что указаны. А на отображение картинкой текста похоже настройки вообще никак не влияют.
Либо я что-то не так делаю, либо глюк в программе. Но раз никто больше не ругается, видимо это я где-то косячу, вопрос где?
Добавлено: Бииииип... Кажется нашёл...
Очень говорящая настройка:
---------------
Использовать смешанное растровое содержание (MRC)
Отметьте эту опцию, если вы хотите, чтобы при сильном сжатии документа сохранилось высокое качество текста и изображений. В результате размер конечного файла будет небольшим, а качество текста и иллюстраций будет высоким.
--------------
Как это я сразу не догадался? Ну очевидно же, хочешь нормальное качество картинки текста - отключай настройку, которая это качество типа повышает!
Она и есть главное зло. Отключил её и стало сохраняться нормально с полутонами, теперь глаза не режет.
Большое все спасибо за участие, может кому мой опыт пригодится, нигде о таком не видел.
------------------------------------------------------------
Другой вопрос по распознаванию
У меня есть довольно странные документы в PDF, в которых есть страницы полностью распознанные, а есть не распознанные вообще. Вопрос: а есть ли тулзы чтобы программно прошерстить всю библиотеку и хотя бы просто отобрать подобные документы? Глазками я умру их выискивать....