Astra55 Цитата: Если, как в данном случае, pdf не скан, то лучше пользоваться конвертерами, а не ФайнРидером, ошибок не будет.
Конверторы против закриптованных PDF тоже не особо что.
Потребовалось как-то небольшую зашифрованную статью в нормальный вид привести, чтобы оттуда цитаты брать, так ни один из известных мне конверторов ее не осилил. При том, что пароль я, естественно, сбил с самого начала.
Лучше всех справился PDFGrabber, но и он в процессе конвертации раз пятнадцать (на 40 страниц текста) выставлял мне таблицу соответствия "глиф-символ". Мол, разберись сначала, что у тебя чему равняется, а потом уж мне в работу отдавай. :-)
Да и после него по две-три очепятки на строку шло.
А вот, когда я этот же текст скормил ФайнРидеру, то он выдал почти чистый результат.
Цитата: Распознавать то, что уже является шрифтом бессмысленно и вредно.
Не очень понятно почему. Растровая картинка, сделанная из TTF (а то и из Postscript), в общем виде для OCR-программы куда более приемлема, чем скан. Поскольку литеры текста полностью однотипны.