vitaly1 Цитата: Но не кажется ли странным, что лучший способ вытащить текст - это распознавание?
Во первых, pdf формат довольно "мутный", во вторых, создатель PDF - Adobe заинтересована в преобразованиях "all to pdf" и не очень в обратных, иначе, ПО осуществляющее 100% корректное преобразование, давно увидело бы свет.
В третьих, ПО для создания pdf сейчас великое множество, из них, почти все работают по "эксклюзивным шаманским алгоритмам".
Ну и конечно новая мода сканить книги не распознавая(или частично распознавая) и конвертировать в электронные форматы, получается или набор сжатых картинок, или жуткое месиво из текста(отдельная песня про шрифты и их форматы) и картинок.
Finereader же, обладает отличными алгоритмами распознавания изображений, и сохранения оформления документа в конечном формате. И совершенно не важно в какой программе создан оригинал.
tswanea Используй файнридер 8
И настрой как на скриншоте:
Кстати я никакой правки не вносил, и вроде бы только ударения не воспроизвелись.