Неожиданно возникла проблема с полученным от клиента здоровенным PDF-ом с немецким текстом. вроде бы обычный текстовый документ, сконвертированный в PDF из MS Word или другого текстового процессора, размер файла около 4 Kb на страницу. Текстовые строки без проблем можно выделить соответствующим инструментом.
НО... Поиск не работает, а при попытке скопировать выделенный текст через буфер обмена вставляются вместо букв квадратики (как при просмотре Unicode шрифта в не поддерживаеющей Unicode проге, вот такие: ).
При попытке использовать команду "Recognize Text Using OCR" выдается сообщение об ошибке, дескать, не могу распознать, поскольку this page containes renderable text. Что делать? Документ нужен именно как searchable, иначе смысла нет. Погуглил в интете, ошибка вроде распространенная, но единственный совет, который дают "эксперты": сохранить документ как изображение и распознать заново (вот здесь, например: http://blogs.adobe.com/acrolaw/2005/10/troubleshooting.html ). (Жутко интеллектульный совет, простой пользователь сам бы ни за что не додумался! Да и вообще это не решение, так как размер файла вырастет в 20 - 30 раз, а качество упадет.)
Неужели нельзя как-то восстановить испорченный текст?
Подскажите, кто знает, очень надо!
З.Ы.
Там еще предлагается вручную удалить из документа растровые элементы, которые вызывают эту проблему, но как эти элементы выявить - неясно. То, что не заголовки, это точно, т.к. Acrobat сообщает, что хедеров-футеров в документе не имеется.
НО... Поиск не работает, а при попытке скопировать выделенный текст через буфер обмена вставляются вместо букв квадратики (как при просмотре Unicode шрифта в не поддерживаеющей Unicode проге, вот такие: ).
При попытке использовать команду "Recognize Text Using OCR" выдается сообщение об ошибке, дескать, не могу распознать, поскольку this page containes renderable text. Что делать? Документ нужен именно как searchable, иначе смысла нет. Погуглил в интете, ошибка вроде распространенная, но единственный совет, который дают "эксперты": сохранить документ как изображение и распознать заново (вот здесь, например: http://blogs.adobe.com/acrolaw/2005/10/troubleshooting.html ). (Жутко интеллектульный совет, простой пользователь сам бы ни за что не додумался! Да и вообще это не решение, так как размер файла вырастет в 20 - 30 раз, а качество упадет.)
Неужели нельзя как-то восстановить испорченный текст?
Подскажите, кто знает, очень надо!
З.Ы.
Там еще предлагается вручную удалить из документа растровые элементы, которые вызывают эту проблему, но как эти элементы выявить - неясно. То, что не заголовки, это точно, т.к. Acrobat сообщает, что хедеров-футеров в документе не имеется.