» Adobe Acrobat Professional

Автор: oshizelly
Дата сообщения: 29.09.2008 19:02

Неожиданно возникла проблема с полученным от клиента здоровенным PDF-ом с немецким текстом. вроде бы обычный текстовый документ, сконвертированный в PDF из MS Word или другого текстового процессора, размер файла около 4 Kb на страницу. Текстовые строки без проблем можно выделить соответствующим инструментом.
НО... Поиск не работает, а при попытке скопировать выделенный текст через буфер обмена вставляются вместо букв квадратики (как при просмотре Unicode шрифта в не поддерживаеющей Unicode проге, вот такие: ).

При попытке использовать команду "Recognize Text Using OCR" выдается сообщение об ошибке, дескать, не могу распознать, поскольку this page containes renderable text. Что делать? Документ нужен именно как searchable, иначе смысла нет. Погуглил в интете, ошибка вроде распространенная, но единственный совет, который дают "эксперты": сохранить документ как изображение и распознать заново (вот здесь, например: http://blogs.adobe.com/acrolaw/2005/10/troubleshooting.html ). (Жутко интеллектульный совет, простой пользователь сам бы ни за что не додумался! Да и вообще это не решение, так как размер файла вырастет в 20 - 30 раз, а качество упадет.)
Неужели нельзя как-то восстановить испорченный текст?

Подскажите, кто знает, очень надо!

З.Ы.
Там еще предлагается вручную удалить из документа растровые элементы, которые вызывают эту проблему, но как эти элементы выявить - неясно. То, что не заголовки, это точно, т.к. Acrobat сообщает, что хедеров-футеров в документе не имеется.

Автор: Astra55
Дата сообщения: 29.09.2008 21:12

oshizelly
Этот вопрос уже тыщу раз поднимался. Смотреть фонты в файле и поставить такие же в систему. Можно попробовать применить один из конвертеров, бывают чудеса. А вообще уже пора отправлять подобные вопросы в игнор, поскольку нет образца, то нет и разговора. Толочь воду в ступе нет желания.

Автор: oshizelly
Дата сообщения: 29.09.2008 21:47

Astra55

Цитата:

Этот вопрос уже тыщу раз поднимался.

Где поднимался? Здесь в топике? Не нашел ничего, иначе не стал бы спрашивать. Буду признателен за ссылку на страницу или хотя на ключевые слова для поиска (по "renderable" ничего не находит).
А о фонтах я и сам подумал, только не понял, как их посмотреть. В свойствах документа на вкладке Fonts совсем уж что-то невразумительное:

Автор: Astra55
Дата сообщения: 29.09.2008 22:21

oshizelly

Цитата:

Где поднимался?

http://forum.ru-board.com/topic.cgi?forum=5&topic=0523&start=980#lt

Цитата:

совсем уж что-то невразумительное:

С такими вопросами к креатору файла.

Автор: feuerloescher
Дата сообщения: 29.09.2008 22:58

попробуй FineReader

Автор: oshizelly
Дата сообщения: 29.09.2008 23:00

Astra55

Цитата:

http://forum.ru-board.com/topic.cgi?forum=5&topic=0523&start=980#lt

Извиняюсь, на этой странице ничего нет на эту тему, даже близко. Может опечатка?

Цитата:

С такими вопросами к креатору файла.

Это почти невозможно в силу некоторых соображений, не касающихся софварных проблем. А даже если бы и мог, все равно толку бы не вышло: люди, с которыми я общаюсь у клиента, стали бы выяснять у других людей в своей фирме, те еще у кого-то и так далее, в результате инфа была бы все равно искажено до неузнаваемости. Поэтому и приходится самому разбираться, что тут наворотили.

А что все-таки означает это странное заявление Акробата на картинке? Ведь не может же быть так, что в документе нет вообще никаких шрифтов, как это видно на изображении. Можно ли где-то еще посмотреть шрифты, кроме Document Propeties -> Fonts?

Автор: feuerloescher
Дата сообщения: 29.09.2008 23:03

и файлик выложи

Автор: oshizelly
Дата сообщения: 30.09.2008 00:33

feuerloescher
Отправил ссылку в ПМ.
Заранее спасибо за помощь!

Автор: feuerloescher
Дата сообщения: 30.09.2008 01:26

Цитата:

что все-таки означает это странное заявление Акробата на картинке?

afaik встроенный OCR распознает только текст на растровых картинках, текст который и так является текстом он естественно не считает нужным распознавать

Цитата:

к креатору файла

креаторы - PDFCreator Version 0.7.1 и Ghostscript закодировали текст в свою внутреннюю кодировку

Ответил в ПМ результатом Finereader 9 в rtf. Распознанный текст в виде rtf получился в в десятки раз меньше присланного pdf.

Остальные способы пустая трата времени.
Вместо Finereader можно растрировать как советовали в блоге и распознавать бесплатным Cuneiform. Растрированные файлы потом можно удалить.

Добавлено:
Полюбоваться на шрифты можно с помощью бесплатного плагина PDFLib FontReporter. Более менее наглядно. Или Iceni Gemini - там есть remap или типа того, тоже более менее наглядно.

Автор: Astra55
Дата сообщения: 30.09.2008 08:41

oshizelly

Цитата:

Извиняюсь, на этой странице ничего нет на эту тему, даже близко. Может опечатка?

Я дал ссылку на страничку, но шапку тоже нужно читать

Добавлено:
feuerloescher

Цитата:

Полюбоваться на шрифты

Я что-то запамятовал - в случаях, типа MSTT и подобных, разве в файле остается инфа о настоящем, родном названии фонта?

Автор: feuerloescher
Дата сообщения: 30.09.2008 09:42

MSTT это PS-принтер делает, они тогда Type1 и там не остается

а здесь GS сделал хитрые TTF, из своих собственных шрифтов видимо, и сам их и обозвал F0, F1

то что у oshizelly внедренно в виде нормальных шрифтовых файлов не существует

Автор: Astra55
Дата сообщения: 30.09.2008 10:43

feuerloescher
То есть, надо так понимать, что даже при детальном исследовании pdf файла установить соответствие имен исходных фонтов и буквенно-цифровых имен невозможно никакими способами?

Автор: oshizelly
Дата сообщения: 30.09.2008 14:50

feuerloescher

Цитата:

Вместо Finereader можно растрировать как советовали в блоге и распознавать бесплатным Cuneiform

Извинясь, не совсем понял значение термина "растрировать" в данном контексте; и ссылку на блог тоже не понял, про какой именно блог речь

Цитата:

результатом Finereader 9 в rtf. Распознанный текст в виде rtf получился в в десятки раз меньше присланного pdf.

Это таки не совсем то же самое: при таком решении придется вместо одного нормального PDF-документа одновременно работать с двумя: читать документ в PDF, а для целей поиска и копирования прилагать к нему в комплекте RTF... Такое "комплексное" решение немножко чересчур э-э... комплексное.
Распознание картинки в OCR тоже не решает проблемы, т.к. в десятки раз увеличится размер и значительно ухудшится качество, не говоря уж о возможных ошибках распознавания.

Цитата:

Остальные способы пустая трата времени.

Жалко, хотелось восстановть документ в качестве нормального текстового PDF-а. Но, стало быть, не судьба... Что ж, отрицательный результат - тоже результат, сэкономил кучу времени... Спасибо! А то как только я вчера с этим доком ни изгалялся: печатал на разные виртуальные принтеры PDF и даже на виртуальный принтер MS Document Imaging - ничего не помогает, трабл со шрифтами стабильно наследуется всеми новыми документами.

Кстати, а как насчет совета, который дан в шапке смежного блока,
Цитата:

Либо ставьте соответствующие фонты, либо используйте конвертеры pdf в текстовые форматы.

?

Astra55
Спасибо за подсказку!

Автор: Astra55
Дата сообщения: 30.09.2008 16:48

oshizelly
За то время, которое ушло на переливание их того самого пустого в то самое порожнее, я бы уже давным-давно сделал требуемое, может быть не одним способом. Кстати, принтер не конвертер.

Автор: feuerloescher
Дата сообщения: 30.09.2008 17:44

Цитата:

"растрировать" в данном контексте

да в любом контексте, сохранить в растровые файлы - tiff, bmp, jpeg и т.д.
(file - save as в Акробате)

Цитата:

и ссылку на блог тоже не понял, про какой именно блог

ты сам ее давал и цитировал оттуда, я туда даже не ходил
http://blogs.adobe.com/acrolaw/2005/10/troubleshooting.html

Цитата:

а для целей поиска и копирования прилагать к нему в комплекте RTF

ну сделай опять pdf и ищи в нем

шрифты и текст уже есть в твоем файле и они такие и перекодировать их там нельзя или слишком сложно, я например не знаю как.
времени в любом случае уйдет гораздо больше чем на распознавание, сверку и запись нового нормального pdf.

Автор: oshizelly
Дата сообщения: 30.09.2008 21:22

feuerloescher
Astra55

Провозился еще час и случайно нашел-таки корректное недокументированное решение, все оказалось до смешного просто.
Если сохранить этот испорченный документ при помощи диалога Save As... в один из форматов HTML (HTML 3.2 или HTML 4.01) или в формат XML 1.0 (и только в эти три, никакие RTF и TXT не дают такого же эффекта), то структура документа в ходе процесса сохранения изменяется, и он сразу же становится "нормальным", можно искать и копировать текст.
После этого остается просто сохранить исправленный документ под новым имененем (сохранить под тем же именем не получится, так как Acrobat, похоже, считает, что документ изменен не был.)
Не знаю, можно ли данное явление объяснить рационально, но несколько раз повторенные эксперименты не оставляют сомений в наличии причинно-следственной связи (feuerloescher может сам убедиться).

З.Ы.
Кстати, для извлечения текста в любой из предлагаемых Акробатом текстовых форматов (TXT, RTF, DOC, HTM, XML) оказывается, достаточно было сохранить документ через диалог Save As... в желаемом формате. И не надо было никаких ухищрений вроде перераспознавания через FineReader.

Цитата:

За то время, которое ушло на переливание их того самого пустого в то самое порожнее, я бы уже давным-давно сделал требуемое, может быть не одним способом.

Как видишь, не совсем из порожнего и, позволю себе заметить, не совсем в пустое

Огромное спасибо обоим за помощь! Без ваших замечаний я бы, наверное, даже не сообразил, в какую сторону "тыкать".

Автор: feuerloescher
Дата сообщения: 30.09.2008 22:55

хороший способ

Добавлено:
работает скорее всего только когда есть mapping to Unicode в самом файле

например с этим файлом не сработает
http://rights.apc.org/documents/APC_charter_RU.pdf
а с этим сработает
http://www.icsew.wa.gov/newsletters/2003/2003-05.pdf

Добавлено:
и с этими (я проверил пару наугад)
http://www.google.com/search?hl=en&safe=active&client=opera&rls=en&q=filetype%3Apdf+%C3%91%C3%A9%C3%AB&btnG=Search
не работает

Добавлено:

Добавлено:
в любом случае это удобный способ перекодирования to unicode когда это возможно

Автор: visual73
Дата сообщения: 01.10.2008 11:03

Подскажите кто сталкивался с такой проблемой:

имею 2 графика в Excel-07 на одной печатной странице, друг под другом (A4, портрет). Графики в двух миллиметрах от границ распечатки листа. На обычных принтерах печатаются нормально. Вывожу на виртуальный "Adobe PDF". Создается файл pdf в котором нижняя граница второго (нижнего) графика зарезается. Пробовал по разному - тот же результат. Раньше со старыми версиями такого не наблюдал.

Автор: ycheff
Дата сообщения: 04.10.2008 09:38

Вопрос по прошивке OCR в pdf-файлах: Есть файлы, где неправильно был задан язык (или другая ошибка?), в результате распознавание текста не работает (вместо букв "крокозяблики"). Возникает задача выбросить старую прошивку OCR и сделать новую. Но Acrobat 8.0 Pro этого не деает (пишет, что все уже прошито). Что делать?
Конечно, можно заново декодировать и собрать pdf-файл, но качество печати ухудшается.
Почему-то эта проблема встречается часто с русскоязычными статьями, может быть, какая-то несовместимость в версиях акробатов?

Автор: avnem
Дата сообщения: 06.10.2008 17:56

При открытии документа акробат ругается на отсутствующий плагин
Filter/BTMS_PTSubscript

В поиске адоба упоминаний о плагине не нашел, и в гугле тоже.
Никто не подскажет что=это и как это можно поиметь?

Автор: oshizelly
Дата сообщения: 06.10.2008 19:47

Вот довольно типичная ситуация: имеется отсканированная и корректно распознанная PDF-страница, но изображение содержит пятна и пр. "лишние" элементы. Или, скажем, цветное в формате JPG, а то и BMP изображение значительно увеличивает размер файла, хотя должно быть черно-белый TIFF. В идеале, хочется, не трогая текстового слоя, "вынуть" из документа графический слой, обработать (убрать лишнее, изменить формат и пр.) его в графическом редакторе и вставить обратно в PDF. Но возможно ли это в принципе? И если возможно, то чем и как это можно сделать (ясно, что не штатными средствами Acrobat)?

Заранее спасибо!

Автор: feuerloescher
Дата сообщения: 06.10.2008 22:13

настроить в preferences редактор (обычно Photoshop) - touch up tool - Edit

Добавлено:
плугин есть в ARTSPDF Aerialist

на странных слоеных файнридеровских pdf я это не испытывал

Автор: Ukei
Дата сообщения: 10.10.2008 15:07

Возможно, подобная проблема уже обсуждалась, но найти ответа не смог. Не могу заставить работать принтер Adobe PDF, появляющийся после установки программы, под Windows Server 2003 x64. Что можно посоветовать?

Автор: feuerloescher
Дата сообщения: 10.10.2008 18:51

Ukei
версия Акробата?

Автор: Ukei
Дата сообщения: 17.10.2008 10:25

Поставил Adobe Acrobat 9.0.0.332 Pro Extended - до этого стояла русская 8-ка, но она по Server 2003 не хотела конвертить в pdf - тот вариант, где после установки нужно по окончании установки перезаписать 2 файла - длл-ку Акробата и экзешник форм-дизайнера. Все сделал как написано в ридми. И все равно выскакивает окошко о необходимости активации, но сама прога работает пока полнофунцианально. Что посоветуете?

Автор: feuerloescher
Дата сообщения: 17.10.2008 10:38

Цитата:

И все равно выскакивает окошко о необходимости активации, но сама прога работает пока полнофунцианально. Что посоветуете

Обсуждать нерабочие креки и искать решения в Варезнике или в магазин за лицензией.

Автор: Ukei
Дата сообщения: 17.10.2008 14:17

feuerloescher
Тот, что стоит на Windows Server 2003 R2 EE x64 и у которого никак не заставить работать принтер Adobe PDF - 8.0.0 Что-то можно придумать?

Автор: feuerloescher
Дата сообщения: 17.10.2008 21:41

http://kb.adobe.com/selfservice/viewContent.do?externalId=333360

Цитата:

Adobe Acrobat 8.0 was not developed for the Windows XP x64 or Windows 2003 Server x64 operating systems running on a 64-bit processor machine. Adobe Acrobat 8.0 was developed for Windows 2000 SP4, XP Professional, Home Edition, or Tablet PC Edition.

If you use Adobe Acrobat 8.0 in Windows Vista x64, Windows XP x64 or Windows Server 2003 x64, please update to Acrobat 8.1. The Acrobat 8.1 update provides support for x64 based operating systems.

Автор: Ukei
Дата сообщения: 19.10.2008 22:32

feuerloescher
Спасибо, оч. внятно. Обновимся.

Автор: davinchi9
Дата сообщения: 25.10.2008 12:03

Русский Acrobat Reader 9 в природе существует? или мож руссификатор?

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179

Предыдущая тема: проблема с отправкой писем

Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.