» Редактирование PDF файлов

Автор: smersh2012
Дата сообщения: 24.09.2013 09:07

помогите решить такую проблему: как в акробате (11.0.4 pro) две страницы в одну объединить ... на одной странице pdf-файла находится лицевая сторона водительского удостоверения, на второй странице - оборотная сторона, как их в одну страницу свести? гугл покурил, ничего не нашел, только объединение документов в один файл, но у меня другая задача
задавал этот вопрос здесь, мне посоветовали вот этот скрипт или плагины типа Quite Imposing ... скрипты и плагины с акробатом юзать не доводилось, поэтому подскажите как установить и использовать плагины и скрипты в Acrobat Pro 11.0.4 ? в гугле ничего не нашел (может, не там искал) и если про плагины еще пишут, что их нужно устанавливать в папку plug-in (хотя такой у меня в папке с акробатом нет), то как курить скрипты нигде ничего не обнаружил .. спс ... (вообще, конечно, странно, что флагманская программа и даже разработчик pdf-файлов не может штатными средствами выполнять такие простые операции типа delete в ворде)

Автор: michail10
Дата сообщения: 25.09.2013 08:32

Акробатом не пользуюсь, редактирую в др. проге. Насколько помню, экспорт в изображения или прямо в Word в Акробате есть. Ну а дальше вариантов много. Возможно в виде изображения и в Акробат можно вставить.

Автор: fbm
Дата сообщения: 26.09.2013 14:03

Когда-то давно в теме был задан вопрос:

Цитата:

...
Делаю OCR растровых pdf-ов. Перепробовал несколько программ - везде одна и та же проблема: после подкладывания текстового слоя в выходном файле заметно искажается исходная растровая графика. Я как-то привык с djvu, что там при OCR картинку можно не трогать совсем. Можно ли сделать аналогичное с pdf? Посоветуйте подходящий софт, пожалуйста!

Я для себя решил проблему следующим образом.

Необходим следующий софт: Acrobat с установленным Enfocus PitStop Pro, ABBYY PDF Transformer (или его аналог), PDF-XChange Tools, XnConvert

0. Делаешь удаление невидимого текстового слоя в исходном pdf (если он есть), для чего в меню Acrobat Document -> Examine Document ставим галочку на "Hidden text", снимаем галочки со всех остальных элементов, жмем кнопку в нижней части окна "Remove".

1. Делаешь pdf файл с OCR слоем (например, посредством ABBYY PDF Transformer)

2. (данный пункт делать обязательно, иначе итоговый файл оптимизацией не дожмешь до исходного размера) Открываешь PDF с OCR слоем в Acrobat и удаляешь графику Меню - Plug-Ins - Enfocus PitStop Pro - Run Global Change (Alt-Ctrl-G), в появившемся окошечке выбираешь Standart - Remove Graphics. Проследи, чтобы Run on - Complete Document, All, Show Results - Always, а в настройках окошечка (кнопка вверху справа - Edit... ), отжимаешь галочку на Text, Area - Inside Area, галочку на Overlapping the area. Делаешь Run. Результат сохраняешь.

3. Открываешь PDF-XChange Tools, выбираешь "Перекрывающий PDF". Первым открываешь pdf с OCR, затем открываешь pdf с изображением. Проследи, чтобы стояла галочка на "Поместить файл перекрытия на передний план", иначе получится, что текстовый слой будет отображаться поверх графики. (Если порядок открытия файлов перепутал, тогда убери галочку с "Поместить файл перекрытия на передний план".) Остальные сопутствующие параметры оставляешь по умолчанию.

Если после перекрытия текст просвечивает через графику, значит она полупрозрачная и придется делать весь текст в pdf невидимым. Для чего его придется закрыть белым цветом:

4. Сохраняешь страницы исходного PDF в формате tiff (Save As...)

5. Конвертируешь их через XnConvert, чтобы залить все полученные изображения белым цветом. Для этого:

а) Во вкладке Входные данные - Добавить папку с tiff файлами. Проследи, чтобы добавленные файлы были отсортированы по имени в правильном порядке.

б) Во вкладке Действия задаешь след. последовательность действий: Изменение глубины цвета - Черно-белое, Изменение глубины цвета - 24 бита, Замена цвета Черного на Белый с допуском ноль. В Предпросмотр - После убедится в заливке исходного изорбражения белым цветом.

в) Во вкладке Выходные данные: Исходная папка, Имя файла - ####, Формат TIF, LZW, LZW, Удалять исходный файл.

г) Жмешь Преобразовать.

6. В Acrobat делаешь из полученных tiff файлов Combine - Merge Files into a Single PDF... Результат желательно проконтролировать по иконкам страниц.

7. Перекрываешь файл с OCR слоем файлом с белой заливкой страниц. Результат желательно проконтролировать по иконкам страниц.

8. Перекрываешь полученный файл с OCR слоем и с белой заливкой страниц исходным PDF файлом.

Немножко заморочено, но позволяет получать желаемый результат.

Автор: Astra55
Дата сообщения: 26.09.2013 14:45

fbm
Крутая методика! Стоя, на лыжах, в гамаке - просто сущее удовольствие по сравнению с такими трудностями

Все это делается куда проще и быстрее, в рамках самого Акробата с плагинами и без Питстопа. Только глубинный смысл всех этих телодвижений сводится к нулю, поскольку есть ClearScan. Для 90% сканированных файлов достаточно минимальной обработки растра и в Акробат. Если хочется, потом в djvu.

Автор: fbm
Дата сообщения: 26.09.2013 15:44

Astra55

Мне кажется, Acrobat с ClearScan (или без) распознает ощутимо хуже в сравнении с Transformer, и все равно портит исходную графику.

У меня речь идет о сохранении исходного качества картинки некоторого уже существующего pdf, а вовсе не о сканировании и создании своего.

А что сложно, так я не спорю. Но может вы предложите более простой вариант, или подскажете, что в этом алгоритме можно упростить?

Автор: Astra55
Дата сообщения: 26.09.2013 17:32

fbm
Качество распознавания для скрытого текста не есть основная задача, чтобы ради минимального выигрыша создавать текстовый слой в FR или PT, а потом внедрять его в растр. Если растр был правильно и качественно обработан перед ClearScan, результаты будут вполне приемлемые, текст будет векторным текстом, а растровые картинки и все прочее, CS не имеет привычки портить, оставляет как есть. Удалить растр можно плагином Clear and Count, посмотреть скрытый текст плагином ISI Toolbox 5, есть там такая фича. Заодно можно глазами оценить качество OCR. Наложить один слой на другой можно плагином Imposal. А вот таскать файлы из программы в программу, да еще и конвертируя их при этом, не самый лучший вариант. Но главная задача - перед передачей растра в Акробат, привести его в надлежащий вид. Если текст и серые фото, я вообще перестал заморачиваться с обработкой серого, обхожусь бинаризацей в Binarization Image Prosessor, поскольку у него самые тонкие настройки качества именно для серых фото.

Автор: fbm
Дата сообщения: 26.09.2013 18:01

Цитата:

Качество распознавания для скрытого текста не есть основная задача, чтобы ради минимального выигрыша создавать текстовый слой в FR или PT, а потом внедрять его в растр.

Качество распознаваемого текста - задача основная, если предполагается дальнейшее индексирование в поисковой базе. И ни один из известных мне программных продуктов не справляется с этой задачей лучше, чем продукты от Abbyy. Даже близко.

Цитата:

Если растр был правильно и качественно обработан перед ClearScan, результаты будут вполне приемлемые, текст будет векторным текстом, а растровые картинки и все прочее, CS не имеет привычки портить, оставляет как есть. Удалить растр можно плагином Clear and Count, посмотреть скрытый текст плагином ISI Toolbox 5, есть там такая фича. Заодно можно глазами оценить качество OCR. Наложить один слой на другой можно плагином Imposal.

Плагин ISI Toolbox 5, к сожалению, у меня так и не заработал, и, самое главное, имеет конечный срок лицензии. Imposal не пробовал.

Цитата:

А вот таскать файлы из программы в программу, да еще и конвертируя их при этом, не самый лучший вариант.

Разумеется, поэтому, если можно смириться с небольшим ухудшением качества pdf после распознавания в Transformer - то лучше с этим смириться. Но попадаются (хотя и очень редко) файлы, где распознавание приводит к резкому ухудшению растра. Вот для таких случаев методика дает идельный результат: OCR слой и полное сохранение исходной картинки. Можно, конечно, хранить оба файла... но я не искал легких путей.

Автор: Astra55
Дата сообщения: 26.09.2013 20:09

fbm
Цитата:

И ни один из известных мне программных продуктов не справляется с этой задачей лучше, чем продукты от Abbyy.

От ABBYY тоже не справляется, поэтому не имеет смысла тратить время и силы. Ошибки в невероятном количестве все равно будут, поэтому достоверность индексации весьма условная вещь.
Цитата:

Плагин ISI Toolbox 5, к сожалению, у меня так и не заработал, и, самое главное, имеет конечный срок лицензии.

Ну да, до 2017 года Вам мало. Могу сделать до 2077 года, подойдет?

Если учесть, что ломал я его уже давно, и за это время никаких проблем ни у кого не было, то не стОит об этом беспокоиться. И последнюю версию 6.2 тоже приручил. Но с Акробатом XI работать не будет в любом случае.
Цитата:

Но попадаются (хотя и очень редко) файлы, где распознавание приводит к резкому ухудшению растра.

Пример такого файла в студию! Мне интересно как такое может быть.

Автор: fbm
Дата сообщения: 27.09.2013 02:00

Astra55

Цитата:

От ABBYY тоже не справляется, поэтому не имеет смысла тратить время и силы. Ошибки в невероятном количестве все равно будут, поэтому достоверность индексации весьма условная вещь.

Конечно условная. Но мой опыт говорит о том, что указанный вариант все-таки дает лучшие результаты.

Цитата:

Ну да, до 2017 года Вам мало. Могу сделать до 2077 года, подойдет? Если учесть, что ломал я его уже давно, и за это время никаких проблем ни у кого не было, то не стОит об этом беспокоиться. И последнюю версию 6.2 тоже приручил. Но с Акробатом XI работать не будет в любом случае.

Спасибо, но он у меня все равно и с 9-кой не работает почему-то. Но это уже не важно.

Цитата:

Пример такого файла в студию! Мне интересно как такое может быть.

Я неверно выразился: обычно качество непосредственно растра ухудшается достаточно, чтобы это стало как-то заметно, потому что программы при распознавании зачем-то выполняют еще обработку растра, что к положительному результату привести не может по определению. Наиболее заметно это ухудшение проявляется в появлении (или усилении) ареала точек вокруг букв. Иногда, если книжка полезная, даже с такой "мелочью" мириться очень не хочется. Так что "резкое ухудшение растра" имеет скорее субъективный характер.

Распознавание так же может иметь результатом и заметное увеличение размера файла. Обычно с этим тоже можно мириться. А иногда нет.

http://libgen.org/get?open=0&md5=50D4F34CF60AA29D349C3902D7843256

Попробуйте прикрутить к нему OCR.

Автор: Astra55
Дата сообщения: 27.09.2013 08:54

fbm
Цитата:

он у меня все равно и с 9-кой не работает почему-то

Пора уже иметь в хозяйстве и другие версии, хотя бы в портабельном виде.
Цитата:

Но это уже не важно.

Я без этого плагина вообще не могу работать с pdf, поскольку он может то, что недоступно в любых других программах.
Цитата:

Попробуйте прикрутить к нему OCR.

Сначала засунул файл в Акробат, а он говорит нечеловеческим голосом "Да ты, хозяин, совсем охренел, подсовывать мне такое говно, не буду обрабатывать, даже не проси!". И действительно, поглядел файл в PDF Explorer, а там помимо отвратной обработки сканов, еще и "оптимизация", проведенная кривыми ручонками школоты. Страницы порезаны на куски, туши свет, сливай воду, об извлечении даже речи нет. Очень хочется взять афтара этого файла за грудки, с наслаждением трясти, приговаривая "Рано тебе Акробатом пользоваться, не знаешь ни хрена, FreePic2PDF - предел для твоих умственных способностей!". Поэтому конвертить в растр, а потом обратно в pdf, других путей нет. Всю книгу делать не стал, только зря время тратить, вот десятая часть в djvu - http://rghost.ru/48998337

Автор: fbm
Дата сообщения: 27.09.2013 10:35

Astra55

Цитата:

Пора уже иметь в хозяйстве и другие версии, хотя бы в портабельном виде.

Я не профессионал. Пока мои потребности закрывает 9-ка.

Цитата:

Я без этого плагина вообще не могу работать с pdf, поскольку он может то, что недоступно в любых других программах.

Он мне в свое время понадобился для скрытия OCR слоя, который просвечивал через картинку. Как-то очень криво, но удалось обойтись.

Цитата:

Сначала засунул файл в Акробат, а он говорит нечеловеческим голосом "Да ты, хозяин, совсем охренел, подсовывать мне такое говно, не буду обрабатывать, даже не проси!". И действительно, поглядел файл в PDF Explorer, а там помимо отвратной обработки сканов, еще и "оптимизация", проведенная кривыми ручонками школоты. Страницы порезаны на куски, туши свет, сливай воду, об извлечении даже речи нет. Очень хочется взять афтара этого файла за грудки, с наслаждением трясти, приговаривая "Рано тебе Акробатом пользоваться, не знаешь ни хрена, FreePic2PDF - предел для твоих умственных способностей!". Поэтому конвертить в растр, а потом обратно в pdf, других путей нет. Всю книгу делать не стал, только зря время тратить, вот десятая часть в djvu - http://rghost.ru/48998337

До самого интересного - "полутоновых" картинок, вы не добрались. Подобрать пристойные параметры их кодирования в djvu с сохранением размера файла - у меня когда-то не получилось, а делать обработку в ручном режиме тоже как-то... Короче, мой вариант прикручивания OCR слоя дает попиксельно исходный файл и незначительное увеличение размера. А по трудоемкости он сравним с перекодированием в djvu.

Автор: Astra55
Дата сообщения: 27.09.2013 11:58

fbm
Цитата:

До самого интересного - "полутоновых" картинок, вы не добрались.

Просю - http://rghost.ru/49000022 Только картинки уже испорчены сжатием. Вы не находите, что самой злободневной задачей стало не изготовление хороших книг из сканов, а попытки изготовления хороших книг из говенных сканов? Одни портят, другие тратят время на исправление. Я уже не раз говорил в топике по электронным книгам - это путь в тупик.

Автор: Astra55
Дата сообщения: 27.09.2013 17:05

Маленькая обработка и тот же файл стал почти в два раза меньше - http://rghost.ru/49005307 по сравнению с предыдущим постом. Исходные сканы все же сделаны неоптимально во всех отношениях, несмотря на 600 dpi.

Автор: ComboFZ
Дата сообщения: 28.09.2013 18:26

fbm

Цитата:

Если после перекрытия текст просвечивает через графику, значит она полупрозрачная и придется делать весь текст в pdf невидимым. Для чего его придется закрыть белым цветом: 4. Сохраняешь страницы исходного PDF в формате tiff...

Можно сделать белую векторную заливку в самом PDF подложив её под графику сканов:
Acrobat X (XI) > Инструменты > Старницы > Изменить дизайн страницы > Фон > Добавить фон
После добавить OCR текст от FineReader с помощью PDF-XChange Tools или Callas PDF Toolbox.
В этом случае текст не будет просвечивать через маску изображения, т.к. между ними будет белая векторная заливка (к тому же она ничего не весит, если одинаковый размер страниц).

Автор: QWewqcex
Дата сообщения: 30.09.2013 16:34

Можно ли извлечь изображения из pdf файла?

Автор: sergio147
Дата сообщения: 30.09.2013 16:43

QWewqcex,

100500 раз обсуждалось, причём относительно недавно.

Просмотрите тему и уточните вопрос.

Автор: NOWENKII
Дата сообщения: 06.10.2013 11:14

Посоветуйте программу для редактирования PDF документа. В нем нужно исправить данные в таблице. Добавить в таблицу строки с текстом или набрать текст в добавленных и существующих строках. Удалить текст, чтобы не оставалось пустое место вместо него.

Автор: Shangry
Дата сообщения: 10.10.2013 10:54

NOWENKII
Последние версии MS Office требуемый объем работы не тянут?

Автор: NOWENKII
Дата сообщения: 10.10.2013 16:54

Цитата:

Последние версии MS Office требуемый объем работы не тянут?

Да тянут, ими и тяну. Хлопотно с большими документами. Приходится применять Nitro Pro, чтобы в Word или Excel перевести (открывать ими сразу часто не корректно получается), правлю, а потом обратно в PDF. Вот и надеялся, что что-то придумано более удобное.

Автор: sergio147
Дата сообщения: 28.10.2013 16:00

Товарищи,

подскажите, что вот с такими монстрами можно делать, какие правильно настройки оптимизации выставить?

Формы Xobject 90% места занимают О_О

Автор: sergio147
Дата сообщения: 30.10.2013 01:26

Вот ещё один уродец:

оптимизация Adobe Acrobat ничего не даёт

Тут основной объём - Потоки содержания. Видимо, векторные картинки, т.к. качество обалденное.

Добавлено:
---

помогите его уменьшить, пожалуйста, без большой потери качества

Автор: Chimanalyt
Дата сообщения: 01.11.2013 10:56

Может понизить версию пдф?

Автор: distortion
Дата сообщения: 02.11.2013 14:02

Подскажите сильную альтернативу Pdf Grabber
На входе - многостраничные документы с разнородными данными (тексты с большим кол-вом стилей, сложные многоуровневые таблицы, изображения с нестандартной геометрией канвы, ссылки, букмарки)
На выходе - MS Office'ные форматы

Добавлено:
А если сумеет еще и вскрывать protected pdf, то вообще здорово.

Автор: ComboFZ
Дата сообщения: 02.11.2013 15:26

distortion

Able2Doc Professional
AnyBizSoft PDF Converter (Wondershare PDF Converter Pro)
Nitro PDF Professional

Что касается исправления корявого текста при переводе pdf в *.doc(x) - Pdf Grabber'у нет равных.

Автор: sergio147
Дата сообщения: 07.11.2013 11:12

Подскажите,

как сюда добавить OCR, не повредив качество нарисованного текста:

#

Автор: ComboFZ
Дата сообщения: 07.11.2013 16:56

sergio147
в документе когда-то перевели шрифты в кривые с удалением текстовых объектов

1. Распознаёте документ в FineReader, сохраняете в PDF
2. Извлекаете из него текстовый OCR-слой, правите при необходимости
3. Склеиваете OCR-слой с оригиналом с помощью PDF-Tools 4.0 или Callas PDF Toolbox
#
если перед склейкой с OCR-текстом удалить лишние объекты в оригинальном pdf находящиеся за пределами его видимой части, документ ещё немного "похудеет"
#
т.к. в оригинальном документе уже есть фоновая заливка, то OCR-слой ляжет под неё и не будет просвечивать

можно распознать документ с помощью Nuance PDF Converter Pro и потом оптимизировать в Акробате, результат будет тот же: оригинал + OCR

Автор: bookserg
Дата сообщения: 07.11.2013 17:31

Цитата:

3. Склеиваете OCR-слой с оригиналом с помощью Callas PDF Toolbox

ComboFZ, если можно, саму процедуру склеивания можно по пунктам, подробнее...

Автор: ComboFZ
Дата сообщения: 07.11.2013 20:37

bookserg
1. Закидываем в Callas PDF Toolbox документ PDF в который хотим внедрить OCR-текст.
2. Закидываем в Callas второй документ с извлеченным OCR-текстом от FineReader (окно активно)
3. Переходим в Switchboard > Arrange > Sandwich, жмем Execute > File > Save As...

получаем PDF с внедренным OCR-текстом

сокращённо отсюда:
http://forum.ru-board.com/topic.cgi?forum=93&topic=3514&start=800#17

Автор: Uraanfgh56
Дата сообщения: 09.11.2013 13:41

Доброго. Присоветуйте пож-та редактор pdf. Задачи следующие:

1). Удаление текста
2). Замена текста новым

Один ньюанс, сканы сделаны скажем так с страниц отпечатанных на ксероксе , и соответственно нужно чтобы текст заменный на другой был похож по качеству+размер и тип шрифта (не выбивался) из общего "плохого" качества (ну какое обычно качество у отксерокопированных документов вы знаете) , т.е должна быть какая нить обработка

- наподобие "качество ксерокопии", которое можно применить к набранному тексту.

Автор: sergio147
Дата сообщения: 10.11.2013 00:27

Uraanfgh56,

документы подделываете

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35

Предыдущая тема: SSH-клиент на Java

Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.