» Редактирование PDF файлов

Автор: Astra55
Дата сообщения: 10.10.2011 19:34

sergio147
Экспортом букмарков.

Автор: sergio147
Дата сообщения: 10.10.2011 23:20

Astra55

Цитата:

Экспортом букмарков.

а чем это сделать? Если ч/з Адоб, то где такая функция?

Автор: Astra55
Дата сообщения: 11.10.2011 07:33

http://forum.ru-board.com/topic.cgi?forum=35&topic=47341&start=200#1
Не стесняйтесь понажимать и поводить мышку по шапке, почитать про фичи плагинов, оно так лучше запоминается. Это даже без отсылки в Гугл.

Автор: Shangry
Дата сообщения: 20.12.2011 12:07

Периодически на голову сваливается большая куча PDF со сканами, которые надо разобрать на отдельные изображения, сделать этим изображениям несложную обработку и собрать взад.
PDF много, народу как обычно мало, поэтому работу хорошо бы делать с минимумом ручного вмешательства. В идеале на полном автомате.
Для обработки полученных из PDF изображений используем XnView, здесь проблем нет. Обратную сборку вполне решает Image2PDF, в нем есть удобный пакетизатор. А вот с разборкой PDF на изображения пока что проблема.
От «разборщика» требуется следующее:
1. Загружать для обработки произвольное количество PDF за раз.
2. Вынимать сканы из PDF, как есть, не меняя в них первоначальных значений разрешения и глубины цвета.
3. Складывать изображения из каждого PDF в отдельную папку. Каждой такой папке присваивать имя исходного PDF-файла.
4. Работу выполнять без промежуточных этапов, окошек с запросами и т.д. В режиме «загрузил PDF-файлы --> сказал, куда складывать изображения --> получил результаты».

Для работы наиболее критичен пункт 2. Если программа-разборщик такое не умеет, дальше смотреть ее возможности нет смысла.
Пункты 1, 3, 4 обеспечивают цепочку пакетизации, поэтому их требуется иметь в комплекте. Если реализованы любые два из них, но нет третьего, то это все одно, что нет ничего.

Пока что для разборки используем Акробат (8-й). Пакетизации разборки там нет, так что загружать и сохранять приходится поштучно, вручную, а значит сажать на это отдельного человека. Но это единственная найденная программа, которая способна аккуратно отрабатывать пункт 2.
Кроме этого проверил PDF to TIFF Convertor, PDF Image Extraction Wizard, Ap PDF to Image и A-PDF Image Extractor. Там везде одно и то же - или надо указывать выходные разрешение и глубину цвета в настройках, или программа их проставляет сама, по собственному усмотрению.

Автор: Astra55
Дата сообщения: 20.12.2011 12:55

Shangry
Попробуйте http://forum.ru-board.com/topic.cgi?forum=35&topic=48250#1

Автор: Shangry
Дата сообщения: 20.12.2011 14:02

Astra55
Спасибо, но там все ссылки уже не работают.

Попробовал пошарить в Сети, но пока сплошное "пришлите SMS такую-то по адресу такому-то", "прежде чем у нас скачивать, надо у нас зарегистрироваться".

Автор: yanus69
Дата сообщения: 20.12.2011 14:16

Shangry
Перезалиты ссылки.

Автор: Shangry
Дата сообщения: 20.12.2011 16:07

yanus69
Скачал, спасибо.

Автор: Shangry
Дата сообщения: 21.12.2011 13:23

Astra55
PDF Explorer похоже задачи не решает.

Если там запустить функцию "Export Image" (F5), то сначала программа о-очень задумчиво (часа полтора на книгу из 70 страниц в "сером") просматривает PDF-файлы и выводит в окошке эскизы на каждый найденный скан. После чего предлагает сохранить все найденное, куда мне требуется (отдельная операция).

К тому же меняет глубину цвета, а значения разрешения затирает. По крайней мере у Irfan в соответствующих окошках "Свойств" пустые места, без данных.

Автор: Astra55
Дата сообщения: 21.12.2011 16:05

Shangry
Начните от печки - засуньте в Акробате растровую графику с заранее определенными размерами и разрешением в контейнер pdf, а потом попробуйте ее извлечь в точно том же самом виде, с сохранением формата, размеров и разрешения. Потом слегка измените размеры и разрешение, скажем, с 300 dpi на 250 dpi и еще раз попробуйте. В финале поделитесь результатами своих исследований. Когда у Вас будут эти данные, тогда будем рассуждать на тему "как извлечь сканы из pdf, чтобы исходные параметры полностью сохранились". Только не PDF/A, а обычный PDF.
P.S. Растровую графику засовывать с разным цветом, ч/б - серую - цветную.

Автор: ComboFZ
Дата сообщения: 22.12.2011 08:00

Zoner Photo Studio довольно лихо выдёргивает изображения из PDF без изменений, пакетного режима для обработки PDF нет

закладка Получить (Acquire) > Получить изображения из PDF... (Acquire Pictures from PDF...)
перед этим выделить нужный PDF в браузере

добавлено:
[more=из справки Zoner Photo Studio 13]Эта фунция сохраняет сжатые JPEG-изображения в виде JPEG-файлов, а остальные изображения - как PNG-файлы.

Эта функция обследует только ту часть PDF-файла, которая требуется для извлечения изображений. Поскольку в PDF-файле проверяется только область хранения изображений, то это означает, что данная функция может извлечь изображения даже из поврежденного, другими словами, непригодного для использования PDF-файла (например, файл был поврежден при загрузке из сети). В силу этого метода изображения будут получены точно такими, какими они сохранены в PDF-файле; из-за этого они могут иметь ориентацию, отличную от наблюдаемой в самом файле. Для изображений с JPEG-сжатием и цветовой палитрой CMYK может понадобиться использовать опцию Преобразовать CMYK JPEG-файлы в RGB, поскольку PDF-файл сохраняет изображения с цветовой палитрой CMYK так, что они являются несовместимыми с большинством программ. (Однако информация о цвете сохранена в нем.)

PDF-формат может меняться в широких границах. Поэтому данная функция имеет определенные ограничения.

Она поддерживает изображения только со следующими ограничениями:

· цвета: цветовая палитра, имеющая 2, 4, 6 или 8 бит/пиксель или цвета RGB или CMYK.

· сжатие: только ASCII85, LZW, ZIP, JPEG и JPEG2000.

Эта функция не поддерживает:

· получение изображений из файлов с содержанием, защищенным от копирования

· получение изображений, имеющих менее 5 пикселей в ширину или высоту
[/more]

Автор: Astra55
Дата сообщения: 22.12.2011 08:25

ComboFZ
Это слишком куцая и ни о чем не говорящая инфа. Покажите в деталях, что, как, с какими параметрами, насколько совпадает исходное изображение с извлеченным и т.д. Программ, которые могут извлечь изображения из pdf - многие десятки, если не сотни. Вопрос в том, что именно извлекается.

Автор: Shangry
Дата сообщения: 22.12.2011 12:54

Astra55

Цитата:

Начните от печки - засуньте в Акробате растровую графику с заранее определенными размерами и разрешением в контейнер pdf, а потом попробуйте ее извлечь в точно том же самом виде, с сохранением формата, размеров и разрешения. Потом слегка измените размеры и разрешение, скажем, с 300 dpi на 250 dpi и еще раз попробуйте.

Взял десяток цветных страниц от какой-то случайной книги. Перевел их в "серый" и ч/б. Изменил для всего полученного разрешение.
Образовавшуюся кучу изображений засунул в PDF (IMG2PDF), а затем преобразовал полученные PDF (Акробатом) обратно в растр.

Изображения на входе и на выходе получились одинаковые по разрешению и глубине цвета и практически одинаковые по размеру (плюс-минус десяток килобайт на всю кучу).
У Акробата в настройках выходных форматов есть пункты "Разрешение определять автоматически", "Цветовое пространство определять автоматически". Видимо это их работа. В других программах чего-то подобного пока не встречал.

Автор: Astra55
Дата сообщения: 22.12.2011 19:08

Shangry
Такой тест не катит. Приличные софты действительно могут конвертить растр в pdf почти что один к одному. Но Акробат и масса других программ раздувают размер исходных файлов при засовывании в pdf, поэтому получить исходные размеры и параметры уже не получится. Я же конкретно указал "через Акробат", а не через сторонний софт.

Автор: Shangry
Дата сообщения: 23.12.2011 12:31

Astra55

Цитата:

Я же конкретно указал "через Акробат", а не через сторонний софт.

Так я же и написал, что преобразование "PDF-->растр" делалось именно Акробатом, с уже упомянутой настройкой "определять автоматически".
А сборку "растр-->PDF" практичнее делать именно IMG2PDF, потому что он не спрашивает "в каком формате вы хотите разместить данное изображение". Что дали, то и кладет. Поэтому когда Акробат начинает вынимать из PDF графику, он вынимает именно исходники, а не их преобразованный вариант.

Цитата:

... поэтому получить исходные размеры и параметры уже не получится.

Как раз исходные в моем случае вполне получаются. Данные в свойствах изображений (входных и выходных) совпадают, общий объем всей кучи изображений тоже.
Там всего где-то под 100 Мб получается, ну так "вход" и "выход" отличаются в пределах десятка Кб. Вполне может набежать за счет теговой части TIF'ов - разные программы ее формируют по разному.

Автор: Astra55
Дата сообщения: 23.12.2011 13:03

Shangry
Тогда сообщите всем своим поставщикам pdf чтобы использовали исключительно IMG2PDF и не смели применять другие программы. Поскольку в них принцип "что положили, то и достали" не действует. Размеры pdf из одних и тех же растровых файлов в разных программах могут отличаться на порядок, а то и больше.

Автор: Shangry
Дата сообщения: 23.12.2011 15:31

Astra55

Цитата:

Тогда сообщите всем своим поставщикам pdf чтобы использовали исключительно IMG2PDF

Давно уже именно так и делаем.
Здесь проблема не в том, чтобы пакетно собирать из картинок PDF - IMG2PDF с этим справляется вполне успешно, я об этом писал в самом начале. Проблема в том, чтобы так же пакетно разбирать PDF на изображения, причем по принципу "что лежит, то и вынуть, изменений не вносить".
Вот над этим сейчас и ломаем голову.

Автор: Engaged Clown
Дата сообщения: 18.02.2012 20:04

Есть ли какая-нибудь(желательно бесплатная) программа для простейшего удаления пары страничек из обычного, незашифрованного PDF?

Автор: Sympathy
Дата сообщения: 18.02.2012 20:12

http://forum.ru-board.com/topic.cgi?forum=5&topic=29200

Автор: zveroyacher
Дата сообщения: 18.03.2012 21:35

Есть следующие вопросы к знатокам.

1)Требуется редактор OCR слоя. Foxit PhantomPDF редактирует по строчке а не весь OCR-текст сразу, и я не нашёл где настройки шрифтов, т.е например бывает необходимо поставить для всего OCR текста - один, два шрифта, и настройки встраивания бы найти.

2)Как определить формат изображения-картинки? Я слышал что в PDF можно векторное изображение закатывать, однако в ряде PDF принтеров я этой опции не нашёл. Сжатие с потерями по таким то алгоритмам, и сжатие без потерь. Всё.

3) Нумерация. Кажется я встречал файл, где первые 10 страниц были пронумерованы римскими буквами, а последующие индийскими (они же арабские). Т.е. вначале идёт рецензия например, потом сам текст доклада. Это удобно в плане перехода по страницам, то есть в оглавлении документа 10 и нумерация в pdf десять. Как это сделать?

Добавлено:
Shangry

Цитата:

Проблема в том, чтобы так же пакетно разбирать PDF на изображения, причем по принципу "что лежит, то и вынуть, изменений не вносить".

разобрать на изображения Фантом положим может, а вот насчёт идентичности содержимого.... изображения получаются жирнее чем исходный pdf, однако визуально качество мало отличается..

Можно было бы и шапку для топика сделать..

Автор: Engaged Clown
Дата сообщения: 18.03.2012 22:42

zveroyacher

Цитата:

Можно было бы и шапку для топика сделать..

Уже давно запрошено, но пока ждём http://forum.ru-board.com/topic.cgi?forum=13&topic=2898&glp

Автор: zveroyacher
Дата сообщения: 18.03.2012 23:38

собственно больше было бы толку от faq собранного где нибудь, чем от шапки...

Автор: a12345
Дата сообщения: 27.03.2012 18:48

Незнаю может этот вопрос в этой теме уже задавался, но я не нашёл, вообшем такая проблемма, отредактировал текст в PDF файле, только там после сохранения остаются пометки ''отредактировано такой-то такой-то прогой'', как их можно было бы убрать, что бы файл чистым был?

Автор: sergio147
Дата сообщения: 27.03.2012 20:57

Цитата:

Незнаю может этот вопрос в этой теме уже задавался, но я не нашёл, вообшем такая проблемма, отредактировал текст в PDF файле, только там после сохранения остаются пометки ''отредактировано такой-то такой-то прогой'', как их можно было бы убрать, что бы файл чистым был

Очевидно, следует использовать только лицензионный софт

Автор: VikLabel
Дата сообщения: 27.03.2012 21:10

Тоже интересует, какой программой можно на автомате полностью очистить поле Application?
Замучился делать это руками в Hex.

Автор: a12345
Дата сообщения: 27.03.2012 21:27

[q][/q]

Дорого лицензионный. Мне кажется этот момент уже должны были обойти.

Автор: Astra55
Дата сообщения: 27.03.2012 21:31

VikLabel
http://www.becyhome.de/becypdfmetaedit/description_eng.htm
Есть и другие в ассортименте.

Автор: a12345
Дата сообщения: 27.03.2012 23:33

Astra 55!

Это прога удаляющая метки после редактирования? Не могли бы вы мне краткое описание по применению написать в лс, самому не удалось разобраться к сожалению...

Автор: zhe_zho
Дата сообщения: 27.03.2012 23:39

Можно в Acrobat Pro 8 и выше, у кого есть и кто бы не хотел прибегать к помощи других программ, при оптимизации. "Discard User Data" -> "Discard document information and metadata" ("Удалить пользовательские данные" -> "Исключить сведения о документе и метаданные").

Автор: Astra55
Дата сообщения: 28.03.2012 06:40

a12345
Ответ был адресован Вам по ошибке, на само деле это для VikLabel

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35

Предыдущая тема: SSH-клиент на Java

Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.