Ru-Board.club
← Вернуться в раздел «Программы»

» Редактирование PDF файлов

Автор: Unnicked
Дата сообщения: 18.07.2010 19:40
rosinantes

Цитата:
А как можно переврнуть документ-pdf и сохранить перевернутым в pdf-формат?

Для поворота я обычно использовал консольную утилитку pdftk. Может, есть что и получше...
Автор: Astra55
Дата сообщения: 18.07.2010 20:24
rosinantes

Цитата:
как можно переврнуть документ-pdf и сохранить перевернутым в pdf-формат?

PDF-XChange Viewer и еще много всякого софта, типа, Акробат с плагинами.
Автор: rosinantes
Дата сообщения: 18.07.2010 23:12
Unnicked
Astra55
Спасибо величайшее за ответы! В PDF-XChange в пять секунд избавился от потребности.
Автор: Astra55
Дата сообщения: 06.08.2010 09:36
Маленькое исследование на популярную тему - почему при конвертации pdf в doc/rtf появляются кракозяблы или почему их дает копирование через буфер.
Один и тот же "проблемный" pdf файл был пропущен через 17 конвертеров. Результаты можете оценить сами, оригинал pdf тоже прилагается. Название файла дано его автором, в связи с хреновыми результатами
http://narod.ru/disk/23470744000/PDFtoWord.RAR.html
Особо обратите внимание на результат PDF Transformer. Не в положительную сторону, ессно. Сразу скажу, что наилучшие результаты показал PDF Grabber. Остальное оцените самостоятельно.
Автор: DJMC
Дата сообщения: 06.08.2010 14:23
имеется очень много pdf файлов не обходимо заменить число, и так же распечать их сохравнив изменения, подскажите программу которая со всем этим справится
Автор: Astra55
Дата сообщения: 06.08.2010 14:59
DJMC
Чмсло чего или какое? Более внятно объясните что требуется.
Автор: DJMC
Дата сообщения: 06.08.2010 19:24
в документах там ввиде бланков - сохранены в pdf но как рисунки, не обходимо поменять числа, к сожалению документа под руками нет.
Автор: zhe_zho
Дата сообщения: 06.08.2010 20:08

Цитата:
сохранены в pdf но как рисунки

Если как рисунки то PDF Image Extraction Wizard. А дальше вам в тему по какому нибудь графическому редактору, по другому никак.
Автор: rex
Дата сообщения: 16.08.2010 17:58
Astra55

Цитата:
Маленькое исследование на популярную тему - почему при конвертации pdf в doc/rtf появляются кракозяблы или почему их дает копирование через буфер.
Один и тот же "проблемный" pdf файл был пропущен через 17 конвертеров. Результаты можете оценить сами, оригинал pdf тоже прилагается. Название файла дано его автором, в связи с хреновыми результатами
http://narod.ru/disk/23470744000/PDFtoWord.RAR.html
Особо обратите внимание на результат PDF Transformer. Не в положительную сторону, ессно. Сразу скажу, что наилучшие результаты показал PDF Grabber. Остальное оцените самостоятельно.


А на моем рабочем компе (для неюникодовских символов русский не выставлен) наоборот, можно прочесть только продукт PDF Transformer'a, хотя и у него в подзаголовке несколько букв просто пропущены. Получается, что все остальные используют 8-битную кодировку - мрачно.
Автор: Astra55
Дата сообщения: 16.08.2010 18:09
rex
Есть один мааааленький, но крайне неприятный нюанс - PDF Transformer не является конвертером, а всего лишь урезанной версией FineReader, поэтому ошибки практически гарантированы и непредсказуемы. В отличие от остальных.
Автор: rex
Дата сообщения: 21.08.2010 12:40
Astra55
Тогда интересно было бы включить в тестирование и полную версию FineReader.
Автор: Astra55
Дата сообщения: 21.08.2010 15:12
Не интересно. И так ясно, что OCR FR или PT годится только для сканов.
Автор: LonerDergunov
Дата сообщения: 28.08.2010 01:53
Имеются два варианта pdf-файла (скан).
Один - с OCR, второй - без оного. Первый - сильно пережатый (артефакты jpg сжатия), второй меньше пожатый. Содержимое идентичное, разрешение страниц одинаковое.
Чем и как можно вынуть OCR слой из одного документа и вставить его в другой? Вроде бы простейшая операция, но не могу найти ни в какой программе такой опции.
Автор: Astra55
Дата сообщения: 28.08.2010 06:22
LonerDergunov

Цитата:
Чем и как можно вынуть OCR слой

Допустим, вынете Вы его, а как привязывать к новым координатам букв/слов на страницах? Проще заново сделать OCR, чем переносить.
Автор: LonerDergunov
Дата сообщения: 28.08.2010 13:05

Цитата:
Проще заново сделать OCR, чем переносить.

А чем вообще делается OCR-слой для готового pdf-файла?
Можно разобрать pdf на отдельные странички-картинки, распознать, потом собрать обратно. Но при этом при сборке нового pdf страницы опять пережимаются-портятся, чего не хотелось бы делать.
Автор: Astra55
Дата сообщения: 28.08.2010 13:53
LonerDergunov

Цитата:
А чем вообще делается OCR-слой для готового pdf-файла?

Если с извлечением растра из pdf, то чем хотите - FR, OP, Acrobat и т.д. Это растровый скан в pdf контейнере, поэтомуможно делать что угодно.

Цитата:
Но при этом при сборке нового pdf страницы опять пережимаются-портятся

Нет, это совсем не обязательно. Если есть приличный скан в pdf, обработайте ClearScan, OCR будет автоматом. Пусть хуже, чем в FR, зато качество изображения будет лучше, и достоверность в целом тоже. Опять же, в djvu перегнать проблем нет. Не далее, как вчера я этим занимался - http://forum.ru-board.com/topic.cgi?forum=93&topic=3172&start=940#14
Автор: vitaly1
Дата сообщения: 28.08.2010 15:20
Astra55

Цитата:
ClearScan

Что это?
Автор: Astra55
Дата сообщения: 28.08.2010 15:27
vitaly1
Типа векторный фонт, создаваемый из растра, идея похожа на CPC. Стандартная фича в Акробате 9, совмещена с OCR. Резко улучшает качество текста, разумеется, когда есть это самое качество. Из дерьма конфету не сделает, проверено.
Автор: LonerDergunov
Дата сообщения: 30.08.2010 03:18
Astra55
Спасибо. Думал, что простейшее распознавание можно выполнить в небольшой программе (Acrobat тяжеловесный, качать было очень долго).
Если делать в Акробате распознавание "одним кликом", то лучше уж выбирать опцию "Изображение с поиском".
ClearScan принудительно разворачивает изображение, пережимает его, а шрифты делает "рваными" и трудночитаемыми.
В результате чего итоговое качество pdf-файла страдает очень сильно.
Качесто OCR в режиме "Изображение с поиском" и в режиме ClearScan у меня получалось сравнимым, причем по крайней мере один раз точно ClearScan распознал текст намного хуже, чем режим "Изображение с поиском".


Цитата:
Резко улучшает качество текста, разумеется, когда есть это самое качество.

...и резко ухудшает, если это низкокачественный скан, скачанный из сети.
Автор: Astra55
Дата сообщения: 30.08.2010 07:28
LonerDergunov
Нет конкретный примеров - нет разговора и нет далеко идущих выводов. Поэтому утверждения насчет ухудшения качества остаются целиком на Вашей совести.
Автор: LonerDergunov
Дата сообщения: 30.08.2010 13:56

Цитата:
Поэтому утверждения насчет ухудшения качества остаются целиком на Вашей совести.

Насчет этого совесть моя чиста.
Насчет качества OCR - поправил предыдущее сообщение. Точно был какой-то скан, где "Изображение с поиском" выдало результат OCR намного лучше, чем в режиме ClearScan. К сожалению, не могу вспомнить какой именно (пробовал распознавать случайным образом журналы из 300-гиговой коллекции).

Насчет ухудшения качества изображения и отображаемого текста. В архиве оригинал (скачан на просторах интернета, оставлены несколько страниц для уменьшения размера) и вариант после обработки ClearScan.
http://rghost.ru/2482751
Автор: Astra55
Дата сообщения: 30.08.2010 14:41
LonerDergunov
Продукт рук, растущих из задницы испортить невозможно. Если сканируют при 150dpi, да еще лень выставить яркость/контраст, невольно напрашивается вывод о мозговом аппарате облегченного образца Вот результат самой примитивной обработки. Как говорят, почувствуйте разницу, на фото особого внимания не обращал - http://narod.ru/disk/24268337000/Original-Image0004b.pdf.html
Автор: LonerDergunov
Дата сообщения: 30.08.2010 15:07
Astra55

Забавно, и правда намного лучше текст получился.
Чем "отбеливать" задний фон? Photoshop-ом каждую страничку по отдельности?
Автор: Astra55
Дата сообщения: 30.08.2010 16:28
LonerDergunov

Цитата:
Photoshop-ом каждую страничку по отдельности?

Это не наш подход Называется Автобаланс и Ресэмплинг, обе функции в CleanerZoomer, есть батч, работает очень быстро. Я пользуюсь версией 3.7, хотя есть более новая. Этот CZ каким-то образом давит jpg артефакты, поэтому удается легко улучшить даже паршивые изображения.
Автор: sergio147
Дата сообщения: 15.09.2010 09:24
Подскажите пожалуйста, возможно ли ПАКЕТНОЕ редактирование pdf файлов вот так:

1) изменить размер отдельной страницы в каждом pdf файле

2) удалить один и тот же заданный текст из всех pdf файлов

Если возможно, то какими средствами?

Заранее спасибо!
Автор: Astra55
Дата сообщения: 15.09.2010 09:51
sergio147
Если изменять размер одной и той же страницы во всех pdf файлах, то скорее да, чем нет, это зависит от требований, которые Вы не указали. С удалением текста могут быть фонтовые заморочки, попробуйте A-PDF Text Replace.
Автор: sergio147
Дата сообщения: 15.09.2010 10:59
Astra55,

1)
Например, обрезать в каждом pdf файле 1-ую страницу на 1.5 см сверху.
Можно?

2) Спасибо! Попробую.
Автор: Astra55
Дата сообщения: 15.09.2010 11:24
sergio147
Тогда, скорее всего, A-PDF Page Crop через командную строку. Иначе батч не поддерживается.
Автор: sergio147
Дата сообщения: 15.09.2010 11:51
Astra55,

Очень интересная контора A-PDF
Похоже, у них есть всё для работы с форматом pdf.

Вот только денег хотят за свои программы. С ходу у меня не получилось найти вылеченные версии (см. здесь и на torrents.ru)

Подскажите, пожалуйста, где можно взять A-PDF Text Replace и A-PDF Page Crop пригодные для работы
Автор: vitaly1
Дата сообщения: 15.09.2010 11:59
Для кропа (и не только) использую вот такую штуку - http://www.pdfill.com Главный плюс - бесплатна, вот только не знаю, поддерживает ли пакетный режим.

И еще есть PDFTK - пакетная обработка PDF файлов из командной строки.

Страницы: 1234567891011121314151617181920212223242526272829303132333435

Предыдущая тема: SSH-клиент на Java


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.