Редактирование PDF файлов

Автор: embrace909
Дата сообщения: 27.02.2013 19:05

Цитата:

Помогите, пожалуйста, ещё вот это чудо раз в 10 в размерах уменьшить:

http://filecloud.io/rd53z8a7

Там все картинки в растре. Поэтому можно воспользоваться Abby Fine Reader, но потом кропотливо выискывать ошибки распознования, либо можно извлечь все страницы в PNG к примеру, потом скопом сохранять картинки в JPG с нужной потерей качества, потом смотреть сколько будет весить папска с пережатыми файлами, если не достигнут нужный вес - то пережимать с другим % потери качества JPG, а после закинуть все JPG в утилиту i2pdf с опцией добавления JPG без репроцессинга, далее получите PDF такого же размера, как папка с JPG.

Автор: LonerDergunov
Дата сообщения: 27.02.2013 20:17

sergio147

Цитата:

Помогите, пожалуйста

Было интересно взглянуть на "чудо".
Но как правило при подобных просьбах обычно файлы заливают на нормальные обменники или облачные хранилища, а не на какие-то Г-образные сервисы, которые отдают файл со скоростью 10 кб/с . Качать файлик пять часов (!) чтобы помочь - это ж не каждый захочет.

Через CS прогнать пробовали или результат не устраивает?

Автор: sergio147
Дата сообщения: 27.02.2013 22:54

LonerDergunov,

что такое CS?

Залил на нормальный обменник по вашей просьбе:

Molecular and Supramolecular Photochemistry, Vol. 01, 1997.bak.pdf (152.3 MB)
https://mega.co.nz/#!kAgz0SRT!CkKEnk7IhyV5ev-OuHUYRTQFWl8_iXvrN02BWJZ0bR8

Не смотрите, что он новозеландский

Добавлено:
-------------------------------------------------------

вот что получилось при использовании A-PDF Scan Optimizer c настройками

B/W (Threshold,210)+Sample(Scale, ProjectBW, 80)

[ru-board] Molecular and Supramolecular Photochemistry, Vol. 01, 1997.pdf (17.7 MB)
https://mega.co.nz/#!oNwlDTqL!CB-hXXG5BTuuRYj7xDsGLV-LK3wsS4oRuJ-vdODI-3M

Автор: LonerDergunov
Дата сообщения: 28.02.2013 00:53

sergio147
Если устроит - перепаковалось до 36 Мб.
Попробую ещё предварительно распаковать в tiff и пройтись по картинкам ScanTailorом - можно получить ещё меньший размер и аккуратное качество. (в djvu - будет вообще размер менее 10 Мб в идеальном качестве).

Автор: sergio147
Дата сообщения: 28.02.2013 13:06

LonerDergunov,

ЭТО ПРОСТО БЛЕСТЯЩЕ.

Как вам удалось достичь такой красоты?

Пусть размер больше моего, но чёткость линий на уровне true PDF, как говорится

Автор: LonerDergunov
Дата сообщения: 28.02.2013 15:14

sergio147

Финальный вариант.
Предварительно почистил от jpg-артефактов, потому размер ещё уменьшился. Заодно исправил обрезку и повороты страниц.
Результат. PDF CS OCR - 27.4 Mb, DjVu (без OCR) - 4.2 Mb.
Исходный PDF разобрал в Акробате на tiff-страницы, прогнал их через ScanTailor, перевёл в BW (попутно убрались артефакты вокруг букв). Всё опять пересобрал в Adobe Acrobat Pro, выставив режим OCR ClearScan. Грубо говоря - в этом режиме Акробат строит для текста новый шрифт, а затем все буквы перерисовываются и становятся аккуратно-округлыми.
DjVu получился просто чудесного размера благодаря тому, что всё ушло в текстовый слой. Правда, он без OCR-слоя (я ещё не научился делать таковой в FineReader).

Автор: sergio147
Дата сообщения: 28.02.2013 16:14

Цитата:

Правда, он без OCR-слоя (я ещё не научился делать таковой в FineReader).

вот это обидно

Автор: j52
Дата сообщения: 28.02.2013 16:42

LonerDergunov

Цитата:

(я ещё не научился делать таковой в FineReader).

Е.PDF и DjVu собирались из одних tiff-ов, то я делаю так:
1. конвертнуть pdftodjvu
2. извлечь из djvu OCR-слой - djvused
3. вставить OCR-слой в свой djvu - - djvused
(

ещё не научился OCR-слой, без Adobe Acrobat, прямо из PDF доставать...)

Автор: sergio147
Дата сообщения: 28.02.2013 16:46

Цитата:

PDF и DjVu собирались и одних tiff-ов

а в TIFF есть текстовый слой О_О?

Моё сознание расширяется...

Автор: j52
Дата сообщения: 28.02.2013 17:00

sergio147

Цитата:

а в TIFF есть текстовый слой О_О?
Моё сознание расширяется...

- это хорошо-о...

Вот только причем здесь, притянутый за уши, текстовый слой к TIFF ?

А условие "PDF и DjVu собирались из одних и тех-же(было пропущено) tiff-ов" для того, чтобы при перетаскивании текстового слоя из PDF в DjVu не поплыли координаты текстового слоя относительно изображения...

Автор: Rustamer
Дата сообщения: 28.02.2013 18:39

LonerDergunov
Для добавления OCR-слоя можно воспользоваться простой и удобной утилитой DjvuOCR + ABBY FineReader 8. Процесс очень прост - разобрать этой утилитой djvu на tiff -> сгенерить пакет для FineReader и прогнать его -> сохранить результат в txt и передать его вместе с проектом программе DjvuOCR. Насчет новых версий FineReader не уверен, т.к. привык юзать проверенную временем и простую 8-ю версию. Возможно новые версии дружат с djvu напрямую.

sergio147
http://rghost.ru/44174705 - возможно подойдет djvu от LonerDergunov+OCR

Автор: LonerDergunov
Дата сообщения: 28.02.2013 20:12

Цитата:

простой и удобной утилитой DjvuOCR + ABBY FineReader 8.

Я знаю про неё, теорию читал, просто пока ещё не опробовал на практике.

Кстати, небольшой оффтопик - FineReader 8 нормально работает на Win8x64?
FineReader должен быть установлен или подойдут и портабельные версии?
FineReader 11 в плане качества распознавания лучше чем 8 или разницы нет?

Автор: sergio147
Дата сообщения: 28.02.2013 23:23

Господа, всем спасибо за помощь!!!

Добавлено:
Нужны будут книжки - обращайтесь в "мой" топик

Автор: Rustamer
Дата сообщения: 01.03.2013 04:16

LonerDergunov
У меня отлично работает на Win7 x64 и x86. Думаю с Win8 x64 также проблем быть не должно. Подойдут и портабельные версии. Насчет разницы не подскажу, т.к. не вижу смысла ставить - тут ведь простой текст, который при наличии нормального скана распознает любая версия FineReader. Другое дело если на выходе нужен doc-файл, тут уже стоит попробовать новые версии из-за форматирования и тп.
Сорри за

Автор: SLasH
Дата сообщения: 08.03.2013 18:21

Приветствую всех!
Есть ли программа, позволяющая в поиске PDF-а использовать RegExp-ы?

Автор: guakamole
Дата сообщения: 08.03.2013 19:12

SLasH
Из просто "поисковиков", FileLocator Pro, например, может.

Автор: SLasH
Дата сообщения: 08.03.2013 20:00

FileLocator Pro - хорошая штука, а есть ридеры с такой функцией?

Автор: Lonely_Soul
Дата сообщения: 24.03.2013 01:07

Подскажите, чем у существующих PDF вычистить объекты, выходящие за пределы mediabox (т.е. фактически невидимые)? Заметил, что всевозможные "делители разворотов" на самом деле всего лишь делают дубликат страницы и меняют размер mediabox, а содержимое остаётся.
Adobe Acrobat в некоторых случаях справляется. А есть ли какая-нибудь альтернатива?

Автор: Astra55
Дата сообщения: 24.03.2013 07:36

Lonely_Soul
После кропа и прочих операций в Акробате, с плагинами или без, нет нужды в дистилляции для удаления невидимых частей pdf, в Акробатах X-XI есть опция Remove Hidden Information (в 8-м и 9-м - Examine Document), там можно удалить все ненужное, но без фанатизма.

Автор: Shangry
Дата сообщения: 25.03.2013 13:59

Есть приличное количество PDF, собранных из сканов (серых и цветных). Обработать изображения после сканирования похоже никто не подумал, поэтому пиксельный размер страниц заметно плавает. Соответственно прыгают и размеры выводимых страниц в PDF-читалке.

Обычно в таких случаях разбирают PDF на отдельные изображения, приводят их к одному и тому же пиксельному объему, а потом обратно собирают их в PDF. Но работа эта достаточно громоздкая и хлопотная, так что хотелось бы ее упростить.
Может быть существует софт, который может проделать то же самое, но внутри самого PDF, без того, чтобы его разбирать? Только надо, чтобы в изображениях редактировалось именно количество пикселей по горизонтали и по вертикали, а не разрешение или еще что, связанное с пиксельностью.

Автор: Astra55
Дата сообщения: 25.03.2013 15:07

Shangry
Курить мануал Recogniform ImageProcessor Scripting Language. Он может редактировать растр внутри pdf. Других софтов, которые поддерживают подобные операции в батче не знаю.

Автор: Shangry
Дата сообщения: 26.03.2013 14:24

Astra55

Цитата:

Курить мануал Recogniform ImageProcessor Scripting Language. Он может редактировать растр внутри pdf. Других софтов, которые поддерживают подобные операции в батче не знаю.

Спасибо, что хоть что-то по этой линии откопали. При манере софтмейкеров пиксельность сплошь да рядом редактировать через разрешение, даже одна софтина - и то удача.

Только не очень понятно как этим руководством по языку обзавестись. Покопал на сайте Recogniform, порылся в Сети, здесь на форуме, но пока ничего не отловилось.

Автор: Astra55
Дата сообщения: 26.03.2013 15:37

Shangry
http://rghost.ru/44787948

Автор: Shangry
Дата сообщения: 26.03.2013 16:57

Astra55
Спасибо, буду штудировать.

Автор: P0wder
Дата сообщения: 26.03.2013 21:31

В какой программе (кроме Adobe Acrobat) можно удалить метаданные в PDF ?

Автор: myxan
Дата сообщения: 26.03.2013 23:45

Цитата:

В какой программе (кроме Adobe Acrobat) можно удалить метаданные в PDF ?

BeCyPDFMetaEdit

Автор: P0wder
Дата сообщения: 27.03.2013 10:20

myxan
К сожалению, не помогла. Открываю как Complete Rewrite, Clear All Fields, Save As. После этого открываю в Adobe Reader и в свойствах все метаданные на месте. Да и размер файла после "удаления" данных в BeCyPDFMetaEdit увеличивается, хотя по логике должен уменьшаться.

Автор: guakamole
Дата сообщения: 27.03.2013 11:00

P0wder
Попробуй iScrub

Автор: myxan
Дата сообщения: 27.03.2013 13:42

P0wder
Попробуйте в закладке Metadata (XMP) чекнуть бокс Delete XMP Metadata upon Saving of Document

Автор: P0wder
Дата сообщения: 27.03.2013 15:28

guakamole
Спасибо, только ее не скачать и не найти. Здесь на форуме тоже нет.

» Редактирование PDF файлов