Ru-Board.club
← Вернуться в раздел «Программы»

» Редактирование PDF файлов

Автор: embrace909
Дата сообщения: 27.02.2013 19:05

Цитата:

Помогите, пожалуйста, ещё вот это чудо раз в 10 в размерах уменьшить:

http://filecloud.io/rd53z8a7

Там все картинки в растре. Поэтому можно воспользоваться Abby Fine Reader, но потом кропотливо выискывать ошибки распознования, либо можно извлечь все страницы в PNG к примеру, потом скопом сохранять картинки в JPG с нужной потерей качества, потом смотреть сколько будет весить папска с пережатыми файлами, если не достигнут нужный вес - то пережимать с другим % потери качества JPG, а после закинуть все JPG в утилиту i2pdf с опцией добавления JPG без репроцессинга, далее получите PDF такого же размера, как папка с JPG.
Автор: LonerDergunov
Дата сообщения: 27.02.2013 20:17
sergio147

Цитата:
Помогите, пожалуйста

Было интересно взглянуть на "чудо".
Но как правило при подобных просьбах обычно файлы заливают на нормальные обменники или облачные хранилища, а не на какие-то Г-образные сервисы, которые отдают файл со скоростью 10 кб/с . Качать файлик пять часов (!) чтобы помочь - это ж не каждый захочет.
Через CS прогнать пробовали или результат не устраивает?
Автор: sergio147
Дата сообщения: 27.02.2013 22:54
LonerDergunov,

что такое CS?

Залил на нормальный обменник по вашей просьбе:

Molecular and Supramolecular Photochemistry, Vol. 01, 1997.bak.pdf (152.3 MB)
https://mega.co.nz/#!kAgz0SRT!CkKEnk7IhyV5ev-OuHUYRTQFWl8_iXvrN02BWJZ0bR8

Не смотрите, что он новозеландский

Добавлено:
-------------------------------------------------------

вот что получилось при использовании A-PDF Scan Optimizer c настройками

B/W (Threshold,210)+Sample(Scale, ProjectBW, 80)



[ru-board] Molecular and Supramolecular Photochemistry, Vol. 01, 1997.pdf (17.7 MB)
https://mega.co.nz/#!oNwlDTqL!CB-hXXG5BTuuRYj7xDsGLV-LK3wsS4oRuJ-vdODI-3M

Автор: LonerDergunov
Дата сообщения: 28.02.2013 00:53
sergio147
Если устроит - перепаковалось до 36 Мб.
Попробую ещё предварительно распаковать в tiff и пройтись по картинкам ScanTailorом - можно получить ещё меньший размер и аккуратное качество. (в djvu - будет вообще размер менее 10 Мб в идеальном качестве).
Автор: sergio147
Дата сообщения: 28.02.2013 13:06
LonerDergunov,

ЭТО ПРОСТО БЛЕСТЯЩЕ.

Как вам удалось достичь такой красоты?

Пусть размер больше моего, но чёткость линий на уровне true PDF, как говорится
Автор: LonerDergunov
Дата сообщения: 28.02.2013 15:14
sergio147

Финальный вариант.
Предварительно почистил от jpg-артефактов, потому размер ещё уменьшился. Заодно исправил обрезку и повороты страниц.
Результат. PDF CS OCR - 27.4 Mb, DjVu (без OCR) - 4.2 Mb.
Исходный PDF разобрал в Акробате на tiff-страницы, прогнал их через ScanTailor, перевёл в BW (попутно убрались артефакты вокруг букв). Всё опять пересобрал в Adobe Acrobat Pro, выставив режим OCR ClearScan. Грубо говоря - в этом режиме Акробат строит для текста новый шрифт, а затем все буквы перерисовываются и становятся аккуратно-округлыми.
DjVu получился просто чудесного размера благодаря тому, что всё ушло в текстовый слой. Правда, он без OCR-слоя (я ещё не научился делать таковой в FineReader).
Автор: sergio147
Дата сообщения: 28.02.2013 16:14

Цитата:
Правда, он без OCR-слоя (я ещё не научился делать таковой в FineReader).


вот это обидно
Автор: j52
Дата сообщения: 28.02.2013 16:42
LonerDergunov

Цитата:
(я ещё не научился делать таковой в FineReader).

Е.PDF и DjVu собирались из одних tiff-ов, то я делаю так:
1. конвертнуть pdftodjvu
2. извлечь из djvu OCR-слой - djvused
3. вставить OCR-слой в свой djvu - - djvused
( ещё не научился OCR-слой, без Adobe Acrobat, прямо из PDF доставать...)
Автор: sergio147
Дата сообщения: 28.02.2013 16:46

Цитата:
PDF и DjVu собирались и одних tiff-ов


а в TIFF есть текстовый слой О_О?

Моё сознание расширяется...
Автор: j52
Дата сообщения: 28.02.2013 17:00
sergio147

Цитата:
а в TIFF есть текстовый слой О_О?
Моё сознание расширяется...

- это хорошо-о...

Вот только причем здесь, притянутый за уши, текстовый слой к TIFF ?

А условие "PDF и DjVu собирались из одних и тех-же(было пропущено) tiff-ов" для того, чтобы при перетаскивании текстового слоя из PDF в DjVu не поплыли координаты текстового слоя относительно изображения...
Автор: Rustamer
Дата сообщения: 28.02.2013 18:39

LonerDergunov
Для добавления OCR-слоя можно воспользоваться простой и удобной утилитой DjvuOCR + ABBY FineReader 8. Процесс очень прост - разобрать этой утилитой djvu на tiff -> сгенерить пакет для FineReader и прогнать его -> сохранить результат в txt и передать его вместе с проектом программе DjvuOCR. Насчет новых версий FineReader не уверен, т.к. привык юзать проверенную временем и простую 8-ю версию. Возможно новые версии дружат с djvu напрямую.

sergio147
http://rghost.ru/44174705 - возможно подойдет djvu от LonerDergunov+OCR
Автор: LonerDergunov
Дата сообщения: 28.02.2013 20:12

Цитата:
простой и удобной утилитой DjvuOCR + ABBY FineReader 8.

Я знаю про неё, теорию читал, просто пока ещё не опробовал на практике.
Кстати, небольшой оффтопик - FineReader 8 нормально работает на Win8x64?
FineReader должен быть установлен или подойдут и портабельные версии?
FineReader 11 в плане качества распознавания лучше чем 8 или разницы нет?
Автор: sergio147
Дата сообщения: 28.02.2013 23:23
Господа, всем спасибо за помощь!!!

Добавлено:
Нужны будут книжки - обращайтесь в "мой" топик
Автор: Rustamer
Дата сообщения: 01.03.2013 04:16
LonerDergunov
У меня отлично работает на Win7 x64 и x86. Думаю с Win8 x64 также проблем быть не должно. Подойдут и портабельные версии. Насчет разницы не подскажу, т.к. не вижу смысла ставить - тут ведь простой текст, который при наличии нормального скана распознает любая версия FineReader. Другое дело если на выходе нужен doc-файл, тут уже стоит попробовать новые версии из-за форматирования и тп.
Сорри за
Автор: SLasH
Дата сообщения: 08.03.2013 18:21
Приветствую всех!
Есть ли программа, позволяющая в поиске PDF-а использовать RegExp-ы?
Автор: guakamole
Дата сообщения: 08.03.2013 19:12
SLasH
Из просто "поисковиков", FileLocator Pro, например, может.
Автор: SLasH
Дата сообщения: 08.03.2013 20:00
FileLocator Pro - хорошая штука, а есть ридеры с такой функцией?
Автор: Lonely_Soul
Дата сообщения: 24.03.2013 01:07
Подскажите, чем у существующих PDF вычистить объекты, выходящие за пределы mediabox (т.е. фактически невидимые)? Заметил, что всевозможные "делители разворотов" на самом деле всего лишь делают дубликат страницы и меняют размер mediabox, а содержимое остаётся.
Adobe Acrobat в некоторых случаях справляется. А есть ли какая-нибудь альтернатива?
Автор: Astra55
Дата сообщения: 24.03.2013 07:36
Lonely_Soul
После кропа и прочих операций в Акробате, с плагинами или без, нет нужды в дистилляции для удаления невидимых частей pdf, в Акробатах X-XI есть опция Remove Hidden Information (в 8-м и 9-м - Examine Document), там можно удалить все ненужное, но без фанатизма.
Автор: Shangry
Дата сообщения: 25.03.2013 13:59
Есть приличное количество PDF, собранных из сканов (серых и цветных). Обработать изображения после сканирования похоже никто не подумал, поэтому пиксельный размер страниц заметно плавает. Соответственно прыгают и размеры выводимых страниц в PDF-читалке.

Обычно в таких случаях разбирают PDF на отдельные изображения, приводят их к одному и тому же пиксельному объему, а потом обратно собирают их в PDF. Но работа эта достаточно громоздкая и хлопотная, так что хотелось бы ее упростить.
Может быть существует софт, который может проделать то же самое, но внутри самого PDF, без того, чтобы его разбирать? Только надо, чтобы в изображениях редактировалось именно количество пикселей по горизонтали и по вертикали, а не разрешение или еще что, связанное с пиксельностью.
Автор: Astra55
Дата сообщения: 25.03.2013 15:07
Shangry
Курить мануал Recogniform ImageProcessor Scripting Language. Он может редактировать растр внутри pdf. Других софтов, которые поддерживают подобные операции в батче не знаю.
Автор: Shangry
Дата сообщения: 26.03.2013 14:24
Astra55

Цитата:
Курить мануал Recogniform ImageProcessor Scripting Language. Он может редактировать растр внутри pdf. Других софтов, которые поддерживают подобные операции в батче не знаю.

Спасибо, что хоть что-то по этой линии откопали. При манере софтмейкеров пиксельность сплошь да рядом редактировать через разрешение, даже одна софтина - и то удача.

Только не очень понятно как этим руководством по языку обзавестись. Покопал на сайте Recogniform, порылся в Сети, здесь на форуме, но пока ничего не отловилось.
Автор: Astra55
Дата сообщения: 26.03.2013 15:37
Shangry
http://rghost.ru/44787948
Автор: Shangry
Дата сообщения: 26.03.2013 16:57
Astra55
Спасибо, буду штудировать.
Автор: P0wder
Дата сообщения: 26.03.2013 21:31
В какой программе (кроме Adobe Acrobat) можно удалить метаданные в PDF ?
Автор: myxan
Дата сообщения: 26.03.2013 23:45

Цитата:
В какой программе (кроме Adobe Acrobat) можно удалить метаданные в PDF ?

BeCyPDFMetaEdit
Автор: P0wder
Дата сообщения: 27.03.2013 10:20
myxan
К сожалению, не помогла. Открываю как Complete Rewrite, Clear All Fields, Save As. После этого открываю в Adobe Reader и в свойствах все метаданные на месте. Да и размер файла после "удаления" данных в BeCyPDFMetaEdit увеличивается, хотя по логике должен уменьшаться.
Автор: guakamole
Дата сообщения: 27.03.2013 11:00
P0wder
Попробуй iScrub
Автор: myxan
Дата сообщения: 27.03.2013 13:42
P0wder
Попробуйте в закладке Metadata (XMP) чекнуть бокс Delete XMP Metadata upon Saving of Document
Автор: P0wder
Дата сообщения: 27.03.2013 15:28
guakamole
Спасибо, только ее не скачать и не найти. Здесь на форуме тоже нет.

Страницы: 1234567891011121314151617181920212223242526272829303132333435

Предыдущая тема: SSH-клиент на Java


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.