Поскольку в соседней ветки это оффтопик, поэтому прошу прощения за публикацию ответа здесь:
2 Meaningless
> Лично для меня цель дискуссии почерпнуть побольше инфы
> как о DJVU так и о PDF.
Согласен.
> ну... есть много способов. Конечно PDF это не Word, т.е.
> редактирование там построчное, а не по параграфам или всему
> тексту, но вообще готовый PDF редактируется например через Adobe
> Illustrator, Macromedia Studio, кажется даже Corel Draw...
AI пока еще не поставил, нужно рыться в "закромах Родины", то есть, в
своих сидюках, вроде должен быть. Насчет блокнота - это вряд ли, не
видно в файле никакого текста в разумной кодировке, только служебная
инфа. Поэтому сильно сомневаюсь в такой возможности, если можно
поглядеть практический пример, тогда буду менять "кочку" зрения
.
> DJVU изначально это формат сжатия графики, такой же как JPG или
> TIFF только более продвинутый.
Отличие не столько в продвинутости как таковой, а в назначении. На
мой взгляд - DJVU служит для архивного хранения инфы и ни для чего
более. Все остальные способы уступают либо по трудозатратам, либо по
размеру. Применительно к серому и цветному изображению DJVU не
lossless, поэтому для серьезных дел вряд ли пригоден.
> PDF изначально это контейнер, который может содержать что угодно
> - текст, графику, хоть кинофильм.
Я не спорю, но получается PDF PDF-у рознь. К сожалению, не все это
понимают, похожая ситуация с jpg. Когда скачиваешь сканированную доку
в этих форматах, появляется большое желание оторвать руки автору.
Чудовищные размеры у pdf или катастрофическое и невосстановимое
падение качества. То же самое с цветным GIF, нельзя в нем черно-белое
изображение хранить, далеко не все софты поддерживают однобитовый
цвет. Доки в PDF - это стандарт, но если нужна какая-либо обработка,
кроме печати, то тут возникают сложности, может и преодолимые, но
именно сложности. Даже текст просто так не удается извлечь, теряется
форматирование.
> хотя и размер по сравнению с DJVU огромный (боясь испортить
> впечатление авторы сканов оставляли компрессию изображений очень
> низкой).
Так мы разговор про объем ведем в первую очередь, если бы он не играл
роли, то можно хоть в BMP хранить.
Для проверки была взята текстовая страница А4 на русском языке,
результаты такие:
Чистый текст - 4 390
Tiff 300dpi G4 - 102 532 получено при помощи FinePrint5
Tiff 600dpi G4 - 203 460 получено при помощи FinePrint5
Text to PDF - 20 054 получено при помощи pdfFactory2
PDF FR OCR - 27 272 получено распознаванием tiff 600dpi(есть ошибки)
PDF - 18 491 получено при помощи PDF Writer(русский в транслите)
DJVU 300 - 6 988 получено из tiff 300dpi DjVuEditor 4.1PRO
DJVU 600 - 8 555 получено из tiff 600dpi DjVuEditor 4.1PRO
DJVU 300 - 6 944 получено из tiff 300dpi Solo 3.1
DJVU 600 - 8 511 получено из tiff 600dpi Solo 3.1
Как видно, pdf уступает в объеме и очень существенно, особенно после
ФайнРидера. Если учесть, что исходный файл был только текстовым и
фонты, кроме одного не грузились, то при любом изменении содержащейся
текстовой инфы будет только увеличение объема, но никак не сокращение.
На графике с текстом другая картина.
> Тогда сделай следующее: сосканируй в FineReader'e страницу твоего
> "супер-сложного" текста с формулами, картинками и проч.,
> распознай текст, а теперь сохрани его как PDF, только в опциях
> сохранения укажи, что распознанный текст надо сохранить ПОД
> изображением.
Я проверил указанную методу с ФР и сохранением результата в pdf. На
отдельных файлах pdf даже выиграл у djvu! Но когда была взята книга
полностью, 400 страниц с графикой, латынью и таблицами, то увы! Самое
неприятное то, что при сохранении pdf в ФР падает качество графики и
очень заметно. Сравнение размера файлов:
DJVU OCR - 8 861 355
PDF OCR - 12 500 772
Дело еще в том, что несмотря на наличие ресурсов с настройками всех
параметров сжатия в DjVu Editor 4.1PRO реально я до них не могу
добраться, где они их зарыли, непонятно. Может быть поэтому небольшой
проигрыш Соло, а может другие причины, разница в 44 байта и там, и там.
WBR,
Astra