Ru-Board.club
← Вернуться в раздел «Программы»

» Сканирование и оцифровка текста *.txt, *doc, *.pdf, *.djvu

Автор: ging
Дата сообщения: 19.05.2004 13:55
Dickobraz

Wow!! Vash proekt - imenno to, chto ya iskal. Esche nemnogo dovesti programmku i ya
pervyj otkagusj ot PDF. Bylo by zdorovo, esli by Vy vylogili format dlya TOC.
Khotya nado samomu povozitjsya s DJUSED i Vashim primerom...
No vedj eto Vasha nadstrojka nad formatom, t.k. v plug-in'e TOC ne vidno, ne tak li?
Автор: Astra55
Дата сообщения: 19.05.2004 15:26
2 Dickobraz

Скачал, но еще не пробовал, критику наведу потом. А вообще, очень здорово, что разработалась такая софтина, можно только похвалить автора.
Недостатки уже вышедших софтов знают все, вот только шансов на исправление их мало.
А какой версии кодек применен? 25-я или старее?
Появилась возможность скачать русский DjVu Editor 4.1 PRO, желающие могут обращаться на соседний форум, например сюда:
http://forum.ru-board.com/topic.cgi?forum=35&topic=1478&start=620#13

WBR,
Astra

Автор: EL
Дата сообщения: 19.05.2004 15:52
Привет Dickobraz!
Отличная программа! Скорость открытия и независимость от броузера/плагина очень радуют

Навскидку, чего не хватает (или замечания) в DjVuReader:

- открытие файлов методом Drug-and-Drop
- shortcut'ы на все операции
- опция выбора стандартных иконок (мне, например, с ними легче работать, т.к. они более контрастные)
- возможность настройки, как быстро происходит прокрутка при вращении колеса мыши
- не понятно, почему при правом щелчке мыши происходит переключение на предыдущую страницу
- ОЧЕНЬ не хватает увеличенного просмотра при нажатии клавиши Ctrl (как это реализовано в плагине от Lizardtech - я его за эту функцию очень люблю! Честно сказать, мне теперь во всех просмотрщиках очень не хватает этой удобнейшей возможности!)
- не хватает просмотра свойств страницы/документа (только некоторые пока отображаются в строке статуса)
- маленькие кнопочки со стрелочками вверх-вниз можно убрать (т.к. они дублируют функции боьших кнопок "+" / "-")
- "Fit width", "Fit page" хотелось бы также иметь в виде кнопок на панели...
- кнопки "Single Page" и "Broadside page", насколько я понял, просто переключают режим просмотра одна страница/две страницы. Может тогда для понятности переименовать вторую кнопку в "Two pages" и заменить иконку на изображение двух рядом стоящих страниц?
- также мне несколько непонятен смысл режимов Book и Poster (может, это просто сдвиг страниц, так что текущая страница отображается в режиме двух страниц не справа, а слева?)
- как-то непонятно, зачем галочки в пунктах меню... (можно и убрать)
- числовое значение масштаба не соответствует такому же значению в плагине/DjVuEditor/Solo. (Напр. если в тех программах поставить 100%, то страничка отображается в размерах, примерно соответствующих исходным; а здесь, в DjVuReader она получается слишком большой)


До DjVuUsed пока руки не дошли.


Кстати, если не секрет, в какой среде написан DjVuReader? (Складывается впечатление, что это какой-то симбиоз MS C++ 7 и Delphi)
Автор: kvk
Дата сообщения: 19.05.2004 16:54
Dickobraz
Благодарствуйте! Насчет ocr проблемка имеется Ваш ридер не знает про возможность искать в ocr-енных djvu и копировать из них текст, а у нас скопилось очень много таких djvu (как английский, так в большей степени и русский ocr).
Спасибо!
Удачи
Автор: Dickobraz
Дата сообщения: 20.05.2004 04:15
Спасибо всем за замечания и отклики. Теперь по порядку:
- левый батон мыши - скролл страницы;
- колесо - вертикальный скролл;
- правый батон мыши + жест влево -> следующая страница;
- правый батон мыши + жест вправо -> предыдущая страница;

- Dran-n-Drop - уже делаю;

- скорость скролла колесом и коэф. увеличения будет в настройках;
- режим BOOK - первая и последняя страница - отдельно, все остальные в разворот, POSTER - все страницы в разворот;
- с масштабом поработаем, там надо пересчитывать с учетом dpi.
- все остальные замечания занесены в TODO.

Прога писалась так - исходники djvulibre-3.5.12 под Linux. Из них построена dll с интерфейсами под VC-7. Вся GUI-евая часть написана под BCB6. Поэтому и SDK можно выложить.
Ну и работаем, работаем, работаем )







Добавлено
Для жаждущих Формат TOC в виде файла для djvused:

select; remove-ant;
# -------------------------------------
select 1
set-ant
(metadata
(title1 "Название \"книги\" для TabSheet-а")
(pageindex1
"Обложка
a
b
c
d
1
2
3")
(content1
"Обложка #Обложка
Глава1 #a
111 #b
222 #c
Глава2 #d
333 #1
444 #2
555 #3")
)
.
Единица в конце тегов - типа версия
Строки подчиняются правилам языка C++, т.е. \n - перенос строки \" - кавычки и т.д.
Содержание: вложенные разделы отделяются пробелом. Пока загрузка TOC делается через TreeView->LoadFromStream(...). Думаю сделать через XML.
Страницы в TOC привязываются к индексам. Если индексов нет или их меньше чем страниц - дополняются числовым рядом от 1 до PageCount.
Если индекс не найден - ничего не происходит.
Все это подробнее будет в документации.
Автор: kvk
Дата сообщения: 20.05.2004 12:25
Dickobraz
Поскольку ваш продукт захватил ассоциацию с файлами я его поневоле тестирую мелочь но таки в плагине листание страниц (стрелочки) посередине и мышь обычно там же оказывается у Вас в углу, что неудобно, а вот реже используемые кномки постер там и тп можно и в угол. Далее может и не нужная возможность но в акробате и в плагине часто пользуюсь если в окошке где указан номер стр набить другой и нажать энтер так на него и перейдет (возможно если набить и нажать стрелочку тоже перейдет посмотрите в плагине)
Мне кажется, что Вы добавили несомненные удобства, но и имеющимися возможностями принебрегать не стоит (поиск там в осрных документах и тп).

Ну и еще достоинство Вашей программы если в имени файла есть апостроф (страшно любимый в некоторых кругах ) ваш просмотровщик открывает файл а плагин не на всех конфигурациях так что только за это многие Вам благодарны в топике по физмат книжкам.
Спасибо!
Удачи
Автор: ghosty
Дата сообщения: 21.05.2004 00:25
Dickobraz
Поставил. Это, действительно, то, что многие из нас ждали.
"Шустрость" впечатляет. Возможность открытия сразу двух страниц радует.

Вижу баг: у меня в одном файле некоторые страницы отображаются "вверх тормашками", в то время как в "родном" вьюере все нормально.

Спасибо.

Добавлено
Очень не хватает Full Screen.
Автор: Dickobraz
Дата сообщения: 21.05.2004 08:55
ghosty
нельзя ли получить эту страницу? Есть в формате такой флаг, но все djvu у меня в одной ориентации, поэтому протестировать не могу
Автор: max67
Дата сообщения: 21.05.2004 12:15
Dickobraz
Присоединяюсь к благодарностям. Всяческих успехов в вашем благородном начинании.

Как я заметил, недостатка в пожеланиях потенциальных пользователей не наблюдается. Уже и добавить практически нечего, на мою долю остались мелкие придирки:
- хорошо бы сделать запоминание размера и положения окна;
- ассоциация расширения на себя происходит слишком уж авторитарно, а как же демократические ценности о которых я столько читал в последнии 15 лет ;
- жесты листания мышом. Я таки боюсь быть заподозренным в антисемитзме, но у меня, например, направление "вперёд" ассоциируется с движением с лева на право, а листание назад соответсвенно наоборот. Нельзя ли это дело поменять или оставить на выбор пользователя?
Автор: Astra55
Дата сообщения: 21.05.2004 15:09
Поскольку в соседней ветки это оффтопик, поэтому прошу прощения за публикацию ответа здесь:

2 Meaningless

> Лично для меня цель дискуссии почерпнуть побольше инфы
> как о DJVU так и о PDF.

Согласен.

> ну... есть много способов. Конечно PDF это не Word, т.е.
> редактирование там построчное, а не по параграфам или всему
> тексту, но вообще готовый PDF редактируется например через Adobe
> Illustrator, Macromedia Studio, кажется даже Corel Draw...

AI пока еще не поставил, нужно рыться в "закромах Родины", то есть, в
своих сидюках, вроде должен быть. Насчет блокнота - это вряд ли, не
видно в файле никакого текста в разумной кодировке, только служебная
инфа. Поэтому сильно сомневаюсь в такой возможности, если можно
поглядеть практический пример, тогда буду менять "кочку" зрения .

> DJVU изначально это формат сжатия графики, такой же как JPG или
> TIFF только более продвинутый.

Отличие не столько в продвинутости как таковой, а в назначении. На
мой взгляд - DJVU служит для архивного хранения инфы и ни для чего
более. Все остальные способы уступают либо по трудозатратам, либо по
размеру. Применительно к серому и цветному изображению DJVU не
lossless, поэтому для серьезных дел вряд ли пригоден.

> PDF изначально это контейнер, который может содержать что угодно
> - текст, графику, хоть кинофильм.

Я не спорю, но получается PDF PDF-у рознь. К сожалению, не все это
понимают, похожая ситуация с jpg. Когда скачиваешь сканированную доку
в этих форматах, появляется большое желание оторвать руки автору.
Чудовищные размеры у pdf или катастрофическое и невосстановимое
падение качества. То же самое с цветным GIF, нельзя в нем черно-белое
изображение хранить, далеко не все софты поддерживают однобитовый
цвет. Доки в PDF - это стандарт, но если нужна какая-либо обработка,
кроме печати, то тут возникают сложности, может и преодолимые, но
именно сложности. Даже текст просто так не удается извлечь, теряется
форматирование.

> хотя и размер по сравнению с DJVU огромный (боясь испортить
> впечатление авторы сканов оставляли компрессию изображений очень
> низкой).

Так мы разговор про объем ведем в первую очередь, если бы он не играл
роли, то можно хоть в BMP хранить.
Для проверки была взята текстовая страница А4 на русском языке,
результаты такие:
Чистый текст - 4 390
Tiff 300dpi G4 - 102 532 получено при помощи FinePrint5
Tiff 600dpi G4 - 203 460 получено при помощи FinePrint5
Text to PDF - 20 054 получено при помощи pdfFactory2
PDF FR OCR - 27 272 получено распознаванием tiff 600dpi(есть ошибки)
PDF - 18 491 получено при помощи PDF Writer(русский в транслите)
DJVU 300 - 6 988 получено из tiff 300dpi DjVuEditor 4.1PRO
DJVU 600 - 8 555 получено из tiff 600dpi DjVuEditor 4.1PRO
DJVU 300 - 6 944 получено из tiff 300dpi Solo 3.1
DJVU 600 - 8 511 получено из tiff 600dpi Solo 3.1

Как видно, pdf уступает в объеме и очень существенно, особенно после
ФайнРидера. Если учесть, что исходный файл был только текстовым и
фонты, кроме одного не грузились, то при любом изменении содержащейся
текстовой инфы будет только увеличение объема, но никак не сокращение.
На графике с текстом другая картина.

> Тогда сделай следующее: сосканируй в FineReader'e страницу твоего
> "супер-сложного" текста с формулами, картинками и проч.,
> распознай текст, а теперь сохрани его как PDF, только в опциях
> сохранения укажи, что распознанный текст надо сохранить ПОД
> изображением.

Я проверил указанную методу с ФР и сохранением результата в pdf. На
отдельных файлах pdf даже выиграл у djvu! Но когда была взята книга
полностью, 400 страниц с графикой, латынью и таблицами, то увы! Самое
неприятное то, что при сохранении pdf в ФР падает качество графики и
очень заметно. Сравнение размера файлов:
DJVU OCR - 8 861 355
PDF OCR - 12 500 772

Дело еще в том, что несмотря на наличие ресурсов с настройками всех
параметров сжатия в DjVu Editor 4.1PRO реально я до них не могу
добраться, где они их зарыли, непонятно. Может быть поэтому небольшой
проигрыш Соло, а может другие причины, разница в 44 байта и там, и там.

WBR,
Astra
Автор: Meaningless
Дата сообщения: 21.05.2004 15:26
в продолжение оффтопика в варезнике я высказался по поводу DJVU выше 300 dpi.
если особо не возражаешь, я бы предпочёл исключить их из сравнения.
По остальному отвечу позже.


Цитата:
При lossy компрессии даунсэмплинг естественно делается (и в djvu и в pdf), иначе зачем огород городить. Но качество на выходе получается значительно выше, чем при 300dpi исходнике.

- JBIG2 это ISO и IEC стандарт. JB2 это его проприетарная реализация в djvu. Вряд ли они принципиально отличаются по качеству и компресси. Фишка в другом. djvu построен по принципу mixed raster content (MRC тоже ISO стандарт) - картинка разделяется на 3 слоя: передний, задний и маска. JB2 используется только для компрессии битональной маски с даунсэмплингом по умолчанию до 300 dpi. Полутоновые слои опускаются до 100 и даже 25 dpi.
- Асробат, как я понял, на слои не делит, а жмет JBIG'ом всю картинку. Отсюда и проигрыш в размере/качестве.
- На поле MRC уже засветилась даже Microsoft со своим SLIm форматом. Но до настоящего времени алгоритмы выделения маски и декомпресси в djvu остаются наиболее оптимальными.


max67
погоди, не запутай меня... (и кого нибудь ишо)
мы говорим о ч/б картинках или серых/цветных?

если только о ч/б (тут буча разразилась по хранению факсов а потом вообще ч/б сканов) то откуда взялись полутоновые слои? Потом, ты сам начал с битональных 600 dpi картинок, верно?

Т.е. если следовать твоему техническому описанию, DJVU ВСЕГДА делает downsample битонального изображения до 300 dpi, только при этом возможно немного убирает мусор, а при печати или выводе на экран возможно делает интерполяцию РЕАЛЬНЫХ 300 dpi до 600 dpi слегка улучшая таким образом вид изображения (но не восстанавливая естественно утерянную информацию).

В этом случае сравнивать компрессию любого DJVU с разрешением выше 300 против любого другого формата будет заведомо бесполезно, т.к. мы имеем дело реально с 300 dpi.

Т.к. вопрос далее будет вовлекать в себя слишком субъективные впечатления типа "300 dpi у DJVU лучше чем 600 у PDF" :) предлагаю это дело прикрыть навеки. Если грубо: тип и качество компрессии чёрно-белых 300 dpi в DJVU и PDF оказывается абсолютно одинаковы. Небольшая разница списывается на проприетарность реализации, при которой сжатие в DJVU попросту более "lossy" чем в PDF.

Не будем ещё забывать, что преобразовывать изображения в JBIG2 внутри PDF может делать не только сам Acrobat, но и некоторые плагины к нему. Таким образом, при использовании плагинов сжатие может получиться даже больше, чем у DJVU (например плагин QABOT сжимает JPEGи внутри PDF сильнее, чем это может сделать сам Acrobat).

Упрёмся ещё раз в очевидный факт - PDF это КОНТЕЙНЕР, внутри которого может находится что угодно - лишний мусор или его отсутствие, хорошо или плохо сжатые имиджи и т.п. Всё сравнение размеров базируется на том, насколько качественно он сделан.

По ЦВЕТНЫМ изображениям - понятно, отдельный разговор.

Автор: ging
Дата сообщения: 21.05.2004 15:53
Meaningless

Naschet redaktirovaniya PDF Notepad'om Vy, konechno, pogoryachilisj. Prosmotr - da,
no toljko nichego putnogo Vy tam ne uvidite - toljko slugebnye PDF metki i operatory-
tot samyj LZW, naprimer. A vot esli Vy chto-to tam Netepado'om ispravite - PDF-file
umiraet, eto vse ge binarnyj format.

A vot naschet


Цитата:
преобразовывать изображения в JBIG2 внутри PDF может делать не только сам Acrobat, но и некоторые плагины к нему


uge interesno. Esli mogno - popodrobnee. V chastnosti: mogno-li smotretj potom takoj PDF
na drugikh mashinakh (gde plug-in, samo soboj, ne ustanovlen).
I gde mogno takie plug-in vzyatj (topic rvetsya nazad, v Wareznik?)
Автор: Meaningless
Дата сообщения: 21.05.2004 18:52

Цитата:
Naschet redaktirovaniya PDF Notepad'om Vy, konechno, pogoryachilisj


Ну, малёхо :)

Хотя....

Objects in PDF files can use ASCII or binary representation. ASCII PDFs are larger than binary PDFs files -- depending on the content and number of items, difference in size may be in the range of 10-20%, or higher.

Просто насколько я помню изначально PDF был создан на чистом ASCII (для передачи по мылу, чтобы почтовые сервера его не портили), но в общем есть PDF файлы которые можно и ноутпадом похачить.

Что касается плагинов, которые жмут в JBIG2 - насколько я помню это был PDFCompressor (я дико извиняюсь если ошибусь). Где то его обсуждали в варезнике но по моему дело так ничем и не закончилось, а потом и я махнул на это рукой, мне пока хватает и встроенных средств акробата + DJVU если что цветное, а если бесконечно быть в поисках "самого оптимального" то жить некогда :)

Есть ещё PDF Enhancer но по моему туфта, хотя глянь сам.

Просмотр такого файла возможен на любой машине, т.к. никаких проприетарных форматов не используется.

Для сравнения ещё раз сошлюсь на QABOT - он жмёт джипеги сильнее чем Distiller (опция Extra) но всё же это тот же JPG, потому файл открывается любой читалкой PDF
Автор: Meaningless
Дата сообщения: 22.05.2004 10:12

Цитата:
Насчет блокнота - это вряд ли, не видно в файле никакого текста в разумной кодировке

Признаю своё предыдущее высказывание неполиткорректным, поправлюсь:

"если ломает, то любой PDF можно преобразовать в PDF базирующийся на чистом ASCII и затем редактировать Notepad'ом если понимать структуру"

С ужасом надеюсь что так всех наконец устраивает и с этим приколом можно закончить.


Цитата:
но получается PDF PDF-у рознь

да ещё какая рознь!
как иногда не хватает в акробате кнопки "Выкинуть Весь Мусор Нахрен"


Цитата:
Так мы разговор про объем ведем в первую очередь, если бы он не играл
роли, то можно хоть в BMP хранить.
Для проверки была взята текстовая страница А4 на русском языке,
результаты такие:

Тпр-р-ууу :)
Погодь, погодь, судя по перечню результатов тебя опять понесло в сравнение например PostScript текста полученного при помощи txt2pdf с РАСТРОВОЙ графикой полученной при помощи DJVU. Это совсем, совсем разные вещи. Я понимаю к чему ты клонишь, т.к. ЛЮБЫЕ документы надо хранить в каком то формате, но так мы совсем запутаемся, пусть текст будет текстом, есть СУПЕР форматы для хранения чистого или форматированного ТЕКСТА, которые по размеру уроют любой DJVU, но я бы предпочёл говорить только о сравнении ОТСКАНИРОВАННОГО изображения.
Т.е. исходником для всех сравнений и преобразований пусть является BMP или TIFF Group4.


Цитата:
Я проверил указанную методу с ФР и сохранением результата в pdf. На
отдельных файлах pdf даже выиграл у djvu! Но когда была взята книга
полностью, 400 страниц с графикой, латынью и таблицами, то увы! Самое
неприятное то, что при сохранении pdf в ФР падает качество графики и
очень заметно.


К сожалению совсем не понятно с какими параметрами, что и во что преобразовывалось.
По ЦВЕТНЫМ изображениям я даже не собираюсь спорить, тут DJVU впереди, адаптивная компрессия в Акробате помогает но только при очень низких требованиях к изображению (я например использую её для хранения всякой "побочной" документации типа квитанций, отсканированных конвертов от писем и посылок и т.п.)

Если ты говоришь о чёрно-белом изображении (а дискутируя с тобой я именно на это упираю) то:
- ни о каком "выиграл" речи быть не может, способ компрессии ч/б как мы выяснили у DJVU и PDF одинаковый но файл PDF больше из-за "служебки"
- ни о каком "падении качества" тоже речи нет по той же самой причине (способ сжатия то одинаковый)

И ещё, у меня создалось впечатление что ты оцениваешь размер PDF который создал FineReader. Но его ведь ещё сжать надо!!!! (FineReader создаёт PDF 1.2, там нет JBIG2 компрессии)
После того, как ты получил PDF в FineReader открой его Акробатом, выбери в меню Advanced | PDF Optimizer и сожми ч/б изображение при помощи JBIG2 Lossy - тогда и получишь сжатие чёрно белых изображений такое же как в DJVU.
Автор: ghosty
Дата сообщения: 22.05.2004 11:50

Цитата:
есть СУПЕР форматы для хранения чистого или форматированного ТЕКСТА

Огласите весь список пжалста. Я уже замучался искать такой формат, размер которого можно было бы хоть как-то предсказать в случае форматированного текста, наличия таблиц и проч. Ну и, естественно, чтобы этот размер был намного меньше.
Автор: Meaningless
Дата сообщения: 22.05.2004 22:36

Цитата:
Огласите весь список пжалста


пжалста :)
Редактор PolyEdit имеет собственный формат etf (aka Enhanced Text Format)
Бинарник, жуткая ;) степень сжатия по сравнению с другими форматами, даже простой текстовой файл сжатый best RAR'ом будет больше по размеру.
Кстати сам etf сжимать RAR'ом (или чем угодно) бесполезно.

Как и DJVU является иллюстрацией поговорки секс-терапевтов "размер не главное" т.к. тоже поддерживается единственным редактором на единственной платформе. Как результат - спорю ты от меня первого о нём слышишь :) (я имею в виду сам формат а не редактор PolyEdit, который довольно популярен в рунете)
Автор: ghosty
Дата сообщения: 23.05.2004 00:41
Meaningless
Интересно.
А еще какие (ты назвал один)?


Цитата:
я имею в виду сам формат а не редактор PolyEdit, который довольно популярен в рунете

А насколько он совместим с *.doc? Туда-обратно может без потерь (существенных) конвертироваться?
Я стою перед проблемой выбора формата для хранения текста с большим кол-вом таблиц и иногда картинок. До сих пор по разным причинам меня не устраивали ни *.doc, ни *.pdf, ни *.djvu. Мне нужен наименьший объем, скорость при просмотре, возможность быстрого копирования и (изредка) внесения изменений. А смогут ли другие люди без дополнительных усилий открыть такой файл - не столь важно. Поэтому рассмотрю любые предложения
Автор: Meaningless
Дата сообщения: 23.05.2004 01:02
ghosty
Поковыряйся сам, лана, потом расскажешь.
От тебя будет больше толку, т.к. меня эта тема не очень интересует: сижу себе на Word'e и спокоен. Если чё, пакую RAR'ом. На CD влазит :)
Автор: gmarik
Дата сообщения: 23.05.2004 03:31
Фине Ридер ис зэ бест...
Автор: cornborer
Дата сообщения: 23.05.2004 07:47
ghosty

Цитата:
А насколько он совместим с *.doc

Формально, да. А на деле не слишком. Сложное форматирование, особенно с непростым размещением рисунков оказывается PolyEdit'у не по зубам. Впрочем, если быть справедливым, то НИ ОДНОМУ редактору, даже WordPerfect'у это тоже не под силу (если иметь в виду абсолютно точное воспроизведение, "как в Ворде").
Автор: ghosty
Дата сообщения: 23.05.2004 14:35
cornborer

Цитата:
Формально, да. А на деле не слишком. Сложное форматирование, особенно с непростым размещением рисунков оказывается PolyEdit'у не по зубам. Впрочем, если быть справедливым, то НИ ОДНОМУ редактору, даже WordPerfect'у это тоже не под силу (если иметь в виду абсолютно точное воспроизведение, "как в Ворде").

Спасибо за подробный ответ.

Таки нет альтернативы кривеющему день ото дня *.doc?
Автор: Astra55
Дата сообщения: 23.05.2004 17:12
2 Meaningless

>Погодь, погодь, судя по перечню результатов тебя опять понесло в сравнение например PostScript
>текста полученного при помощи txt2pdf с РАСТРОВОЙ графикой полученной при помощи DJVU. Это совсем,
>совсем разные вещи. Я понимаю к чему ты клонишь, т.к. ЛЮБЫЕ документы надо хранить в каком то
>формате, но так мы совсем запутаемся, пусть текст будет текстом, есть СУПЕР форматы для хранения
>чистого или форматированного ТЕКСТА, которые по размеру уроют любой DJVU, но я бы предпочёл
>говорить только о сравнении ОТСКАНИРОВАННОГО изображения.
>Т.е. исходником для всех сравнений и преобразований пусть является BMP или TIFF Group4.

Какая разница? После печати в файл из ФайнПринта любая инфа становится графикой. Значение содержание уже не имеет, там не текст, а рисунок в виде текста.

>К сожалению совсем не понятно с какими параметрами, что и во что преобразовывалось.
>По ЦВЕТНЫМ изображениям я даже не собираюсь спорить, тут DJVU впереди, адаптивная компрессия в
>Акробате помогает но только при очень низких требованиях к изображению (я например использую её
>для хранения всякой "побочной" документации типа квитанций, отсканированных конвертов от писем и
>посылок и т.п.)

Был взят многостраничный черно-белый tif, из которого и конвертился исходный файл djvu. Так что про
цвет речи не было.

>- ни о каком "падении качества" тоже речи нет по той же самой причине (способ сжатия то
>одинаковый)

Теоретически. Но на практике могу продемонстрировать скриншот, на котором невооруженным глазом видно ухудшение всех знаков в тексте после ФР. Допускаю, что косяк сидит у них, снижают dpi при обработке tif, но альтернативы нет, поэтому такой путь неприемлем.

>И ещё, у меня создалось впечатление что ты оцениваешь размер PDF который создал FineReader. Но
>его ведь ещё сжать надо!!!! (FineReader создаёт PDF 1.2, там нет JBIG2 компрессии)
>После того, как ты получил PDF в FineReader открой его Акробатом, выбери в меню Advanced | PDF
>Optimizer и сожми ч/б изображение при помощи JBIG2 Lossy - тогда и получишь сжатие чёрно белых
>изображений такое же как в DJVU.

Пробовал, разница уменьшилась, стала порядка 20-25%, но учитывая сказанное выше по поводу качества графики, такое сжатие не имеет смысла. Только в Акробате (у меня 5.0.5СЕ, 6-я версия есть в вариантах, но в ней убрали возможность установки dpi при конвертации, поэтому снес) такой опции я не нашел, сохранил в ps, а потом конвертнул в самый последний протокол.

Вчера выяснил наконец для чего нужен виртуальный принтер и что он может. Понадобилось конвертнуть пару софтов из pdf в djvu, один на 33 мега(djvu 3,53 мега), другой на 29,5 мегов(djvu 5,85 мега, но не потому меньше, что исходник лучше, а наоборот), с текстом, цветными картинками, схемами и печатными платами, последнее наиболее существенно, ибо там и цвет, и тонкие черные линии. Для pdf, как оказалось, идеалом является виртуальный принтер, использовал дефолтные установки, но нужно будет повозиться с настройками, это довольно тонкая штука, как я понял. Сегодня еще добавил - из 17,4 мега pdf получилось 2,93 djvu, из 13,3 - 3 мега. Результат меня впечатлил, качество, очень близкое к исходному, о размере файла судите сами. Полное отсутствие размытости на цветах и четкие черные линии, при конвертировании в растр, а потом в djvu такого не получается, можете про такую операцию с pdf забыть, речь о цветных изображениях. Выигрыш в размерах после pdf был всегда, независимо от цвета или его отсутствия. Никакое сжатие pdf не может дать такой выигрыш по размеру. ации.

Если учесть, что файлы были сделаны японцами, фонты при печати портятся, поэтому пришлось все печатать как изображение. Может кто подскажет как подгрузить в Акробат 5 отсутствующие фонты? В частности Helvetica и Helvetica Bold? Только поподробнее, я как-то пытался проделать такую штуку, результат был нулевой. Софт по фонтам любой есть, в том числе Адобовский.

WBR,
Astra
Автор: ZZmiy
Дата сообщения: 23.05.2004 22:39
Astra55

Не знаю откуда у тебя такие результаты, но я перевожу пдф 8.8М
через виртуальный принтер djvu и получаю 9М djvu!
Но это при условии, что я поставил настройки djvu такие,
чтобы получить фотографии в djvu такого же качества как в пдф.

Уменьшив разрешение в принтере я получил djvu меньше пдф, но потерял качество!
Автор: ghosty
Дата сообщения: 24.05.2004 00:15
Astra55

Цитата:
Только в Акробате (у меня 5.0.5СЕ, 6-я версия есть в вариантах, но в ней убрали возможность установки dpi при конвертации, поэтому снес) такой опции я не нашел, сохранил в ps, а потом конвертнул в самый последний протокол.

В этом смысле PDF Enhancer все же удобнее...

Цитата:
Вчера выяснил наконец для чего нужен виртуальный принтер и что он может. Понадобилось конвертнуть пару софтов из pdf в djvu, один на 33 мега(djvu 3,53 мега), другой на 29,5 мегов(djvu 5,85 мега, но не потому меньше, что исходник лучше, а наоборот),

А не пробовал сохранить эти же пдфы в виде тиффов, после чего произвести конв-ю при помощи ДокЕкспресса и сравнить результаты? Проблема Виртуального Принтера, как я ее вижу, состоит в том, что он разделяет слои очень странным образом - практически и не разделяет вовсе - поэтому он эффективен только для обработки "идеального" текста без картинок, фона и мусора. Но даже и в этом случае ДокЕкспресс его опережает, что и вовсе странно...
Автор: vito333
Дата сообщения: 24.05.2004 05:24
ghosty
судя по твоим требованиям - тебе подойдет только РТФ.
но не тот, что выдает Ворд на выходе (он слишком велик), а компактный вариант - типа того, что может давать на выходе Atlantis (в 4 раза меньше обычного вордовского).
Правда сам Atlantis, впрочем как и другие, как отметил cornborer с таблицами не особо )
Я не знаю, какая твоя цель, но мне кажется, что оптимальным для тебя было бы (если тексты русскоязычные) использовать ртф формат ворда и простой конвертер, который тебе и будет из ртф-вордовского делать ртф-компакт.
Меня например, формат атлантиса устраивает и все книги я стараюсь (и успешно) держать в таком формате + РАР. Лучше по сочетанию качеств ничего не знаю.
Глянь например мой редакторик _http://vito.rbcmail.ru/Mark.zip (~20 kb) - открой им простой ртф - без таблиц (я над этим не работал) и сохрани его - посмотри размер.
Такой ртф отлично понимается вордом и я думаю, таблицы при конверте не должны страдать, а пожатый раром файл будет иметь минимальные размеры.

Размер такого ртф приближается к размеру простого текста - суди сам.
Автор: cornborer
Дата сообщения: 24.05.2004 05:51
ghosty

Цитата:
Таки нет альтернативы кривеющему день ото дня *.doc?

Поскольку он стал стандартом "де факто", то очевидно, что нет...
vito333
Вариант
Тем не менее: 2003-й стал делать гораздо более компактные файлы. Файлы *.doc меньше по размеру, чем упомянутые выше *.etf (специально проверял файлы со сложными графикой и таблицами).
Автор: Meaningless
Дата сообщения: 24.05.2004 12:19
Astra55

Цитата:
еоретически. Но на практике могу продемонстрировать скриншот, на котором невооруженным глазом видно ухудшение всех знаков в тексте после ФР. Допускаю, что косяк сидит у них, снижают dpi при обработке tif,


у них никаких косяков не сидит :)
Сколько dpi получается после сохранения - выставляется в настройках. Если ты там выставил (или по умолчанию стоит) 200, то до 200 и снижается.
У меня стоит 300.

Ещё небольшое изменение возможно из-за опции по умолчанию "выпрямлять страницы автоматически", но опять таки - всё это настраивается.

Очевидные вещи, в общем-то.

Можешь ещё поразвлекаться сохраняя PDF'ки после других OCR программ - ReadIris, OmniPage - может они закладывают чуть меньше мусора. Хотя большого смысла не вижу, так, для эксперимента.

Повторюсь - смотри структуру полученного тобой файла PDF в Акробате - там подробно перечислено что в конкретном документе занимает сколько места. Отпадут многие вопросы.
Автор: Astra55
Дата сообщения: 24.05.2004 15:18
Сей секунд специально попробовал сохранить в tif и конвертнуть страницу А4 - отличие почти в два раза:
pdf > djvu - 15 423
pdf > tif > djvu - 28 660, размер исходного tif 34 857 258, 8 бит, 600dpi.

На формате А3 при 600 dpi и 24 битах размер исходного tif 104 423 108:
pdf > djvu - 116 526
pdf > tif > djvu - 138 503

Вроде не такая большая разница, но один очень существенный момент - при 600dpi сильно портятся конечные изображения в djvu, сразу лезет растр, искажаются мелкие детали, а при прямом конвертировании djvu выглядит точно так же, как и оригинал. Я сам был удивлен, поскольку до этого не считал виртуальный принтер чем-то заслуживающим особого внимания. На черно-белом такой разницы нет.
Когда сам крутил настройки сжатия во все стороны, ничего путного не получалось, вернул на дефолт, тогда все пошло. Вот я и говорю, что там достаточно критичные установки. Не собираюсь навязывать свое мнение кому бы то ни было, хотите - пользуйтесь, а нет, так нет. Желающим могу подослать по мылу файлы для сравнения.

WBR,
Astra
Автор: ghosty
Дата сообщения: 24.05.2004 16:59
vito333

Цитата:
судя по твоим требованиям - тебе подойдет только РТФ.

Похоже, ты прав. Я сам об этом думал уже.

Цитата:
использовать ртф формат ворда и простой конвертер, который тебе и будет из ртф-вордовского делать ртф-компакт.

Правильно! Надо найти надежный конвертер. Кто-нибудь слышал про такие?
Думаю, что в этом случае объем получаемого файла будет более предсказуемым.
Те же проблемы, которые я сейчас имею с форматом *.doc описаны, напр., здесь:
http://forum.ru-board.com/topic.cgi?forum=5&topic=5811&start=260

Astra55

Цитата:
Желающим могу подослать по мылу файлы для сравнения.

Пошли первый вариант в заархивированном виде. Даже интересно стало. А ты в documenttodjvu.conf настройки менять не пробовал?
Автор: max67
Дата сообщения: 01.06.2004 18:45
Товарищи энтузиасты,
может кто-нибудь подсказать как пользовать djvused для прикручивания outlines (это типа букмарков в pdf).
Пошушарил документацию и гугл, просветления не наступило.
Пробовал комманды output-ant и output-all на примере от дикообраза, но ничего доступного для редактирвания в блокноте не обнаружил.

Может djvuxml более дружественный? Есть ли его бинарники под native win32?

Добавлено
Выражусь точнее. Файлы dsed с анотациями не то чбо бы совсем редактировать невозможно, просто все буквы представленны цифровыми кодами вида П = \317 причем несовпадающими с UTF8. Может кто-нибудь уже изладил подходящий транслятор?
Dickobraz ?

Страницы: 12345678910111213

Предыдущая тема: Sockscap


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.