Ru-Board.club
← Вернуться в раздел «Программы»

» Сканирование и оцифровка текста *.txt, *doc, *.pdf, *.djvu

Автор: ZZmiy
Дата сообщения: 16.12.2004 17:27
ghosty

Цитата:
Ты бы лучше по делу что-нибудь спрашивал, чем флейм разводить

Это не флейм! Это рассуждения "за-против" с точки зрения пользователей, а не с точки зрения OCRщиков...
А вопрос был задан 00:08 22-11-2004. Ответил только один человек, но оптимального решения проблемы не найдено...
Причем про эти искажения не пишут на сайтах с рекомендациями по изготовлению djvu. А следовало бы предостерегать пользователей об этих недостатках, чтобы он думал как ему поступать - делать в джву или все-таки распознавать...

romanef

Цитата:
Эту книгу делал не я. Ясно же написано: "djvued by Орхибед <canmosэтмейлру>"

Пардон, я не заметил.

Цитата:
нет сейчас замены djvu В ЕГО ОБЛАСТИ ПРИМЕНЕНИЯ

Если бы его использовали в "его области применения".
Тут больше от лени - сил хватило сосканить в джву, а распознавайте сами кому надо.

Цитата:
если уж так не нравится дежавю, так возьмите файл и распознайте и выложите в сеть.

Скажи эту фразу слабовидящим... Например, из Дискуссионного листа "Электронная книга" - http://subscribe.ru/archive/lit.book.library.ebookaccess/
А тот, кому надо книга и они не имеют возможности распознавать, - так зато они умеют громко ругаться и хаить того, кто предлагает ему "не качать", а также

Цитата:
dmitin: могут обзаводиться выделенкой или ходить в читальный зал библиотеки

Я такую позицию не занимаю и Вам не рекомендую. Вам понравится (на какой-нибудь Ваш вопрос) ответ в виде - "А если тебе не нравится, то..." ??? Это больше похоже на посылание на...
Вы делаете книги для всех или для людей с выделенками и т.д.?..


Цитата:
Все форматы, требующие распознавания - "коварнее", чем DJVU

Согласен - ошибок распознавания и вычитки будет больше (если не прилагать усилий), но ИХ ЖЕ МОЖНО ИСПРАВИТЬ В САМОМ ФАЙЛЕ! Чего не скажешь о джву.


Добавлено
estimated

Цитата:
Т.е. добавить функцию преобразования (форматированого) текста в картинку?

Нет-нет. Именно без распознавания.
Автор: ghosty
Дата сообщения: 16.12.2004 17:55
ZZmiy

Цитата:
Это рассуждения "за-против" с точки зрения пользователей, а не с точки зрения OCRщиков...

Я пока только "против" видел. За какой ты формат? И в какой области?
Каким форматом ты пользуешься при сканировании? В каком формате удобнее читать?

Никто не говорит, что *.djvu стремительно вытесняет остальные форматы и убивает бумажную книгу как пережиток прошлого. Он просто один из многих.
Создавался специально для хранения электронных копий документов. Библиотеки его понемногу уже начинают осваивать.

То, что буковки перепутаны могут быть - не страшно совершенно. Человек не "файнридер" все-таки. И большинство незначительных изъянов вокруг себя он просто не замечает. Вот ты заметил, что буковки не те. А на самом деле там знаешь, еще глюков сколько! А сколько редактора с корректорами ошибок пропустили, а сколько им пришлось исправить всякой фигни! Куда катится этот мир!

В формулах вряд ли глюки бывают - они крупным шрифтом даются, как правило.
Автор: Astra55
Дата сообщения: 16.12.2004 18:25
2 fandm

[quote]
В случае, если скачанный с cqham.ru прог DjVuEditor_Pro 4.1 выдаёт ошибку типа "Не найден файл ресурсов" на англицком языке и отказывается запускаться, то достаточно найти файл DjVuEditorRes_0419.dll рядом с DjVuPro.exe и переименовать его в DjVuEditorRes_0409.dll
Вот и вся математика...[quote]

Мой косяк, честно признаюсь, исправлю в ближайшее время. Надо было оставить только русскую длл-ку, так нет же, захотелось универсальности .

2 romanef

[quote]
забыл добавить - если уж так не нравится дежавю, так возьмите файл
и распознайте и выложите в сеть. можно считать дежавю форматом распространения по сети сканированных изображений, читать с экрана файлы необязательно ))))[quote]

Полностью солидарен! Мало того, уже который год твержу об этом же. Но народ упорно не хочет этого видеть - подай им за копейку канарейку и чтоб пела басом.

2 ZZmiy

[quote]
Это не флейм! Это рассуждения "за-против" с точки зрения пользователей, а не с точки зрения OCRщиков... [quote]

Но близко к флейму. Поскольку противопоставление djvu vs.OCR неконструктивно.

[quote]
Но оптимального решения проблемы не найдено...
Причем про эти искажения не пишут на сайтах с рекомендациями по изготовлению djvu. А следовало бы предостерегать пользователей об этих недостатках, чтобы он думал как ему поступать - делать в джву или все-таки распознавать...
[quote]

Good God, как меня утомило пережевывание одного и того же по многу раз.
В последний раз повторяю - сканировать ФайнРидером с включенными соответствующими опциями, конвертить в tif G4 Ирфаном, им же можно обработать на предмет грязи и обрезки. Потом конвертить любым кодером. Я не осваивал BookRestorer, это Роман лучше знает, какие получаются tif-ы на выходе, хорошие или плохие. Но одно знаю твердо - многие версии ACDSee делают кривые tif-ы, кодеры их не жрут. В чем там дело, мне разбираться неохота, я ACDSee как конвертером не пользуюсь. Кто освоил работу с виртуальным принтером djvu? В нем есть достаточное количество опций, в отличие от других кодеров.

[quote]
Скажи эту фразу слабовидящим... Например, из Дискуссионного листа "Электронная книга" -
http://subscribe.ru/archive/lit.book.library.ebookaccess/
[quote]

Опять за рыбу деньги... Ну как слепые могут читать книги с математикой, схемами и чертежами? И почему нужно ориентироваться только на них? Почему опять же не сделать OCR в djvu, как это предложил автор этого софта Генчо? Что за привычка повторять одни и те же вопросы, хотя ответы на них давно есть.

[quote]
Согласен - ошибок распознавания и вычитки будет больше (если не прилагать усилий), но ИХ ЖЕ МОЖНО ИСПРАВИТЬ В САМОМ ФАЙЛЕ! Чего не скажешь о джву.
[quote]

О каких ошибках в djvu идет речь? Если о злополучных "и" и "н" то меееедленно и вняяяяятно повторяяяяююююю - при правильной методике их нееееет. Затрахали, честное слово! Вместо того, чтобы попробовать их устранить подручными средствами, начинается демагогия. Это напоминает жизненную ситуацию, которая меня раньше сильно раздражала, а теперь отношусь к ней с юмором. У вас просят совета как сделать то-то и то-то. Вы детально рассказываете. Человек уходит довольный, но потом заявляет, что ваши советы не работают. Вы спрашиваете - а ты делал как я сказал? Он - нет, я делал по своему. No comment.

За последнее время я прочитал кучу беллетристики в OCR, тихий ужас! Ошибок уйма, некоторые можно исправить только сильно напрягая мозги, ибо понять о чем идет речь просто невозможно, а оригинала нет. Уже приводился пример, где Петр стал Негром . Вот из книги Бушкова "Бульдожья схватка", файл в rtf:
"- Слухи дурацкие ползают, будто у тебя мозги перевернулись... Я, конечно, не верю: чтобы у тебя? Такие мозги?
- И правильно делаешь, что не веришь, - усмехнулся Негр." Каково, а?

Поэтому не нужно возводить OCR в абсолют, там, где критично,оптимумом будет djvu со встроенным OCR без вычитки. Ошибок будет больше, но не намного, всегда можно поглядеть оригинал. Да и кто прогоняет свои OCR-ы через AfterScan или Orfo? По моему никто, иначе не было бы такого количества , косяков, причем явных. Делается на скорую ручку, комком да в кучку.
Автор: xalex
Дата сообщения: 16.12.2004 18:34
ghosty


Цитата:
Создавался специально для хранения электронных копий документов.


Ну это не правда, он создавался для картинок, а не текста.

Создатели формата в одной статье так прямо и пишут - "мы принципиально
не хотели оптимизировать djvu для текста".
Автор: bredonosec
Дата сообщения: 16.12.2004 18:53
ghosty

Цитата:
Создавался специально для хранения электронных копий документов. Библиотеки его понемногу уже начинают осваивать.
- Из этого формата можно выдернуть инфу в свободно редактируемый формат? Не фоты, а форматированный текст, формулы, таблицы, проч.
xalex

Цитата:
"мы принципиально не хотели оптимизировать djvu для текста".
- То есть, нет? Я правильно понял? Это формат для более сжатого хранения чего-то вроде фотоальбомов?
Автор: max67
Дата сообщения: 16.12.2004 19:11
estimated

Цитата:
сделайте из них djvu, чтобы размер был не более 60 kb и чтобы "и" и "н" не менялись местами

Да уж. Задача оказалась нетривиальной. Мне, в DjvuEditor Pro 4.1, так и не удалось сделать файлы без ошибок и/н ни при каких настройках кроме losless.
Кроме того, акробатовский JBIG2 тоже спотыкается на этом материале. Хотя и реже.
На мой взгляд, ваши результаты с использованием DjVuer Pro 1.7 можно считать образцовыми. На многостраничных документах получим еще 15-30% выигрыша в кб/стр, итого 10 кб/стр.
Автор: estimated
Дата сообщения: 16.12.2004 23:28
max67
Да, я вот сейчас посмотрел внимательнее на свой pdf - действительно, есть ошибки, которые я сразу не заметил Например 1-я страница, 11-я строка сверху: вместо "по значению" получается явно "по зиачению".


Цитата:
На мой взгляд ... результаты с использованием DjVuer Pro 1.7 можно считать образцовыми.

А DjVuer Pro 1.7, насколько я помню, основан на AT&T command-line утилитах v2 (2.0.2?). Надо будет еще раз попробовать поработать с этим софтом. Даст в 3-4 раза выигрыш по сравнению с TIFF G4 - и хорошо. Зато будет больше уверенности насчет отсутствия искажений. Если даст конечно... А если нет, то проще в G4 хранить.

Выигрыш в размере на многостраничных документах, насколько я понимаю, получается за счет единого словаря ("каталога графических образов" по моей терминологии ) на несколько страниц. Но DjVuer Pro 1.7 кажется не умеет создавать один словарь на несколько страниц? А DjVu Solo, хоть и может из отдельных djvu-файлов создать bundled, но она не объединяет при этом словари этих файлов (а чтобы сократить размер итогового файла, надо объединить словари и удалить из них при этом повторяющуюся информацию.)

Это подтверждается примерами от ZZmiy. Если в архиве (по ссылке выше) открыть файл A\v-a.djvu и посмотреть его свойства (Document Information -> All Files), то окажется, что отдельного файла словаря (.djbz) внутри нет.

ZZmiy
Просто картинки можно ведь было всегда вставлять в PDF. Наверное, я все-таки не понял, что ты имел ввиду...
Автор: ZZmiy
Дата сообщения: 17.12.2004 01:20
Astra55

Цитата:
Good God, как меня утомило пережевывание одного и того же по многу раз.
В последний раз повторяю - сканировать ФайнРидером с включенными соответствующими опциями, конвертить в tif G4 Ирфаном, им же можно обработать на предмет грязи и обрезки.


Цитата:
Если о злополучных "и" и "н" то меееедленно и вняяяяятно повторяяяяююююю - при правильной методике их нееееет. Затрахали, честное слово!

Ох-хо-хоюшки... Ему про Фому, а он все равно про Ерему...
Плохо, когда человек кроме своих постов ничего не видит...
Плохо, когда человек зацикливается на "своих методиках"...
Плохо, когда человек думает только о себе...

PS. Устал я "таким" что-то доказывать...
Пойду лучше что-нибудь отсканю, распознаю в ФР, проверю в ФР, проверю своим плугином в ФАРе, проверю в Афтерскане, оформлю в РТФ и ТХТ и отправлю Вадиму и Славе для простых людей...
Автор: vito333
Дата сообщения: 17.12.2004 06:39
эта, не ругацца!
оба уважаемые ники, не новички какие-нибудь - Astra55 давно и успешно трудится в этом топике, а Zzmiy - лучший в топиках по поиску книг.
так что, граждане, консенсус нужен.
хотите я вам объективные выводы сформулирую непредвзято?
задайте конкретные вопросы

Добавлено
а косяков в OCR-книжках - просто ниибацца
Автор: Astra55
Дата сообщения: 17.12.2004 10:29
max67
[quote]
estimated
сделайте из них djvu, чтобы размер был не более 60 kb и чтобы "и" и "н" не менялись местами
[quote]
estimated
[quote]
Да уж. Задача оказалась нетривиальной. Мне, в DjvuEditor Pro 4.1, так и не удалось сделать файлы без ошибок и/н ни при каких настройках кроме losless.
Кроме того, акробатовский JBIG2 тоже спотыкается на этом материале. Хотя и реже. На мой взгляд, ваши результаты с использованием DjVuer Pro 1.7 можно считать образцовыми. На многостраничных документах получим еще 15-30%
выигрыша в кб/стр, итого 10 кб/стр.
[quote]


У меня с первого раза тоже ничего не получилось. Но в отличие от ничего не предлагающих критиков, я хоть пытаюсь разобраться в причинах этого явления, которое можно назвать "инь", как у китайцев . Сами сканы не лучшего качества, можно даже сказать, кривые. Строки идут волнами, на изображении много мусора. Что до параметров, то почаще щелкайте правой мышкой на файле, когда смотрите его в плагине к IE, просто там удобнее, чем в других софтах, пункт "Page Information...". Я не могу с ходу предложить теорию насчет "инь", но дело тут не только в алгоритмах сжатия кодеров. У меня на винте много книг и журналов, где шрифты самые разные, и большие, и маленькие, все было сканировано на 300 dpi. Ошибок "инь" практически нет, нашел всего на одной странице, где мелкий шрифт.
А предложенные tif файлы я все же конвертнул в djvu, результат 241,5 кил, правда я порезал развороты и убрал пустую страницу. Всего получилось 17 страниц, размеры от 18,5 до 7,5 кил. Сомнительные знаки есть только на последней странице, но там и качество поганое, слишком мелкий шрифт, такие нужно на 600 dpi сканить. Есть предчувствие, что меня за этот метод раскритикуют, но ведь сделал . Куда выложить файл для ознакомления с результатом ?
Автор: 10000000
Дата сообщения: 17.12.2004 19:22
Будьте добры, подскажите следущее:
Мне много приходится сканировать текста с математическими формулами и различными таблицами. В результате я получаю на "выходе" распознания в FineReader 7.0:
99-100% текста и 5-10% значки математических формул, а остальное вместо вместо формул одни нечитаемые зяблики.
В результате после сканирования мне приходится долгими часами восстанавливать математические формулы в ручную с помощью MathType 5.2a.
Есть ли какой выход из положения или всё безнадежно.....
Автор: Astra55
Дата сообщения: 17.12.2004 21:56
[quote]
Плохо, когда человек кроме своих постов ничего не видит...
Плохо, когда человек зацикливается на "своих методиках"...
Плохо, когда человек думает только о себе...
[quote]

Так ведь это же можно сказать и еще кое о ком . OCR - ruleZZ, djvu - suXX, это мы давно проходили. Поэтому не стоить противопоставлять одно другому. Кстати, я этого никогда не делал. Но чистых OCR-щиков наверное заедает, когда книгу дежавюируют, а не OCRят, им обидно за вроде бы чужую "халтуру". Ну почему им невдомек, что не все книги поддаются OCR-енью? Вот вопрос всех времен и народов... Ладно, сойдемся на том, что я буду при случае делать и OCR, и djvu, по обстоятельствам. Остальным - вольная воля. Можете OCR-ить хоть картину Репина "Бурлаки на Волге"

Добавлено
2 10000000

Я не пробовал обучается ли FR распознавать символы по эталону, но думаю что нет. Поэтому либо изврат в виде напряжного труда, либо ненавистное djvu. Под напряжным трудом подразумевается ручная разбивка страниц на блоки, все формулы отметить как картинки. Перед такой задачей преклоняюсь, но не завидую.
Автор: dmitin
Дата сообщения: 17.12.2004 23:07
10000000
Можете почитать, что написано по этому поводу в этих топиках:

Infty Editor + Infty Reader

Программы для распознавания математических формул (правда, в этом топике так ничего и не придумали)

FineReader распознает сочетания типа символ + верхний / нижний индекс (для этого надо подключить язык распознавания "Простые химические формулы"). Для распознавания греческих символов при ОЧЕНЬ большом желании можно подключить "греческий", хотя не советую.

Научить текущую версию FineReader распознавать сколько-нибудь более сложные математические формулы нельзя, т.к. во-первых в него просто не заложены алгоритмы для этого (текст идет не в одну строчку), во-вторых в нем нет даже языка распознавания наподобие "простые математические формулы" (с символами корня, интеграла, суммы, произведения, ...)

В сколько-нибудь обозримом будущем FineReader распознавать математические формулы не будет. Возиться с решением этой задачи его разработчикам из ABBYY невыгодно - так они сами говорят.

Так что на СЕГОДНЯШНИЙ день альтернативы такие:
1) распознавать текст, а формулы перенабирать вручную в MathType;
2) распознавать текст, а формулы перенабирать вручную в LaTeX - имхо, этот вариант лучше предыдущего;
3) если не нужно редактировать текст, то оставлять как графику в формате DjVu;
4) способ для экстремалов: разбираться с японской программой Infty Reader (насколько я знаю, на сегодняшний день это единственная программа в мире, умеющая распознавать текст с математикой), но учитывать, что поддержки кириллицы нет, программа пока что очень глючная, хотя и очень часто обновляется - подробнее в упомянутом топике.

Добавлено
Astra55

Цитата:
OCR-ить хоть картину Репина "Бурлаки на Волге"

Автор: kain24
Дата сообщения: 17.12.2004 23:09
10000000
Вставляй какртинками, так все равно быстрее будет =)
Автор: bdfy
Дата сообщения: 17.12.2004 23:39
Полцарства за шрифт SchoolDL все перерыл , нигде найти не могу
У меня отчеты которые нужно завтра сдавать в пдфах , весь текст этим долбаным шрифтом набран и в пдф не включен Может его можно из другого пдфа достать
где он embeded? - у меня есть такие .
Автор: estimated
Дата сообщения: 18.12.2004 01:29
Astra55
явление замены "и" на "н"

Цитата:
можно назвать "инь", как у китайцев

а что, мне нравится


Цитата:
результат 241,5 кил

ты не ошибся случайно? это слишком много для этих 6 файлов.

Исходный размер (формат TIFF G4) суммарно составляет 325.588 байт.

DJVU через DjVuer Pro 1.7 (в виде 6 файлов, искажения пока не замечены) получается суммарно 98.032 байт.
(Если их соединить в один с пом. DjVuBundle или DjVU Solo, то получается 98.116 байт)
Автор: ghosty
Дата сообщения: 18.12.2004 02:48
В шапке освободил место под маленький FAQ
Автор: romanef
Дата сообщения: 18.12.2004 08:30

Цитата:
не осваивал BookRestorer, это Роман лучше знает, какие получаются tif-ы на выходе, хорошие или плохие. Но одно знаю твердо - многие версии ACDSee делают кривые tif-ы


1. Букресторер пока на "долечивании".
2. Тиффы G4 он делает хорошо. djvu-кодеры на них не спотыкаются.
Автор: 10000000
Дата сообщения: 18.12.2004 15:45
kain24

Я с тобой полностью согласен, что картинками быстрее сохранять и распознавать.
Но как в этих картинках математических формул потом редактировать (исправлять) допущенные ошибки?
Для чего мне всё это нужно? У меня есть "целая куча" готовых контрольных работ по высшей математике и другим точным дисциплинам с математическими формулами, но на каждом печатном листе каждой контрольной работы есть какие-то пометки преподавателя, который проверял их: исправления, замечания, галочки и другой "мусор".
Естественно, сохраняя текст как картинку, я в дальнейшем не смогу убрать этот "мусор".
А все это набирать в ручную очень долго: на 1лист у меня в среднем уходит более одного часа. А контрольные по 10-15 листов.....
А сдавать контрольных нужно целый вагон и маленькую тележку.....

Если есть хоть какая-то возможность мне помочь, то помогите бедному студенту.
Ведь так времени не хватает..... Так спать хочется и нет никакой личной жизни.....
Заранее благодарен.

Автор: bdfy
Дата сообщения: 18.12.2004 16:29
Так-с шрифт то я нашел ,теперь читать могу , но мне надо редактировать ,а достать текст я из него не могу
сам файл
http://redhammer.h14.ru/216.pdf
шрифты
http://redhammer.h14.ru/font.rar
Есть полный акробат 5ый . Через копи-пейст в ворд или через конвертацию в rtf ничего путного не получаеться . В png , а потом в файнридер 7 тоже не выход - ошибок много
Если кто достанет текст , киньте на мыло , он мне к среде очень нужен.
bdfy1985[at]yandex.ru

Автор: Astra55
Дата сообщения: 18.12.2004 17:31
2 bdfy

Запросы у Вас, юноша . Фонта SchoolDL я не нашел, поэтому задачу решайте самостоятельно. Все это делается в два щелчка мышкой. Есть масса софта для извлечения текста из pdf. Но с такими дебильными фонтами даже не знаю, может и не сработать. Так что Вы уж как-нибудь сами, врукопашную .

Добавлено
2 estimated
[quote]
ты не ошибся случайно? это слишком много для этих 6 файлов.
Исходный размер (формат TIFF G4) суммарно составляет 325.588 байт.
DJVU через DjVuer Pro 1.7 (в виде 6 файлов, искажения пока не замечены) получается суммарно 98.032 байт.
(Если их соединить в один с пом. DjVuBundle или DjVU Solo, то получается 98.116 байт)
[quote]

Я не ошибся. Задача стояла получить нормальные djvu без "инь", меньших размеров, чем приведенные кривые. Это было сделано, других задач я не ставил перед собой. Была бы оригинальная книга, был бы другой разговор и другие размеры. К тому же, я ясно сказал, что развороты были поделены со всеми вытекающими последствиями. Итого 17 файлов.

Добавлено
2 bdfy

Ладно уж, мне стало интересно можно ли без этого фонта получить текст. Можно. Акробаты тут не при чем. ГленнАлкотт и ФайнПринт сделали это без вопросов. Файл ушел на мыло, проверять я его не стал, чтобы жизнь медом не казалась.
Автор: bdfy
Дата сообщения: 18.12.2004 20:00
Astra55
респект к слову фонт то этот я запостил в архиве на прошлой странице
Автор: dmitin
Дата сообщения: 18.12.2004 21:08
10000000

Цитата:
на каждом печатном листе каждой контрольной работы есть какие-то пометки преподавателя, который проверял их: исправления, замечания, галочки и другой "мусор".

Можно ПЕРЕД тем, как в FineReader распознавать текст и вставлять формулы как картинки, почистить сканы в ScanKromsator (бэту 5.03 с .dll'ками можно взять на http://bolega.hotmail.ru/, а бэта 5.05 лежит в Колхозе в папке bolega.)


Цитата:
Но как в этих картинках математических формул потом редактировать (исправлять) допущенные ошибки?

Если после всего этого какие-то формулы всё равно нужно будет отредактировать, то именно их прийдется перенабрать. Тогда будет текст распознан, часть формул в редактируемом формате, часть формул в графическом формате.
Выглядит, имхо, несколько убого, конечно. Но что делать... Альтернатива - только перенабрать все формулы (тут TeX рулит ).

Можно, конечно, еще русский текст распознавать в Fine Reader, а математические формулы в Infty Reader, а потом с помощью Copy/Paste комбинировать, но, наверно, получится не быстрее, чем перенабрать. Вот такой вот изврат.
Автор: Astra55
Дата сообщения: 18.12.2004 21:15
2 bdfy

http://redhammer.h14.ru/font.rar
Sun Dec 19 00:14:58 2004 HTTP/1.0 404 Not Found

Добавлено
Лучше его мне на мыло кинуть, я в Инете нашел, что народ его юзает. Мало ли где пригодится.
Автор: bdfy
Дата сообщения: 18.12.2004 22:19
Astra55
сорри... ссылку дал , а собственно на фтп залить забыл попробуй еще раз.
Автор: ZZmiy
Дата сообщения: 19.12.2004 01:22
Я не против формата djvu - я его давно использую для архивного хранения сканов, а также для пересылки отсканированных книг другим OCRщикам для последующего распознавания. Но я-то изначально использую для этого DjVuer Pro 1.7, который не дает ошибок "инь" (по-крайней мере с параметрами по умолчанию)!
А все вокруг используют или Solo, или DocumentExpress DjVu Editor благодаря "методикам", расписанным на разных сайтах. А потом почему-то в интернете появляются djvu с "инь"... Причем не только физмат и иже с ним, но и художка...

Astra55

Цитата:
У меня с первого раза тоже ничего не получилось. Но в отличие от ничего не предлагающих критиков

Угу, это если не учитывать, что djvutest.rar сформировал я, вариант с DjVuer Pro 1.7 предложил я и лежит архив на моей страничке...

Цитата:
Сами сканы не лучшего качества, можно даже сказать, кривые. Строки идут волнами, на изображении много мусора.

Может и кривые - так сосканились, но ФР на них делает меньше ошибок, чем djvu с "инь"...

Цитата:
А предложенные tif файлы я все же конвертнул в djvu, результат 241,5 кил,


Цитата:
Я не ошибся. Задача стояла получить нормальные djvu без "инь", меньших размеров, чем приведенные кривые.

Файлы djvu (которые без ошибок "инь"), сделанные DjVuer Pro 1.7 -
98,116 (v-a.djvu) + 139,943 (v-b.djvu) = 238,009 (v-a.djvu + v-b.djvu - bundled)
- что меньше чем "241,5 кил"...

Как получить вариант, соизмеримый по размеру с -
61,711 (e-a1.djvu) + 102,470 (e-b1.djvu) = 164,138 (e-a1.djvu + e-b1.djvu - bundled)
- и без ошибок "инь" ?

К примеру - весь словарь (фрагмент которого в каталоге A) при конвертировании в djvu через DjVuer Pro 1.7 получается 42,694,061 и без ошибок, а хотелось бы меньше - например в районе -
(42,694,061 * 164,138) / 238,009 = ~29,443,078, что на 13М меньше и что актуально при пересылке в инете...

И дело в тестах не в -

Цитата:
порезал развороты и убрал пустую страницу

- иначе порезанные лежали бы в djvutest.rar и в тестах рассматривались бы другие размеры...
Автор: xalex
Дата сообщения: 19.12.2004 03:22
ZZmiy

Цитата:
Но я-то изначально использую для этого DjVuer Pro 1.7, который не дает ошибок "инь" (по-крайней мере с параметрами по умолчанию)!
А все вокруг используют или Solo, или DocumentExpress DjVu Editor

А что DjVuer Pro теперь умеет делать многостраничные файлы ?
И где взять взломанную версию ?
Автор: Astra55
Дата сообщения: 19.12.2004 17:11
2 ZZmiy

У меня нет желания делать картошку "фри" из картофельного пюре. Я не собираюсь ничего доказывать на чужих, кривоватых сканах. Шла бы речь о книге, которая у меня есть - другое дело. DjVuer PRO никогда не поддерживал многостраничные файлы, поэтому разговора о нем нет. Книга на 400 страниц А4 у меня заняла меньше 8 мегов, там текст и масса рисунков, русский и латынь. Поглядел бы я сколько времени заняло OCR-енье такого фолианта. Это 800 страниц в обычном стандарте А5. Не нравится djvu - да ради Бога, я же не призываю никого заменить им OCR. Но и сказок тоже не стоит рассказывать о том, какой это плохой формат.
Автор: dmitin
Дата сообщения: 19.12.2004 17:19
xalex
Насчет проблемы "инь" (по терминологии Astra55) понятно.
А как насчет того, о чем Вы писали в аналогичном топике в Варезнике:

Цитата:
формат, который ... рекламируется именно как формат для сжатия физ-маткниг, но на поверку как оказывается беспощадно портит матформулы

Всё-таки

Цитата:
Нельзя ли пример? Именно по поводу матформул. Хотелось бы посмотреть исходный тифф (или линк, или одну страницу где-то выложить или на мыло).


ZZmiy, xalex, and ALL
А где сейчас обитает DjVuer Pro? А то я на http://www.feith.com не нахожу.
Автор: Astra55
Дата сообщения: 19.12.2004 18:23
2 dmitin

Они спрятали свой софт Но можно вот так - http://www.feith.com/DjVuer/djvuerproin.exe

У меня есть версия 2beta1, кейген от CORE подходит без проблем.

Страницы: 12345678910111213

Предыдущая тема: Sockscap


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.