Ru-Board.club
← Вернуться в раздел «Программы»

» Сканирование и оцифровка текста *.txt, *doc, *.pdf, *.djvu

Автор: ghosty
Дата сообщения: 10.01.2005 17:31
dmitin

Цитата:
Появились серийники

Ура! А с рипнутым вариантом они не работают, что ли?

Цитата:
Затем пожал DocExpress 4.1 : конфигурационные файлы не менял, bundled,
600 dpi, "черно-белый".

А если поставить 300dpi результат какой? Можно изменить параметр pages-per-dict, как я писал. В случае, если страниц много, должно помочь.
На картинках нужно отфильтровать растр (фотографии не должны состоять из "точек").
Автор: dmitin
Дата сообщения: 10.01.2005 17:52
ghosty

Цитата:
А с рипнутым вариантом они не работают, что ли?

А куда их вставлять? Диалога для введения серийника нет. Его надо вводить при инсталляции.
Автор: amv
Дата сообщения: 10.01.2005 18:38
ghosty
Цитата:
Прога, кстати, и без папки с профайлами прекрасно функционирует.
Странно. У меня патченный вариант выдаёт точно то же, что и триальный:
Цитата:


dmitin
Цитата:
Без папки profiles при попытке перегнать в дежавю триальный не пропатченый английский DocExpress 5 выдает сообщение:
Цитата:
[1-24113] Illegal profile
[OK]
Автор: Astra55
Дата сообщения: 10.01.2005 18:47
2 kvk и estimated

Первая треть РастраИД уехала по двум обещанным адресам. Сообщите когда получите.
Автор: Arcand
Дата сообщения: 10.01.2005 18:59
О проблеме "инь".
Выдержка из documenttodjvu.conf:

Цитата:
[lossless] description: Preserves all the details of the original image. Each pixel in the resulting DjVu image is the same as the original image. This option is useful for historical documents, archives, and low-resolution text.
[aggressive] description: Makes extensive changes to the image, resulting in very fast encoding times and very small DjVu files. Use this option when speed and file size are more important than fine details.

Комментарии с моей стороны излишни... Извините, если это банальность, известная всем.

dmitin

Цитата:
А что это такое и с чем его едят? Можно линк?

Я лучше положу, все что у меня есть (полезный софт).
Filemon 6.07 & Regmon 6.06: webfile.ru/149390 в течение 7 дней до 18:50 17.01.2005.

И еще, по вашему вопросу. У Соло и Эдитора разные кодеки + настройки, так что ничего удивительного. Поиграйтесь с настройками и наверняка добъетесь нужного результата.
Удачи.


Цитата:
Странно. У меня патченный вариант выдаёт точно то же, что и триальный:

У меня тоже. А я только что скачал под этим соусом 55 мег .
Автор: Stranger1
Дата сообщения: 10.01.2005 20:32
Без всеобщей помощи всё-таки сложновато для начала.
Подскажите последовательность действий.

Задача: получить электронный вариант книги высокого качества,
в основном, для себя, ну и возможно для общественности
Книга с цветными фотографиями ~500 стр. Хотелось бы иметь поиск по книге.
Размер конечного файла порядка 60-80 МБ.

В чём всё-таки лучше сделать в Djvu или Pdf?
Если Djvu, то какая последовательность?
Cканирование (какое разрешение) - обработка в Kromsator - OCR - сборка в Djvu и т.д.?
Хотя бы в 2-х словах.
Спасибо.

Автор: EL
Дата сообщения: 10.01.2005 22:52
Stranger1

Цитата:
Скрипт работает, но всё сохраняется в 72 dpi, в любом формате.
Как-то удалось решить эту проблему?

PS У меня Win2k sp4, Epson Perfection 2400.


Пока нет. Эта проблема связана с конкретными драйверами конкретного сканера. Именно на них (точнее на их GUI-оболочках) лежит задача запоминания последних установок сканирования. И некоторые почему-то не запоминают. И тут мой скрипт пока, к сожалению, ничего поделать не может.

Выходом может быть написание собственной оболочки для TWAIN-драйверов (как в FineReader). Но на реализацию этой идеи у меня пока нет времени.
Автор: Stranger1
Дата сообщения: 10.01.2005 23:27
EL

Да, я пробовал запускать IrfanView - тоже самое.
i_view32.exe /scan - всё нормально (300 dpi)
i_view32.exe /scanhidden - 72 и всё тут

А можно ещё через какую-нибудь программу попробовать
с аналогичными ключами? Не в курсе?
Спасибо.
Автор: ghosty
Дата сообщения: 11.01.2005 01:25
Arcand

Цитата:
О проблеме "инь".
Выдержка из documenttodjvu.conf:

Об этом, вроде, все тут знают. Проблема состояла, видимо, в том, как избежать "инь" в случае применения режимов, отличных от "lossless".
Во всяком случае, именно так я интепретировал озабоченность тех, кто критиковал здесь формат *.djvu.
Автор: kvk
Дата сообщения: 11.01.2005 05:53
Stranger1
1 пдф djvu без разницы по вашему техзаданию (я в таком случае и то и то делаю) разница в размере будет.
сейчас занят вечером постараюсь написать, но вопрос много ли фотографий (10 - десятки - сотни) процедура от этого зависит.
Удачи
Автор: Arcand
Дата сообщения: 11.01.2005 07:54
ghosty

Цитата:
Об этом, вроде, все тут знают. Проблема состояла, видимо, в том, как избежать "инь" в случае применения режимов, отличных от "lossless".

Тогда, извините, не вижу проблемы. Если кто-то хочет (грубо) рыбку съесть и на ... сесть, то это его проблемы... Подчеркиваю, это ИМХО.
Автор: Stranger1
Дата сообщения: 11.01.2005 08:02
kvk

Цитата:
но вопрос много ли фотографий (10 - десятки - сотни)


Вообще то это "Руководство по цветокоррекции" Маргулиса.
Так что фотографии там почти на каждой странице.
Спасибо.
Автор: arslan77
Дата сообщения: 11.01.2005 09:58
Stranger1



Цитата:
"Руководство по цветокоррекции" Маргулиса


уже было http://fishchel.amillo.net/knigi.html

правда не знаю какое качество (цветные фотографии или ч\б), надо спросить в топике по электронным книжкам на русском языке.
Автор: Stranger1
Дата сообщения: 11.01.2005 10:08
arslan77


Цитата:
уже было http://fishchel.amillo.net/knigi.html

Это у меня есть. Качество хорошее.

А у меня 4-е издание (дочь подарила к новому году )
Вот и хочу в электронный вид перевести.
Автор: xalex
Дата сообщения: 11.01.2005 15:45
ghosty

"Проблема "н"/"и" " - неправильное название
для этого неустранимого дефекта djvu.

Посмотрите например djvu книги
Рисс-Надь Лекции по фун. анализу из Колхоза
- там на стр. 8 внизу "раз"написано как "раэ"
те через "э" вместо "з".

Кроме того djvu портит матформулы,
что согласитесь значительно серьезнее.
Автор: dmitin
Дата сообщения: 11.01.2005 16:00
xalex

Цитата:
Кроме того djvu портит матформулы,
что согласитесь значитедьно серьезнее

Можно пример?
Автор: xalex
Дата сообщения: 11.01.2005 16:18
dmitin

А самому поискать ?
(если этот вопрос вас действительно интересует)

Если уж она ошибается на крупных символах,
то тем более она будет ошибаться на мелких,
коих (в качестве элементов) в матформулах
предостаточно.

Я приводил 2-а примера в ветке про
научные книжки, один из Пенроуза-Риндлера
другой из Боголюбова-Логунова-Тодорова.
Автор: romanef
Дата сообщения: 11.01.2005 16:21

Цитата:
то тем более она будет ошибаться на мелких,
коих (в качестве элементов) в матформулах
предостаточно.


Цитата:
то тем более она будет ошибаться на мелких,
коих (в качестве элементов) в матформулах
предостаточно.


1. сканируйте и жмите в 600 дпи
2. последний эдитор 5 версии вроде пока не замечен в ошибках
Автор: dmitin
Дата сообщения: 12.01.2005 02:44
xalex

Цитата:
Я приводил 2-а примера в ветке про
научные книжки, один из Пенроуза-Риндлера
другой из Боголюбова-Логунова-Тодорова.


Спасибо за ссылки. К сожалению, я не нашел Вашего примера с Пенроузом-Риндлером. Но нашел с Боголюбовым-Логуновым-Тодоровым здесь:

Цитата:
Вот кстати еще один артефакт djvu lossy :

Боголюбов Логунов Тодоров Основы аксиоматического
подхода в квантовой теории поля Наука, 1969,
страница 23 - в предложении перед самой формулой (1.1.11)
"эпсилон" заменился после djvu lossy на "в".


На DVD с Колхозом есть три файла с этой книгой: два на диске 2, один на диске 6. Все в 300 dpi. И всюду, как Вы и говорили, четко пропечатана "в" вместо "эпсилон". Не сочтите за назойливость, но в исходнике точно не типографская опечатка?

Я поэтому и спрашивал здесь, что неплохо бы посмотреть вместе с исходным тиффом, что можно сделать.
Дело в том, что проблема, с легкой руки Astra55 названная проблемой "инь", в тексте совершенно не критична - текст содержит достаточно избыточной информации для восстановления. В матформулах аналогичный эффект был бы более критичен (хотя и не обязательно) - поэтому меня и заинтересовало Ваше утверждение, что

Цитата:
djvu портит матформулы.



Цитата:
А самому поискать ?
(если этот вопрос вас действительно интересует)

Мне известны случаи, когда в дежавю матформулы нечитаемы, но тогда и весь текст был аналогичного качества (Когда оцифровывались книги, не заметить этого было нельзя). А вот с "инь" на первый взгляд всё может выглядеть нормально, и проблемы становятся заметны при более внимательном рассмотрении. Аналогичные ситуации с матформулами мне неизвестны.
Автор: kvk
Дата сообщения: 12.01.2005 03:08
rasterID помаленьку выкладывается в папку soft по логину scib:sci
Спасибо!
Удачи
Автор: ghosty
Дата сообщения: 12.01.2005 04:52

Цитата:
проблема, с легкой руки Astra55 названная проблемой "инь", в тексте совершенно не критична - текст содержит достаточно избыточной информации для восстановления.

Наконец-то. Я уж думал, тут одни перфекционисты собрались
Ясно одно: необходимо всегда внимательно просматривать полученный файл на предмет "инь", и если смысл текста, действительно, искажается, сделать все, чтобы эту проблему исправить (вплоть до повторного сканирования).
Автор: Arcand
Дата сообщения: 12.01.2005 05:27

Цитата:
помаленьку выкладывается в папку soft по логину scib:sci

Самое время спросить – где это и как туда зайти. Извините не знаю, догадываюсь, что там море полезного софта, аж слюнки текут .
Автор: TbIrbIDbIM
Дата сообщения: 12.01.2005 13:17
Народ, чем распознать djvu?
Автор: dmitin
Дата сообщения: 12.01.2005 14:23
TbIrbIDbIM
Если тиффы сканить и распознавать из ФайнРидера, то потом можно пользоваться примочкой от gencho (есть в kolxo3/_djvu/DjVu%20software/Windows/).
Знатоки утверждают, что результат на русском много лучше, чем Iris-OCR, встроенный в DocExpress.
Если у Вас уже дежавю (в смысле не у Вас, а Ваш файл ), то можно перегнать Ирфаном в тиффы и распознавать тем же FR.
Автор: off7
Дата сообщения: 12.01.2005 14:34
Я делал так: в djvu solo 3.1 сохранял каждую страницу в формате bmp.
Затем с помощью finereader 7.0 открывал эти изображения и сохранял в пакете.
После - распознавал.
Получалось довольно прилично.
Автор: pjuv
Дата сообщения: 12.01.2005 17:01
Чтобы не париться с сохранением каждой страницы в djvu solo, можно воспользоваться утилитой от Gencho:
djvu2graf.exe - front-end программа для djvudecode, Win32 версия.
Использует DJVUDECODE.EXE
Упрощает распаковку книг. В командной строке задается файл djvu, диапазон извлекаемых страниц, выходной формат (pnm,pgm,pbm,bmp,tif,jpeg,ps,pict).
Пока работает, может выпить кофе.
Автор: Astra55
Дата сообщения: 12.01.2005 18:36
Последняя часть архива с РастромИД уехала по прежним адресам. Дальше дело за народом с приличным хостингом.
Автор: kvk
Дата сообщения: 12.01.2005 20:12
dmitin
dmitin
off7
Вообще то 2 (бета) версия утилитки от Gencho и тифы выгоняет оптом и ocr добавляет и gui имеет, так что и думать не нужно только кнопочки нажимать.
Astra55
Получено, выложено! Огромное спасибо!
Приличность моего канала вопрос отдельный , но кому нужно утянут.
Удачи
Автор: Astra55
Дата сообщения: 12.01.2005 22:06
2 kvk

Я поотстал от жизни, где можно взять 2-ю версию утилит Генчо? И в привате подскажите где теперь лежит РастерИД, чтобы можно было подсказать если попросят.
Автор: dmitin
Дата сообщения: 12.01.2005 22:09
Astra55, kvk
Спасибо за РастерИД.


Цитата:
dmitin
dmitin
off7
Вообще то...

О, у меня раздвоение личности...

Добавлено
Astra55

Цитата:
Я поотстал от жизни, где можно взять 2-ю версию утилит Генчо?

kolxo3/_djvu/DjVu%20software/Windows/DjvuOCR_From_FineReader7_gehcno_2.0pre.rar и другие там же.

Цитата:
где теперь лежит РастерИД

kvk/soft/RasterID/RasterID.part??.rar

Страницы: 12345678910111213

Предыдущая тема: Sockscap


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.