Ru-Board.club
← Вернуться в раздел «Программы»

» Сканирование и оцифровка текста *.txt, *doc, *.pdf, *.djvu

Автор: estimated
Дата сообщения: 12.01.2005 22:37
Astra55: спасибо, все получил. Раздавать в широких масштабах нет возможности, но 3-5 человекам могу перебросить. В случае чего пишите пм. Сам софт пока не пробовал.

Цитата:
Я поотстал от жизни

я наверное, отстал еще больше Что такое "колхоз" и где он находится?
Автор: dmitin
Дата сообщения: 12.01.2005 22:53
estimated

Цитата:
Что такое "колхоз" и где он находится?

Про доступ к колхозному FTP см. в шапке топика по поиску физматхимбиомедлит в Варезнике. Колхозный сторож - Basilz.
Автор: Stranger1
Дата сообщения: 12.01.2005 23:24
Попробую упростить вопрос.

С каким dpi (300, 600, 1200, 4800...) и в каком формате (bmp, tiff...) отсканировать
книгу с большим количеством фотографий, чтобы получить высокое качество
в выходном конечном файле djvu или pdf?

Вроде бы все сканированием и оцифровкой занимаются,
неужели никто не подскажет?
Автор: Aegis
Дата сообщения: 12.01.2005 23:38
2 Stranger1

сохраняй в TIF с компрессией, сканируй в зависимости от качества принта в книжке (какой там растр) - от 300 до 600. По идее 300 должно хватить заглаза.
Ну и с первого же скана на Дежаву кинь и увидишь чего хватает, чего не годится...
Автор: Stranger1
Дата сообщения: 12.01.2005 23:47
Aegis
Спасибо.

А если планируется в дальнейшем распознать текст, то лучше всё-таки наверно в 600?
Или я не прав. Качество книжки отменное.
Автор: estimated
Дата сообщения: 13.01.2005 03:42
dmitin: спасибо за инфу!

Stranger1
Не знаю, что там лежит на http://fishchel.amillo.net/knigi.html, но тот Маргулис, что есть у меня (pdf 45.053.221 bytes) - это никакой не OCR, а настоящая оригинальная электронная версия книги (русский перевод 2001 года с "Professional Photoshop б: the classic guide to color correction", 2000). Потому и качество идеальное. Такого сканированием и распознаванием просто не добиться (или затраты будут в несколько раз превышать стоимость книги с доставкой в любую точку мира). И цветопередача у сканера должна быть идеальная. И человек должен обладать опытом профессиональной верстки. И т. д. Так что Маргулис - неудачный выбор для оцифровки.

Кстати, а что нового в этом 4-м издании? Оно случайно не "стереотипное"?
Автор: Arcand
Дата сообщения: 13.01.2005 07:25
На офсайте анонсирован RasterID 3.1 Как бы .... ???
Автор: kvk
Дата сообщения: 13.01.2005 10:44
estimated
Растер ИД у меня можно заберать без проблем, для такого объема скорость терпимая. По логину scib:sci в папке soft ip через gv/ Я в отъезде так что могу отвечать не быстро.

Stranger1
Замотан я извинения. 1. плотно прижимать к сканеру. 2. если время и объем не напрягают то 600 (лучше 1200 но уж это излишество). 3. пдф djvu по гамбургскому счету разница только в объеме (мне пдф кажется чуть поудобнее).

сканирование идет в тиффы их и кромсатору и фр скармливаем а уж потом делаем пдф или djvu
Далее сканировать прийдется в цвете как я понял.
если много фотографий поискать в кромсаторе фичу исключения областей (фотографий из обработки) и тогда уж в djvu лучше (цифровать файнридером и оср добавлять утилиткой от Gencho в последней версии не сложно).
если фотографий цветных разумное количество и хочется расмер поменьше то я делаю так вырезаю фотографии в отдельные файлы то что осталось обрабатываю кромсатором распознаю далее варианты
1. пдф из фр сохраняю в пдф (при сохранении текст под изображение ну и с качеством настройки посмотреть). Далее конвертирую фото в пдфки (каждый отдельный файл) и вставляю их в пдф в нужные места как вотермарки (меню документ в акробате) (работа ручная так что если много то запаришься). После чего оптимизирую пдф в акробате (аккуратно с настройками, позже напишу разумные с моей точки зрения).
если качество хорошее а объем хочется поменьше то можно то что без картинок после кромсатора через cpc прогнать несколько раз (это и для djvu полезно)
2. для djvu в обработанные текстовые файлы (с вырезанными фотографиями и ч/б) вклеиваю фотогравии и сохраняю как цветные приходится, но фона хоть нету. (в принципе и djvu с фоном разбирается, см случай когда много) после чего собираю djvu (solo или новый едитор (в этом случае после вклеивания ocr понижаю версию, утилита есть в колхозе)) и утилитой от Gencho добавляю ocr
Если есть вопросы еще спрашивайте.
Удачи
Автор: Stranger1
Дата сообщения: 13.01.2005 19:18
estimated

Цитата:
Так что Маргулис - неудачный выбор для оцифровки.

Зато он один из очень немногих (для меня), кого действительно хочется оцифровать.


Цитата:
Кстати, а что нового в этом 4-м издании? Оно случайно не "стереотипное"?

Да вроде нет. Автор пишет, что "...материал издания обновлён более чем наполовину..."
Да и так видно, что много нового.

kvk
Да, я понимаю, со временем и у меня сейчас напряжёнка. Ответ вполне исчерпывающий.

Всем спасибо! Осталось запастись терпением и временем...
Автор: estimated
Дата сообщения: 13.01.2005 20:55
Stranger1: ну, тогда удачи! Мне Маргулис тоже очень нравится. (Я уже даже пожалел, что перед этим так категорично высказался.)
Автор: amv
Дата сообщения: 14.01.2005 19:31
Новая программка

DjVu FancyViewer Plugin 1.5 version 0.8 build 33-1
Copyright(c) 2004 Janusystem Technology Co.,Ltd
All Right Reserved.
Powered By Lizardtech Technology.

www.janusystem.com/_download/bookmark-editor.zip
Автор: EL
Дата сообщения: 14.01.2005 20:53
Stranger1

Цитата:
i_view32.exe /scanhidden - 72 и всё тут
А можно ещё через какую-нибудь программу попробовать
с аналогичными ключами? Не в курсе?

так, навскидку, не в курсе... надо брать каждую и проверять...

all
Хочу вот одну книжку оцифровать в DJVU, но никак не получается достигнуть оптимального результата. Прошу вашего совета (желательно в виде алгоритма действий).

Вот типичная оригинальная страничка: скан 150 dpi (738 KB), скан 300 dpi (2.93 MB) - формат TIFF LZW

Вот что мне удалось из нее получить обычными средствами
(levels correction, sharpen, decrease colors depth to 4 colors):
150 dpi (61.1 KB), 300 dpi (208 KB) - формат PNG

Что касается DJVU, то скриншоты там получаются настолько размытыми, что даже неприлично показывать...


Да, OCR делать не планируется. (Это я к тому, что советы от kvk прочитал, но они поэтому не очень подходят для моего случая.)
Автор: woodim18
Дата сообщения: 15.01.2005 22:35
Как из формата PNG перевести в DJVU (DJVU editor PNG не поддерживает )?
Автор: dmitin
Дата сообщения: 16.01.2005 00:09
woodim18
IrfanView понимает и PNG, и DJVU.

Или перегнать каким-либо другим графическим конвертором (например, PMView) в формат, который понимает DocExpress.
Автор: woodim18
Дата сообщения: 16.01.2005 00:44
dmitin

Нашел простой способ - распечатал PNG файлы через DJVU принтер.

Страницы: 12345678910111213

Предыдущая тема: Sockscap


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.