Ru-Board.club
← Вернуться в раздел «Программы»

» Сканирование и оцифровка текста *.txt, *doc, *.pdf, *.djvu

Автор: ghosty
Дата сообщения: 21.03.2004 05:28
Aegis

Цитата:
300 dpi - это стандард для дежавушки

Это да, я догадался уже.
У меня сейчас другая проблема - небольшая, но неприятная. После использования утилитки от Генчо при копировании русского текста из созданного файла этот текст неизменно отображается в виде кракозябликов. Пока решения не нашел. Кто-нибудь сталкивался?
Автор: Astra55
Дата сообщения: 21.03.2004 05:31
Да вы что? Отродясь такого не было - падение качества и уменьшение размера при повышении разрешения. Другое дело что размер файла растет непропорционально повышению dpi, увеличение меньее, чем по логике. Возьмите качественный оригинал из PDF и попробуйте сделать djvu на 300 и на 600, потом сравните результаты.

WBR,
Astra



Добавлено
2ghosty

Чинить фонты. Я прогонял утилиты на солидной книге с массой шрифтов, и русских, и латинских, все нормально.

WBR,
Astra
Автор: ghosty
Дата сообщения: 21.03.2004 06:21
Astra55

Цитата:
Да вы что?

Какая у тебя версия Лизарда? У меня 4.0.
Вот результаты эксперимента. При повышении разрешения с 150 до 600 качество снижается всегда, а размер файла уменьшается в случае наличия картинок в тексте. Что у меня не так?
Текст/графика Разрешение (dpi) Метод Размер1 Размер2 Качество
Автор: Aegis
Дата сообщения: 23.03.2004 00:52
Astra55

Цитата:
Отродясь такого не было - падение качества и уменьшение размера при повышении разрешения.


Ну, эта... опять спор про дежавушную проблему терминов? (больше dpi - хуже изображение)?

Автор: Aegis
Дата сообщения: 24.03.2004 01:54
Господа!
тут такой вопрос возник. Проосиарил я один тифф английский, и встретился с неожиданностью: в одностраничных дежаву файлах в IE даже с OCR-текстом этот текст выбрать невозможно! Но если страниц более чем одна, хотя бы второй раз ту же страницу подклеить - текст уже выбирается и копируется нормально.

Кто-нибудь сталкивался с таким? Есть ли тут решения?
Автор: ghosty
Дата сообщения: 02.04.2004 05:20
Вот, нашел софтинку для обработки отсканированных страниц книг. Обрезает края страниц, тень от корешка, разные фильтры полезные имеет. Неплохо, но, может, и лучше есть?
http://bolega.hotmail.ru/ (*.dll скачиваются отдельно)

И еще, кто из какого приложения сканирует. Из FineReader'a все бы хорошо, только он сохраняет в Multipage Tiff, что не всегда удобно. В ACDSee куча окон всяких вылезает, из-за которых не видно, что я там насканировал. Document Express после сканирования страницы зачем-то каждый раз закрывает TWAIN-драйвер...
Хотелось бы, чтобы после сканирования в приложении крупным планом открывалась отсканированная страница, а все остальные страницы отображались бы в виде Thumbs достаточно большого размера.
А может быть есть какие-нибудь специальные 3-rd party TWAIN-драйвера, заточенные под сканирование текста?
Автор: Nep
Дата сообщения: 02.04.2004 08:57
шапку включил
Автор: EL
Дата сообщения: 02.04.2004 15:30
ghosty
Попробуй мой AutoScan 1.2 addon к IrfanView
http://www.labun.com/AutoScan_1.2.zip
Правда страницу после сканирования он не показывает, но в остальном возможностей гораздо больше, чем в FineReader

Цитата:

Программа предназначена для автоматического сканирования с заранее заданными
параметрами и сохранения в заранее заданный формат. В качестве движка
используется IrfanView. Никакие конопки во время сканирования нажимать не нужно.
Как только закончится текущий процесс сканирования, сразу же автоматически
начнется следующий.

В отличие от функции "Пакетное сканирование" в FineReader, здесь вы можете
использовать любые параметры сканирования, имеющиеся в вашем Twain-драйвере
сканера, и любые форматы файлов для сохранения, поддерживаемые IrfanView.
Автор: ghosty
Дата сообщения: 02.04.2004 18:40
EL

Цитата:
Попробуй мой AutoScan 1.2 addon к IrfanView

Спасибо, очень заманчиво звучит
P.S. А ты парсер какой-нибудь, видно, используешь на наличие подобных вопросов в форумах? - Это твое первое сообщение на ру-борде
Автор: EL
Дата сообщения: 02.04.2004 23:41
ghosty: да нет, просто использовал фильтр по теме
Ну как, пробовал AutoScan? Бояться там нечего - исходный текст открыт (скрипт VBS)
Автор: ghosty
Дата сообщения: 03.04.2004 05:18
EL
Только что установил Irfan и твой скрипт. Отличная идея!
Есть одно но: можно ли сделать так, чтобы отсканированная страница все-таки отображалась в Irfan? Пока твоя идея работает для идеальных книг с идеальными для сканирования переплетами. У меня обычно бывает так, что в некоторых случаях страницу приходится пересканировать.
Пока не разобрался, где в скрипте устанавливается задержка по времени м/ду сканами.
Автор: EL
Дата сообщения: 03.04.2004 11:09
ghosty:

Цитата:
можно ли сделать так, чтобы отсканированная страница все-таки отображалась в Irfan?

Да можно, конечно, но это будет дополнительная задержка.

Цитата:
где в скрипте устанавливается задержка по времени м/ду сканами

пока нигде. Сделать, конечно, тоже можно. Но моя цель была: обеспечить как можно большую производительность.

Насчет проблемы с переплетами: ты не пробовал сканировать в grayscale?
Автор: dosya
Дата сообщения: 03.04.2004 12:42
есть такая вещч как perfectscan, который работает и как промежуточный сервер (расшаривает осн. сканер в сети) и позволяет пакетно сканировать
Автор: Astra55
Дата сообщения: 03.04.2004 15:14
Ентот перфектскан - редкостный отстой, я за ним слежу с момента выхода, на редкость кривой и глючный софт, увы!
То, что сделал ghosty - очень здорово, но лучше бы все это в сам Ирфан встромить. Может написать Ирфану насчет такой доработки? У меня уже была с ним переписка по поводу дежавю, сделать он ничего не сделал, но отвечал исправно.

WBR,
Astra


Добавлено
Прошу прощения, перепутал ники. Автор EL, а не ghosty
Автор: ghosty
Дата сообщения: 04.04.2004 06:26
Astra55

Цитата:
Ентот перфектскан - редкостный отстой

Да, снес только что. Глюк на глюке. А хотят за него 200 евро
Есть ведь и другой софт, видимо.
Например, АвтоСкан некий: http://www.visionshape.com/autoscan.html. Не пробовал никто?
EL
Подскажи, как таймер вставить, а то я в NotePad'e попробовал написать, вылезают баги, а среду устанавливать не хочется.
Автор: EL
Дата сообщения: 04.04.2004 15:11
ghosty:

Цитата:

AutoScan 1.3
============
http://labun.com/autoscan.zip

History
-------

1.2 [2004-04-02]
first public release

1.3 [2004-04-04]
[+] DelayBetweenScans
Автор: ghosty
Дата сообщения: 04.04.2004 19:05
EL
Спасибо большое еще раз. Утилитка, действительно, очень полезная. Развивай ее и пиши сюда, пожалуйста, об обновлениях
Автор: Astra55
Дата сообщения: 04.04.2004 20:57
У меня работает на HP7400 и родном софте, но вот параметры не задаются, в смысле сканирует на 200 dpi, как ни старался, но не могу заставить запомнить установки в TWAIN. Может в скрипте можно это как-нибудь сделать? Чтобы в TWAIN просто передавались параметры, нечто подобное есть в софте 0X Copy Machine.

WBR,
Astra
Автор: EL
Дата сообщения: 05.04.2004 15:02
ghosty: приятно слышать

Astra55:

Цитата:
Может написать Ирфану насчет такой доработки?

Я как то даже не подумал о таком варианте. Но сделать это ему - раз плюнуть. (Просто добавится галочка в опиции "Batch Scan": не открывать окно Twain-драйвера).

Цитата:
не могу заставить запомнить установки в TWAIN

Ну значит, у тебя при сканировании из любого софта через родное GUI Twain-драйвера не запоминаются установки. Запоминать установки - это задача как раз этого GUI.

Поэтому, первый вариант: попробуй поискать, где хранятся установки: посмотри INI-файлы в папках, куда сканер устанавливал свой софт (не только WINDOWS\twain_32). Может быть удастся что-то вручную поменять. На INI-файлах случайно атрибут read only не стоит?

Второй вариант: если у тебя одновременно появляется WIA Twain источник - попробуй сканировать через него. Настройки там победнее - но в целом могут оказаться достаточными.

Третий вариант: это взаимодействовать с Twain-драйвером напрямую, без GUI
(мой скрипт на самом деле взаимодействует, посредством Irfanview, с драйвером сканера через его GUI. Просто окно GUI остается скрытым.) Примеры: тот же 0X Copier (нашел здесь http://www.port-al.com/copier/ - его ты имел ввиду?) Но через скрипт VBS это так просто сделать не получится, да и GUI надо будет делать. Честно говоря, я сейчас просто не готов этим заниматься. Может все-таки подойдут варианты 1 или 2?
Автор: Astra55
Дата сообщения: 05.04.2004 16:18
2 EL

>Я как то даже не подумал о таком варианте. Но сделать это ему - раз плюнуть. (Просто >добавится галочка в опиции "Batch Scan": не открывать окно Twain-драйвера).

Еще нужно будет сделать сканирование через промежуток времени, как в ФайнРидере. У меня уже накопился виш-лист к Ирфану, ладно, накатаю ему письмишко, глядишь что и сделает.
Что до инишных файлов, то этот гребаный софт от НР не имеет таких установок, я уже все обшарил что только можно было, нигде нет. Они еще и сделали несовместимыми свои новые модели сканеров с другим софтом. У меня есть CFM TWAIN, лицензионный, классная штука, но только под SCSI, я им писал, что НР7400 не работает с софтом, они ответили, мол НР теперь засекретил команды TWAIN, и невозможно добавить поддержку новых сканеров. Вот собаки НР-шные!
WBR,
Astra
Автор: IvenGo
Дата сообщения: 22.04.2004 12:14
Как я понял из темы, если нужно перевести pdf gif bmp jpg или tiff в djvu, то лучше всего пользоваться виртуальным принтером из пакета Document Express Pro 4.01 И 235 . И при этом tiff желательно перед этим конвертнуть в pdf. Так я понял?
Автор: ghosty
Дата сообщения: 22.04.2004 13:28
IvenGo
Нет, это был ошибочный путь Лучше пользоваться самим ДокЕкспрессом...
Автор: IvenGo
Дата сообщения: 23.04.2004 11:33

Цитата:
Лучше пользоваться самим ДокЕкспрессом...

Но он напрямую pdf не жрет. Переводить в tiff`ы?
Кто нить может вообще по РУсски просветить насчет pdf gif bmp jpg и tiff ? Какой из форматов для чего удобен? как устроен? вкрадце. И действительно ли дежавю круче чем pdf jpg и giff?
Автор: ghosty
Дата сообщения: 23.04.2004 21:00
IvenGo

Цитата:
Но он напрямую pdf не жрет. Переводить в tiff`ы?

Да.

Цитата:
Кто нить может вообще по РУсски просветить насчет pdf gif bmp jpg и tiff ? Какой из форматов для чего удобен? как устроен? вкрадце. И действительно ли дежавю круче чем pdf jpg и giff?

См. в шапке.
Автор: EL
Дата сообщения: 29.04.2004 16:25
В IrfanView 3.90 добавился новый формат для сохранения, изменились внутренние цифровые индексы для форматов. Переделал соответствующим образом AutoScan. Добавил проверку на версии IrfanView.


Цитата:

AutoScan 1.4
============
http://labun.com/autoscan.zip
...
History
...
[+] IrfanView 3.90 is now supported
Автор: Astra55
Дата сообщения: 29.04.2004 19:55
Новый Ирфан 3.90 научился смотреть многостраничные djvu, что весьма радует.

WBR,
Astra
Автор: EL
Дата сообщения: 12.05.2004 22:18
Astra55: да, это здорово! Эх, ему бы еще лупу по Ctrl, копки by width / by hight на панели и скорость прорисовки увеличить раз в 5 - вообще можно было бы от DJVU-плагина отказаться.



Слегка улучшил AutoScan. Можно забирать по тому же адресу.

На будущее сделаю так: здесь буду сообщать только о существенных изменениях (если таковые будут).

Если в ходе работы возникнут какие-то проблемы (хотя до сих пор вроде бы и не возникало, но мало ли) - просто скачайте AutoScan еще раз, может я там как раз что-то улучшил Если проблема не исчезла - напишите здесь, или лучше мне по eMail (адрес в TXT-файле в архиве AutoScan).

Адрес загрузки буду держать постоянным: http://labun.com/autoscan.zip .

Ну и удачи всем!
Автор: ghosty
Дата сообщения: 13.05.2004 07:51
EL
Прибил к шапке. Если хочешь, можешь изменить "рекламный текст"
Автор: EL
Дата сообщения: 13.05.2004 13:22
ghosty: годится вполне Коротко и ясно.
Автор: Dickobraz
Дата сообщения: 19.05.2004 07:40
Привет всем!
Ну раз это ветка о djvu, то мне сюда.
Переводом сканов в djvu занимаюсь давно, уже накоплен некоторый опыт. Чуть позже напишу статью как я все это делаю. Сейчас хочу сказать о своей проге DjVuReader. Писал ее как альтернативу плагину от LizardTech, т.к. очень не хватало некоторый функций. Ну вот вышла очередная бетка. Возможности следующие: понимает любой формат, показывает как по одной странице, так и в разворот, при развороте 2 режима- книга (когда первая и последняя стр отдельно) и постер (все страницы в разворот), понимает внедренные в метаданные djvu заголовок, индксы страницы и оглавление...
Ну и так далее. Проект в развитии и все время появляется что-то новое. Что порадовало - многостраничные файлы открывает быстрее чем плагин. Что не порадовало - мелкие лики памяти и глюк при масштабировании в Win2000. Все добро лежит на www.opendjvu.nm.ru

Страницы: 12345678910111213

Предыдущая тема: Sockscap


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.