Ru-Board.club
← Вернуться в раздел «Программы»

» Сканирование книг. Как? Чем?

Автор: MusicLover
Дата сообщения: 24.06.2003 10:25
Привет! В сканировании ничего не соображаю (опыта - 0)! Помогите плиз, такая ситуация:
Возьму книжку в библиотеке, надо будет ее отсканировать за быстро (за 1 день) и вернуть.
Нужно:
1. Текст книжки на харде.
2. Текст книжки со всеми значками, картинками и т.п. на харде (в любом формате, хоть jpg или tiff (gif?) - там много будет нот и всяких таких знаков.
3. Содержание книжки как в пункте 2 (т.е. со всеми значками, картинками и т.п.) - распечатать.

Я, ничего не зная о сканировании, пока думал сделать так: Отсканировать чем-нить (офис XP не подойдет? что лучше вссего для такого сканирования? Или без разницы?) в картинки с максимальным качеством (скажем, tiff - 300 dpi), этот вариант пойдет для пунктов 2 и 3. А для пункта 1, нет ли проги для перегонки из графики в текст? Если нет, значит после того, как отсканировал чем-нить в картинки сканировать еще раз Finereader в текст?
Автор: FireBrizz
Дата сообщения: 24.06.2003 10:36
MusicLover
Сканируй в FineReader, он сохраняет пакет в виде картинок тоже (тока при сканировании установи нужное тебе разрешение)
Автор: MusicLover
Дата сообщения: 24.06.2003 19:30
Хорошо, а если там ноты перемежаются с большим колическтвом текста, значит там будут как текст, так и картинки? А в каком формате все это сохранять? Насколько я знаю, в документах ворд нельзя сохранить высококачественные картинки?
Автор: Sws
Дата сообщения: 24.06.2003 19:44
MusicLover

Цитата:
Хорошо, а если там ноты перемежаются с большим колическтвом текста, значит там будут как текст, так и картинки

Когда в FineReader распознавать будешь - пометь соотвтественно блоки (текст или картинка). А потом можно будет перегнать в word. При этом качество картинки не имеет значения - все нормально сохранится (только вот какой объем файла получится - это вопрос )
А вообще исходный скан у FR - это файл формата tiff со всеми вытекающими последствиями по обработке его потом в графическом редакторе.

ЗЫ. А вообще, если потом с этим текстом работать не надо, то распознавание и правка очень муторная работа. Можно все страницы (и текст и картинки) распознать постранично как картинки и потом это читать и печатать - такое а-ля ксерокс . Только опять приходиться расплачиваться объемом на винте.
Автор: Jenyay
Дата сообщения: 24.06.2003 20:42
И еще загляни сюда: http://forum.ru-board.com/topic.cgi?forum=35&topic=1478&start=300#4

Меня впечатлил формат djvu.
Автор: max67
Дата сообщения: 24.06.2003 20:43
MusicLover
Распознавать текст с большим колличеством спецсимволов это еще та морока. Имхо, достаточно будет отсканировать в tiff с 300 dpi (обязательно чернобелый а не полутоновый), сконвертировать в pdf и склеить в единый файл. Размер получиться примерно 3-5 Mb на каждые 100 страниц.
Автор: MusicLover
Дата сообщения: 25.06.2003 11:36
Вообще, по здравом размышлении, я решил все-таки не распозновать текст, а отсканить в картинки. Я так предполагаю, для этого хватит office XP или ACDSee?

Цитата:
сконвертировать в pdf и склеить в единый файл

А что мне даст вообще конвертирование в pdf? Выигрышь места на винте? Я вот тоже увлеклася всяческими видами сжатия мультимедиа (звука, картинок, даже текста), но недавно решил, что игра не стоит свеч... Объемы хардов постоянно увеличиваются... Если это не собираешься передавать по и-нету, можно остановится в моем случае и на tiff? А там глядишь и появтся эти многослойные оптические диски, в сотни раз вмсестительнее DVD ... Вот когда пожалеешь об этой мороке со сжатием...
Автор: Alekha
Дата сообщения: 25.06.2003 12:59
Может вопрос не по теме, но какой программой можно склеивать несколько *.pdf файлов в один?
Автор: MusicLover
Дата сообщения: 25.06.2003 14:22
Да, кстати, такой еще вопрос: как лучше сканировать, чтобы потом распечатывать на A4? Нужно, чтобы картинки были какого-то определенного размера, или при печати там они автоматически для А4 форматируются? И какой формат все же выбрать? (Чтоб покачественнее, но для черно-белого, (а для цветного?)) Tiff? BMP? Я предпочту формат без сжатия, пожалуй...

Добавлено
И еще один глупый вопрос: каким софтом все-таки удобнее(быстрее, лучше) сканировать в картинки? У меня есть ACDSee v4.01, ну и office XP (MS Office Document scanning).
А п.п. распознования текста (русского), насколько я знаю, лучшим вариантом является Finereader (6.0 последняя?)?
Да, и все-таки, можно ли конвертировать графические файлы в текстовые? Ведь FR получает tiff, а потом его конвертирует... Наверняка можно взять уже готовый графический файл и сконвертировать его в текстовый? Нет?
Автор: max67
Дата сообщения: 25.06.2003 21:10
Alekha
Из того что сам пробовал, самым безглючным оказался Arts Split and Merge Wizard. Рекомендую.
Можно посмотреть в топике по плагинам к акробату:
http://forum.ru-board.com/topic.cgi?forum=35&topic=5810&start=260#lt

MusicLover

Цитата:
при печати там они автоматически для А4 форматируются ?

Да, такя опция есть в настройках драйвера любого принтера.

На счет сохранения без сжатия это конечно хозяин барин, однако при печати картинки с текстом разницы в качестве между сжатым и несжатым изибражением не заметишь.
Сканировать все равно лучше в tiff, можно и без сжатия.


Цитата:
взять уже готовый графический файл и сконвертировать его в текстовый

Это и есть OCR, т.е. то, что делает FineReader.
Автор: MusicLover
Дата сообщения: 26.06.2003 08:11
Да, и еще: как избавиться от черной полосы посередине?
Автор: Dimius
Дата сообщения: 26.06.2003 08:50
MusicLover

Цитата:
Да, и еще: как избавиться от черной полосы посередине?

Из-за чего она у тебя? Очень толстая книга?
В вин98 был такой простой продукт: kodakimage
с помощью него легко убирались черные полосы не только посредине, но и по краям (ручками, не автоматом).
А так - любым графическим редактором.
Автор: MusicLover
Дата сообщения: 26.06.2003 10:45
И в конце-концов, все-таки, какой софт удобнее для сканирования? Я, помнится, когда-то использовал Corel PhotoImage, было очень удобно! Не знаю, позволяет ли скажем, ACDSee (FotoCanvas Lite) задать область сканирования, обрезать края? Да, и сканировать это (спец. сиимволы, буквы) нужно как черно-белое? Глубина в 1 бит?
Dimius
Да, толстая, мягкий переплет.


Добавлено
Dimius
Я еще имею в виду, как лучше? (Если не автоматом), замазать белым, теркой, как?
Автор: MusicLover
Дата сообщения: 28.06.2003 11:24
Отсканировал тут одну книжку (600 dpi), сохранил как tif без сжатия... А теперь хочу подправить косметические дефекты, а именно:
1. Убрать черные полосы посередине.
2. Всякие там пятна.
3. Подвести кое-где буквы.
4. Выровнять перекошенные страницы. (Что не очень удобно, там все отсканировано разворотами, и обычно одна страница ровная, а другая куда-нить отклоняется... Их надо разрывать?
5. Желательно немного развести страницы в стороны ( может пожрезать наружные поля). (Т.е. там в книжке были очень маленькие внутренние поля, а наружные большие (а после сканирования ессно стали еще намного больше, получается при печати много будет бумаги зря портиться) желательно с этим что-то сделать...
Вот такие вещи надо сделать... Как лучше всего делать каждую операцию? Как автоматизировать процессы? Да, и еще... Книжка эта получилась - 520Mb... Как ее поджать для интернета?
Автор: BlackFox
Дата сообщения: 28.06.2003 11:26
у Взора лежит книги...как можно их сделать в том же формате и таком же качастве?
Автор: MusicLover
Дата сообщения: 28.06.2003 14:37
У меня тут возникла идея, как дефект размытых букв (цифр) исправлять... Взять в графическом редакторе (у меня Corel Photo-Paint) просто инструмент "текст" и напечатать то, что там не видно, потом растягиванием сделать этот текст такого же размера как в оригинале, поместить сверху "мутного" и сохранить тифчик... Хотя, чтобы из-за нового текста не выпирал старый, надобы или 1) замалевать старый кисточкой (белой краской)? (правда после этого плохо видно куда новый лепить) или 2) делать новый чуть крупнее.
Автор: Abolin
Дата сообщения: 28.06.2003 16:12
MusicLover


Цитата:
если там ноты


http://rockmaster.narod.ru/soft/sound_tools/notes/smart_score.htm
http://forum.ru-board.com/topic.cgi?forum=35&topic=5046#1


Цитата:
правда после этого плохо видно куда новый лепить



Цитата:
Corel Photo-Paint
работает со слоями ?


BlackFox

http://forum.ru-board.com/topic.cgi?forum=35&topic=0238#1


Добавлено
MusicLover

Цитата:
Как ее поджать для интернета?


Так перевести в тот же .pdf .... или как... книжка в виде файла должна быть или её on-line читать должны?
Автор: MusicLover
Дата сообщения: 28.06.2003 21:11
Abolin

Цитата:
http://rockmaster.narod.ru/soft/sound_tools/notes/smart_score.htm
http://forum.ru-board.com/topic.cgi?forum=35&topic=5046#1

Эт конечно очень интересно, только
1. Надо с этими прогами разбираться, качать, и т.п. А из файла они кстати делают OCR?
2. У меня ведь там текста еще больше чем нот, причем текст русский. Они ведь текст не рапознают? Как они текст оставят? Как картинки?
3. Они небось работают со своими какими-нить типами файлов, а у меня принтера нет, печатать буду у кого-то.
При всем при этом, там в самих нотах куча буквенных обозначений на русском языке... Это нужна специальная прога: для сканирования ЭТМ на русском языке

Кстати, у меня есть шрифты "Musical", там как раз нотки и т.п. Но как это может помочь?


Цитата:
Corel Photo-Paint
работает со слоями ?

Не знаю... Я делаю так: кисточкой (обычно квадратной) белой краской удаляю все пятна. Потом tiff сохраняю. Получается довольно-таки красивенько. Правда долго и муторно... Других способов, к сожалению, не знаю. Я еще кстати и не прбовал, не знаю, нормально ли он сохраняет текст, вставленный сверху... Может там можно только кисточкой и т.п. работать...


Цитата:
Так перевести в тот же .pdf .... или как... книжка в виде файла должна быть или её on-line читать должны?

В виде файла. Наверное, действительно или pdf или djvu... Их дополнительно архивировать (rar) нет смысла?

P.S. Попробовал OmniPage SE - ужасно распознает, несмотря на достаточно четкий оргинал...
Автор: Abolin
Дата сообщения: 28.06.2003 22:03

Цитата:
Эт конечно очень интересно


Ну, вот и хорошо.


Цитата:
Я еще кстати и не прбовал, не знаю, нормально ли он сохраняет текст


Надеюсь, на копии файла упражняетесь?


Цитата:
дополнительно архивировать (rar) нет смысла


выигрыша в объеме практически не будет. надежность скачивания вроде несколько повышается


Цитата:
Попробовал OmniPage SE - ужасно распознает, несмотря на достаточно четкий оргинал


В смысле - OmniPage LE? Ну, это, по мнению специалстов, не лучший выбор. Fine Reader ... пятый или шестой... т.е. шестой лучше, а пятый проще достать-установить...
Автор: MusicLover
Дата сообщения: 29.06.2003 17:25

Цитата:
Надеюсь, на копии файла упражняетесь?

Недавно догадался на всякий случай сделать архив оригиналов Причем, что интересно,. Rar оценивает сжатие 520Mb в ~25Mb, а реально сжимает в ~45 (на макс. сжатии, непрерывный архив) :-\


Цитата:
В смысле - OmniPage LE? Ну, это, по мнению специалстов, не лучший выбор. Fine Reader ... пятый или шестой... т.е. шестой лучше, а пятый проще достать-установить...

Нет SE=Special Edition... (~50Mb).
Интересно, а если я установлю шрифт Muical, он (FR 6) мне распознает корректно ноты, или нет?
Автор: Abolin
Дата сообщения: 29.06.2003 21:21

Цитата:
Нет SE=Special Edition...


Да все равно...


Цитата:
если я установлю шрифт Muical, он (FR 6) мне распознает корректно ноты


Эээ... какая связь?
Автор: strannik713
Дата сообщения: 30.06.2003 00:03

Цитата:
Alekha: Может вопрос не по теме, но какой программой можно склеивать несколько *.pdf файлов в один?

Adobe Acrobat Professional 6 ищи в варезнике


Цитата:
Rar оценивает сжатие 520Mb в ~25Mb, а реально сжимает в ~45 (на макс. сжатии, непрерывный архив) :-\
Именно поэтому я все жму исключительно cab-ом. Конечно он не так крут, без всяких там электронных подписей зато жмет и SFX-модуль есть.

Помогите плиз! Как грамотно эту чертову pdf-ку распечатать? У меня книжка здоровая-этож бумаги тонна уйдет.... может можно ее как-то быстро переконвертировать что ли...что б помельче листов было...


Автор: Jenyay
Дата сообщения: 30.06.2003 06:57

Цитата:
Помогите плиз! Как грамотно эту чертову pdf-ку распечатать? У меня книжка здоровая-этож бумаги тонна уйдет.... может можно ее как-то быстро переконвертировать что ли...что б помельче листов было...


Посмотри http://forum.ru-board.com/topic.cgi?forum=35&topic=1402&start=220#12
Автор: MusicLover
Дата сообщения: 30.06.2003 16:10
Так и не могу понять, почему люди в pdf перегоняют? Объем?

А п.п. нотных шрифтов, я так думаю, их присутствие уже говорит о том, что можно по крайней мере путем вставки воссоздать хотя бы в документе ворд полноценное нотное письмо (?). А если так, то и до распознования в FR недалеко...
Автор: Abolin
Дата сообщения: 30.06.2003 17:06

Цитата:
почему люди в pdf перегоняют? Объем?


Приемлемый объем, общепринятый стандарт, пожалуй, более распространенный чем дежавю, есть приличные инструменты защиты авторских прав (запрет редактирования....).


Цитата:
нотных шрифтов, я так думаю, их присутствие уже говорит о том, что можно по крайней мере путем вставки воссоздать хотя бы в документе ворд полноценное нотное письмо


А, ну это да, если самому набирать, понятно...


Цитата:
А если так, то и до распознования в FR недалеко...


Ни, ему это фиолетово. Ему важно какие языковые пакеты у него стоят. Есть суахили - будет распозновать суахили, нет - не будет. Суахили есть (можно поставить), языки программирования есть, эсперанто есть, а нот - нет...
Автор: MusicLover
Дата сообщения: 30.06.2003 17:42
Хм, хорошо, а что если все же распознать в FR текст, а ноты и спецсимволы оставить в картинках? (почему хочу, пятен многовато, некоторые буквы плохо различимы на сгибе, все-таки большой объем, 140 отдельных файлов и т.д.)
1. Очень ли это муторно?
2. В каком формате тогда сохранять и редактировать? ( Я бы предпочел ворд, или htm). Но насколько я знаю, тогда картинки испортятся (снизится разрешение)? Как оставить картинки в таком качестве (600dpi)?
Я предвижу, что это приличная работа, но тогда можно было бы привести книгу в очень приличный вид, и при случае удобно поделиться с кем то. Но впрочем, если это очень большой труд, я бы предпочел не связываться...
Да, и кстати, спасибо всем, кто просвещает. Особенно вам, Abolin.
Автор: Abolin
Дата сообщения: 01.07.2003 01:30

Цитата:
если все же распознать в FR текст, а ноты и спецсимволы оставить в картинках?


Ну, пожалуйста.


Цитата:
1. Очень ли это муторно?


Да нет, в FR после загрузки в него картинки для распознования эта картинка может делится на несколько блоков, для каждого блока указывается тип - текст, таблица, картинка.... в последнем случае FR блок не анализирует, а просто вставляет картинку в распознанную страницу... а деление на блоки лучше все равно на самотек не пускать, а то он автоматом довольно причудливо их нарезает.... так что....


Цитата:
В каком формате тогда сохранять и редактировать? ( Я бы предпочел ворд, или htm).


можно и так и так... FR может по-разному сохранять результаты, среди прочего - может передавать распознанные страницы в Word или Exel, а может генерировать файл html (уж не знаю - насколько качественный, я в этом не очень разбираюсь, но IE 6.0 показывает такую страницу нормально - и картинка на месте и текст....


Цитата:
Как оставить картинки в таком качестве (600dpi)?


ну, сделайте их отдельно....
Автор: gukguk
Дата сообщения: 01.07.2003 02:10
MusicLover
ПО поводу убрать пятна, полосы по середине книги, выравнять страницы.
FR->Tools->Options->Scan/Open image-> ставь галочки Split dual pages:Despectle image:Detect image orienta:/
После этого перезапускаешь FR -> open-> свою книгу (добавь свои изображения) -> иди пить чай.
Автор: MusicLover
Дата сообщения: 01.07.2003 10:57

Цитата:
а может генерировать файл html (уж не знаю - насколько качественный

Для меня главный критеирй качества здесь - объем... Хотя... Килобайтом меньше, килобайтом больше... Не так важно, т.к. картинки то все-равно в сотни раз больше, и их достаточно много...


Цитата:
ну, сделайте их отдельно....

Простите за глупый вопрос... А как?


Цитата:
ПО поводу убрать пятна, полосы по середине книги, выравнять страницы.
FR->Tools->Options->Scan/Open image-> ставь галочки Split dual pages:Despectle image:Detect image orienta:/
После этого перезапускаешь FR -> open-> свою книгу (добавь свои изображения) -> иди пить чай.

Это он подредактирует картинки автоматом? Интересно... А разрешение и т.п. (формат там) он не тронет?

Добавлено
А с другой стороны... Лучше не htm, а док, т.к. тогда будут отдельные страницы... Удобнее ориентироваться, да и печатать...
Автор: Abolin
Дата сообщения: 01.07.2003 15:57

Цитата:
А как?


Что как? Как вырезать картинку отдельно? Ну, в графическом редакторе... Или я что-то не понял?...


Цитата:
он подредактирует картинки автоматом? Интересно... А разрешение и т.п. (формат там) он не тронет?


Разрешение? Так он не меняет разрешение, он только анализирует изображение... а формат... ну исходный так и останется файл, а уж во что сохранять результаты работы - это пользователь выбирает....

Добудьте FR, поставьте, да поковыряйтесь... а то всё очень теоретически как-то....

Страницы: 12

Предыдущая тема: BDE


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.