Ru-Board.club
← Вернуться в раздел «Программы»

» Сканирование и оцифровка текста *.txt, *doc, *.pdf, *.djvu

Автор: kvk
Дата сообщения: 19.11.2004 08:44
romanef

Цитата:
коррекция кривых строк

Эксперты вроде как утверждают, что больше ни где не реализовано.
Спасибо!
Удачи
Автор: n0xyl
Дата сообщения: 19.11.2004 15:57
нужна помощь.

имеется отсканированная книжка. фалы в формате jpg , название 00001 до 00534. в дежавю пытаюс всех их запихнуть в один файл, да вот появляется проблема с нномерами страниц. они почемуто все в перемежку расроложены. Существують ли какие нибудь способы исправления этих проблем, а то ручками тоскат повеситься можно.
Автор: Arcand
Дата сообщения: 19.11.2004 16:03
romanef
Ну что ж, аргументы весомые, будем осваивать. Спасибо!
Автор: estimated
Дата сообщения: 19.11.2004 16:37
n0xyl
Если используешь Solo, то делай так:

Цитата:
Сначала открываешь первое, потом находишь в меню Append и добавляешь все остальные, следя за тем, чтобы они добавились в правильном порядке. Для этого в окне открытия/добавления файлов сначала ставишь курсор на последний файл, потом с нажатым Shift тыкаешь на первый.
Автор: WWWovan
Дата сообщения: 19.11.2004 19:34
Вопрос немножко, возможно не по теме...
Какими програмами можно конвертировать дежавю в другие форматы и в какие форматы есть возможность конвертировать? (Дальше текст требует обработки и перевода)
Автор: Astra55
Дата сообщения: 19.11.2004 20:19
ИрфанВью от версии 3.92 и далее, практически без вариантов
Автор: Snake_60
Дата сообщения: 20.11.2004 00:36
romanef

Всё понял, спасибо.
Автор: WWWovan
Дата сообщения: 20.11.2004 22:39
Astra55
Спасибо. Супер!
Автор: ZZmiy
Дата сообщения: 22.11.2004 00:08
Как правильно делать djvu из tiff (300 dpi), чтобы не было искажений "и"<->"н" ???
Кто-нибудь разобрался с этим?
Автор: estimated
Дата сообщения: 22.11.2004 01:12
ZZmiy: периодически вижу такие сообщения, но сам у себя такого не замечал. Каким образом конвертируешь?
Сразу скажу, радикальное решение - это lossless режим (в DjVu Solo это достигается путем выбора "clean").


Добавлено
Конечно, проблема может возникнуть только в тех случаях, где графические образы букв "н" и "и" очень похожи... Т.е. влияют тип шрифта, его размер, качество печати и качество скана. Ну, да это в общем и так понятно.
Автор: ZZmiy
Дата сообщения: 22.11.2004 15:13
estimated

Цитата:
Каким образом конвертируешь?

Сканил ч/б в 300 dpi в tiffы в FR. Потом через IrfanView конвертил в одностраничные с CCITT Fax4.
Потом гружу эти tiffы в Solo. Сохраняю в djvu bundled, и в любом варианте (Scanned, Clean, Bitonal) получаю файл одного и того же размера и содержимого.
Делал и DocExpressом - файлы другого размера, но тоже с искажениями.

Да, ошибки такие ("и"<->"н", а видел даже "н"->"п") бывают обычно на мелких шрифтах, их сложно заметить, но в исходном-то tiffе всё прекрасно различимо.
Вторую книгу хотел в djvu перевести и на второй книге такие искажения.
Ошибки нет если конвертить в djvu программой DjVuer с настройками по умолчанию, а потом делать bundle в др.программах, но размеры-то одной книги - в Solo - 8М, в DjVuer - 13М...

Ну и где же тут получится точная копия книги, если никто не отслеживает (да и не будет отслеживать) этих ошибок, когда делает djvu из 300 dpi в Solo или DocExpress...
И никто же не выбирает вариантов, а штампует djvu как получится...

Ну не сканить же их в 600 dpi !? Это слишком долгий процесс.

Вот ссылка на тестовые tiffы и сделанные из них djvu через Solo, DocExpress и DjVuer :
http://zpdd.chat.ru/files/djvutest.rar
Надеюсь описанные искажения заметны?
Автор: estimated
Дата сообщения: 23.11.2004 12:40
ZZmiy:

Цитата:
http://zpdd.chat.ru/files/djvutest.rar
Надеюсь описанные искажения заметны?

Да, искажения видны явно
OK, попробую у себя поэкспериментировать. Если редактировал documenttodjvu.conf / bitonaltodjvu.conf, то сбрось пожалуйста также эти файлы, или напиши, что там менялось.
PS. Вообще я занимаюсь конвертацией в djvu только от случая к случаю. Но здесь есть люди, которые занимаются этим более регулярно. Что-нибудь придумаем.
Автор: ZZmiy
Дата сообщения: 23.11.2004 15:09
estimated

Цитата:
Если редактировал documenttodjvu.conf / bitonaltodjvu.conf

Нет, не редактировал. Использовал по умолчанию...
Автор: estimated
Дата сообщения: 23.11.2004 16:10
ZZmiy: единственное, что пока получилось - это достигнуть сжатия без потерь путем добавления строки
lossless=true
в раздел scan300 в файле documenttodjvu.conf
(то, что я раньше предлагал - выбор "clean" через GUI, действительно не работает в плане установки "сжатие без потерь")
Но размер конечного файла при этом вырастает в 2 раза и более.

В DjVu Solo, видимо, заблокирована проверка многих параметров из documenttodjvu.conf. Т.е. их изменения ни на что не влияет Этот момент уже упоминался на страницах этого топика, но, насколько я помню, мы тогда не разобрались конкретно, какие параметры работают, а какие нет.

А может кто-то уже разобрался с этим? max67, Astra55 может вы что-то посоветуете?
Автор: arslan77
Дата сообщения: 27.11.2004 13:08
Друзья, кто пользуется скан-кромсатором, подскажите пожалуйста.
У меня в Скан-кромсаторе 5.03 после поворачивания изображения исчезают резаки.
В чем может быть дело?
Система WinXP.
Автор: bolega
Дата сообщения: 29.11.2004 11:44
arslan77

Цитата:
У меня в Скан-кромсаторе 5.03 после поворачивания изображения исчезают резаки.

Поворот на 90 градусов?
В контекстном меню лэбелов с координатами резаков (в верхней панели Xl=..., Yt=... и т.п.) есть команда Reset line position, которая вернет соответсвующий резак на место.
Автор: arslan77
Дата сообщения: 29.11.2004 22:09
bolega

Спасибо!
Автор: estimated
Дата сообщения: 15.12.2004 18:47
ZZmiy
Попробовал твой пример (6 страниц скана из папки A отсюда http://zpdd.chat.ru/files/djvutest.rar , предварительно убрав из них thumbnails от FineReader) перевести 6-м Акробатом в PDF (JBIG2 Lossy).

Искажений "и/н" нет, но размер файла получился примерно такой же, как и твой результат с DjVuer Pro 1.7 - 95.238 байт.
Автор: Astra55
Дата сообщения: 15.12.2004 21:23
2 xalex

[quote]А как еще можно назвать формат, который внаглую рекламируется
именно как формат для сжатия физ-маткниг, но на поверку как
оказывается беспощадно портит матформулы ?!
Есть мнение, что кто-то другой не владеет существом вопроса ...[quote]

А есть еще мнение, что у кое-кого слишком малый опыт. Я не буду бить себя пяткой в грудь и называться отцом "СНГовского djvu", этот титут за "товарищем Суховым" но сдается мне, что когда я начинал заниматься этим форматом, большинство здесь присутствующих о нем вообще не слышало. Зато многие усердно поливали djvu помоями и требовали сканов в jpg или gif. Никто не забыт и ничто не забыто
Поэтому не нужно мне рассказывать что djvu может, а чего нет. Я отдежавюировал достаточно книг, журналов, схем и всего прочего, чтобы не обращать внимания на отдельные косяки отдельных господ на отдельно взятых компах с отдельно взятым софтом. Читайте русскоязычные руководства в Инете, если найдете косяки - тогда будем разбираться - есть они или нет. Делаете по своему? Флаг в руки, но косяки тоже относите к себе, а не к другим.
Автор: ghosty
Дата сообщения: 15.12.2004 22:27
Astra55
Если ты один из отцов-основателей, постарайся, пожалуйста, быть немного снисходительнее. Дай ссылок (можно сразу в шапку). Процитируй, что писали в RU.OCR по поводу замены букв. Не все на эту эху подписаны, между прочим, а некоторые вообще не знают, что такое фидо, представляешь
Заранее премного благодарны.
Автор: Astra55
Дата сообщения: 15.12.2004 23:27
Я не "отец" и не "основатель", я добрый, белый и пушистый, но когда начинают хаять вещи без должных на то оснований, тогда... Описанный глюк действительно имеет место быть, но только при определенных условиях. У меня он никогда не встречался. Я могу воспроизвести этот глюк и делал это, но зачем? Вот ссылки на чтение из ru.ocr:
--------------
http://www.cqham.ru/m2_scan.htm
http://www.cqham.ru/djvu_print.htm
http://www.cqham.ru/likbez_djvu.htm
http://home.farlep.net/~roman//books/howtodjvu.txt

Для обработки изображений перед кодированием в djvu
есть хорошая программа Scankromsator, автор - Bolega.
http://www.bolega.hotmail.ru .
Небольшой FAQ по сканкромсатору лежит тут
http://botolphbooks.nm.ru/ScanKromsator-options/
--------------
Почитайте, я пока поищу что сохранилось из того треда по поводу "и" и "н". Было бы оно все так плохо, то никто и никогда не применял бы этот формат.

Добавлено
Вот самая суть треда в ru.ocr. Если искать тред Гуглом, то это было в начале октября 2004, тема "Ещё pаз о комментаpиях"
----------------
>> видимо, у меня пpосто не было такой ситуации - я никогда не пользую ФР
>> для сканиpования, есть более дpугой софт.

Есть первая гипотеза по поводу вышеупомянутых ошибок. К сожалению, у меня нет именно такого справочника Варламова, есть "Краткий справочник конструктора РЭА", использовал его для проверки. Сначала обратил внимание, что tif-ы с борода3 не слишком высокого качества, но оригинала у меня нет, поэтому проверить не могу.
Тогда я отсканил другого Варламова в родной программе НР, на 300 dpi полезли те же самые ошибки, конвертил в Соло и Эдиторе, результат идентичный, параметры конвертирования не менял. Потом отсканил на 600 dpi, ошибки исчезли. Самое интересное - отсканил на 300 dpi в ФР, где стоят опции "Очищать от мусора" и "Делить разворот книги" и все вернулось в нормальное русло. Совершенно нормальные сканы, никаких ошибок в djvu, кроме тех мест, где откровенные ляпы в самом скане, шрифт достаточно мелкий.
Значит "более другой софт" дает худшие результаты. Надо бы еще попробовать векторно-растровые софты, их есть у меня в ассортименте . Там предусмотрена очистка изображения от пиксельного мусора, с настройками. Мое предположение такое - раз я всегда сканирую в ФР, а потом обрабатываю в Ирфане и проблем не бывает, значит это оптимальный софт для такой операции. "Более другой софт" не обладает возможностью чистить мусор на скане, отсюда и получаются ошибки.
Но не все однозначно - попробовал сканы с бороды3 пропустить через виртуальный принтер djvu. Сжатие хуже, причем чувствительно, но ошибок нет ни в одном из режимов, включая lossy и т.д. Надо бы еще с настройками повозиться, благо там они есть.
--------------



Добавлено
Дополнение: в Гугле набирать Re:Еще раз о комментариях, потом показать все сообщения, а не одно, они там есть, пять или шесть страниц ссылок.
Автор: ZZmiy
Дата сообщения: 16.12.2004 02:12
"и" <-> "н"
Почти месяц назад задавал вопрос... Повылазили...

Astra55

Цитата:
Описанный глюк действительно имеет место быть, но только при определенных условиях. У меня он никогда не встречался.

Ты уверен? Если хорошо поискать, то найдется...
Вон из последнего с RU.OCR (не твоё правда) - Капранова H. H., "Комнатные растения в интерьере" - лехко были обнаружены эти искажения... Не много, но они есть.
И кто запрещал Роману сделать эту книгу в нормальном формате? Или сделано в djvu ради очередной рекламы формата?!



Цитата:
RU.OCR

Если бы я мог туда нормально писать, я бы Вас там уже замучал! Не хочется Славу напрягать...
Вы там сидите, упершись в свои форматы и переливаете из пустого в порожнее, расширяя ветки рассуждений на непомерную глубину с разговорами не относящимися к заголовкам темы...
Чего стоят "бредни" про сноски - мой вариант послеабзацных сносок Вас там не устраивает, т.к. DOCу это не подходит... Да мои сноски в любом формате одинаково выглядят, при конвертировании из формата в формат ничего не надо в них править, а Ваши DOCовские сноски привязаны к разбивке текста на страницы и при преобразовании к нестраничным форматам всё надо править...
Вы не хотите принимать факт, что в эл.книгах нет понятия страницы. Там текст непрерывно идет - экран не полистаешь, его можно только скролить... А деление эл.книг на страницы чисто искусственное.
(только не надо тут рассуждать про номера страниц бумажной книги! простым читателям эти номера пофиг)



Цитата:
Потом отсканил на 600 dpi, ошибки исчезли. Самое интересное - отсканил на 300 dpi в ФР, где стоят опции "Очищать от мусора" и "Делить разворот книги" и все вернулось в нормальное русло. Совершенно нормальные сканы, никаких ошибок в djvu,

http://zpdd.chat.ru/files/djvutest.rar - это и сканилось в 300 и с этими опциями! Поэспериментируй, пожалуйста...

Я уверен, что 99% людей, которые захотят делать что-то в djvu, будут сканить в 300dpi,
а потом с опциями по умолчанию сделают djvu в Соло или ДокЭкспрессе.
Ну и сколько уже наделано таких книг в инете? Вы их переделаете? Нет - вот так и останутся с мусором и еще столько же насканят...
И я не знаю, какие еще могут быть искажения в djvu, раз уже видны эти "и-н"...

Если мало ошибок формата, так сходите к Вадиму Ершову в гостевую или спросите В.Сачкова - насколько удобен формат djvu для незрячих. Если для обычных текстов им доступны всякие Говорилки, то вот djvu им абсолютно закрыт...

Ну а про размер книг в этом формате и говорить нечего (тут подумайте, как Вас будет поносить диалапщик, захотевший скачать файл djvu)...


estimated

Цитата:
перевести 6-м Акробатом в PDF

Кстати, разработчики говорят, что в ФР8 будет режим сохранения в PDF картинками...
Автор: dmitin
Дата сообщения: 16.12.2004 04:05
ZZmiy
(устало: ) опять двадцать пять...
Предложите лучший формат для отсканенной физматлит, чем дежавю.
Никто не спорит, что если есть вагон времени, то худлит лучше распознавать, спеллчекать и сохранять в RTF/DOC/HTML.
Автор: ZZmiy
Дата сообщения: 16.12.2004 12:47
dmitin
(устало: ) опять двадцать пять... (c) dmitin

Цитата:
Предложите лучший формат для отсканенной физматлит, чем дежавю.

Ага - "Комнатные растения в интерьере" - это физмат? Все стремятся влепить любую книгу в djvu...
Какой формат - не знаю, т.к. PDFы на 70М тоже никого не устраивают...
А Tex (формат) мало кто знает и использует...

Цитата:
И я не знаю, какие еще могут быть искажения в djvu, раз уже видны эти "и-н"...

И уж тем более на таких точных текстах как физматлит.
Искаженная хим.формула может привести к отравлению, а то и взрыву!

На разных форумах/гостевых больше всего вопросов возникает именно - чем читать djvu, как перевести в нормальный формат, и книги просят найти в каком-нибудь нормальном формате, особо отмечая не предлагать djvu...
Автор: ghosty
Дата сообщения: 16.12.2004 12:57
ZZmiy
Ты бы лучше по делу что-нибудь спрашивал, чем флейм разводить. У тебя, ИМХО, вопросов должно быть много.

Цитата:
На разных форумах/гостевых больше всего вопросов возникает именно - чем читать djvu, как перевести в нормальный формат, и книги просят найти в каком-нибудь нормальном формате, особо отмечая не предлагать djvu...

Главное - доверие к тем людям, которые эти книги пишут и к тем, кто их издает, публикует. Здесь, например, есть атмосфера взаимного доверия и желание делать лучше. И этого достаточно на данный момент.
Автор: romanef
Дата сообщения: 16.12.2004 15:38

Цитата:
И кто запрещал Роману сделать эту книгу в нормальном формате? Или сделано в djvu ради очередной рекламы формата?!


1. Эту книгу делал не я. Ясно же написано: "djvued by Орхибед <canmosэтмейлру>"

2. Распознавать нехудожку - нет уж, увольте! Ну нет у меня СТОЛЬКО свободного времени, чтобы сканировать, распознавать, а ПОТОМ ЕЩЕ И ВЫЧИТЫВАТЬ. Тем более, ЭТА книга не стоит того, чтобы тратить время на распознавание.

3. Ошибки - "и"-"н" - это редко встречающийся баг в дежавю, который стал почти что фичей.

4. Резюме - нет сейчас замены djvu В ЕГО ОБЛАСТИ ПРИМЕНЕНИЯ.

5. Все форматы, требующие распознавания - "коварнее", чем DJVU, так как к
непредсказуемым ошибкам распознавания прибавляются непредсказуемые ошибки человека - аутентичность книги резко падает до нуля.

Добавлено

Цитата:
Или сделано в djvu ради очередной рекламы формата?!


забыл добавить - если уж так не нравится дежавю, так возьмите файл
и распознайте и выложите в сеть.

можно считать дежавю форматом распространения по сети сканированных изображений, читать с экрана файлы необязательно ))))
Автор: xalex
Дата сообщения: 16.12.2004 15:58
romanef

Этими вашими "фичами" недовольны даже на ru.ocr !!! :

"Люди, большая пpосьба - смотpите хоть немножко на pезультат своего тpуда.
Задолбало уже мусоp из инета выкачивать... Ж8-ЕЕ

Особенно это к тебе относится, Роман. Твои дежавюшки иногда пpосто
пpиходится выкидывать ввиду полной нечитабельности.
...
Это уже не книжка, а объемно-массовый муляж книжки..."

"понимаю... Важен не pезультат, а увлекательный пpоцесс... Что ж, вопpосов нет."

http://groups.google.com/groups?
hl=ru&lr=&th=cbfef9ba4a4568b1&seekm=1097680309%40p19.f42.n5005.z2.ftn&frame=off
Автор: dmitin
Дата сообщения: 16.12.2004 16:31
ZZmiy

Цитата:
А Tex (формат) мало кто знает и использует...

При чем тут TeX? TeX - отличный формат для набора физматлит. Кому надо - тот использует.
Сам только его и юзаю.
А как перегонять сканы в ТеХ? Распознавание математики - дело будущего.
Так что альтернативы дежавю тут пока что нет.

А с распознанием НЕфизматхимлит дело в том, что это должен делать только спец в тематике данной книги (и тратить свое время... )

Так что кому принципиально не нравится дежавю, могут обзаводиться выделенкой или ходить в читальный зал библиотеки
Автор: estimated
Дата сообщения: 16.12.2004 16:57
romanef

Цитата:
Все форматы, требующие распознавания - "коварнее", чем DJVU

В общем-то, djvu и (вообще JBIG2) тоже по сути представляет собой OCR (или препроцессинг OCR - как кому нравится), т.е. из общего поля точек выделяются области - графические примитивы, затем ищутся подобные образы, составляется каталог этих образов и фиксируются координаты их местонахождения на странице. Этот "каталог" - по сути дела является эквивалентом компьютерного шрифта - т.е. пронумерованного набора графических образов.

Думаю, что сам принцип JBIG2-образного кодирования без сомнений является самым оптимальным для хранения изображений с повторяющимися символами (идеальный объект - отсканированная книга), по крайней мере что касается монохромных изображений. (Что касается полутоновых - там добавляется своя отдельная проблематика разделения изображения на слои, в первую очередь нас интересует выделение монохромного текста и полутоновый фона. Текст затем сжимается по JBIG2-подобному алоритму, а фон - по JPEG-подобному. Плюс добавляется обработка слоев: resize, blurring и т.п.)

Так что, если все с этим в целом согласны, то предлагаю сосредоточиться, как уже предложил ghosty, на рассмотрении конкретных приемов сжатия и решения в данном случае проблемы "и/н".

Конкретная задача:
скачайте этот архив http://zpdd.chat.ru/files/djvutest.rar , зайдите внутри него в папку A, возьмите эти 6 файлов: A010.tif, A012.tif, A013.tif, A017.tif, A023.tif, A024.tif
и сделайте из них djvu, чтобы размер был не более 60 kb и чтобы "и" и "н" не менялись местами (для того, чтобы это проверить, достаточно посмотреть на несколько первых строчек первой страницы получившегося djvu.) Пока приемлемого результат удается достигнуть лишь на уровне 90 kb.
Да, из тифов-исходников надо предварительно убрать thumbnails, созданные FineReader'ом. Для этого можно использовать IrfanView.

ZZmiy

Цитата:
в ФР8 будет режим сохранения в PDF картинками...

Т.е. добавить функцию преобразования (форматированого) текста в картинку? Это имелось ввиду? На всякий случай замечу, что тот pdf, который я делал, состоит из одних картинок.
Автор: romanef
Дата сообщения: 16.12.2004 17:22

Цитата:
Этими вашими "фичами" недовольны даже на ru.ocr !!! :


я как-то кроме благодарностей пока ничего не получал.

а это письмо от Саши Лушникова я прекрасно знаю.


Цитата:
Особенно это к тебе относится, Роман. Твои дежавюшки иногда пpосто
пpиходится выкидывать ввиду полной нечитабельности


да, на некоторых книгах у меня есть "брак" - сьедены номера формул и индексы.

после начала использования букресторера и сканкромсатора этих ошибок уже нет.

пересканировать эти книги не могу, книг уже нет.

то, о чем Саша пишет - это 150 dpi, да еще и в цвете.
такие книги есть в сети, но не на моем сайте.

Страницы: 12345678910111213

Предыдущая тема: Sockscap


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.