Ru-Board.club
← Вернуться в раздел «Программы»

» Сканирование и оцифровка текста *.txt, *doc, *.pdf, *.djvu

Автор: asdfg2003
Дата сообщения: 28.06.2004 10:26
bolega
в старом кром. очень не хватает более интеллектуальной очистки от черных полос по краям страницы..бегунки для обрезания хорошо работают если размер полей (линия начала текста) на всех страницах примерно одинакова, но вот если скажем на одной поле 10 см а на другой 30см с величиной черной полосы в 20 см, то бегунок приходится сдвигать в ручную, при большой неоднородности страниц по полю это очень уж утомительная операция..вот бы сделать функцию, где разделительная линиия автоматически пыталась определить границу между черной полосой и началом текста
и тоько где полоса наезжает на текст ставить в ручную..как с этим в новой версии?
Автор: Dickobraz
Дата сообщения: 28.06.2004 11:48

Цитата:
как идет развитие ридера для *.djvu от Dickobraz?


Повторю bolega


Цитата:
Идет подготовка новой версии, терпение.
Слишком много нового.


Автор: bolega
Дата сообщения: 28.06.2004 12:46
asdfg2003
Если имеется ввиду draft-kromasate (автоматическое определение контуров текста и черновая расстановка резаков), то дела обстоят намного лучше.

Автор: asdfg2003
Дата сообщения: 28.06.2004 16:48
bolega
да именно это..ждем с нетерпением...
Автор: amv
Дата сообщения: 29.06.2004 02:50
Одно соображение о задежавючивании чёрно-белых (1 бит/пиксель) сканов
Для ч/б картинок есть два формата с большой степенью сжатия:
CPC
DJVUDJVU бывает lossless и lossy, у lossy степень сжатия значительно выше, но при таком сжатии всё же пропадают очень тонкие детали и иногда случаются существенные ошибки, например, путаются буквы "и" и "н" и т.п.

CPC сжимает лучше, чем DJVU-lossy и никакой видимой на глаз порчи оригинала не происходит. (Однако этот формат не является lossless. Авторы используют термин nondegrading.)
Недостаток CPC в том, что он не так удобен и прывычен в использовании, как DJVU.

Хотелось бы соединить достоинства двух форматов. Можно поступить так: возьмём tiff, полученный сканированием, и осуществим конвертирование tiff --> cpc --> tiff (лучше повторить этот цикл 2-3 раза, tiff при этом стабилизируется). Если теперь задежавючить полученный tiff в режиме lossless, он окажется примерно того же размера, что djvu-lossy от исходного tiff! (Можно, конечно, и после cpc применить djvu-lossy, но разница будет не очень велика, так что не стоит жадничать ).

Пример:
Исходный tiff (32 стр., 300dpi): 1117K
От него djvu-lossless: 570K, djvu-lossy: 172K
После tiff-cpc-tiff циклов, djvu-lossless: 127K
(djvu делалось через djvu-solo3.1,
lossy означает конфигурацию по умолчанию (т.е. normal=true, pages-per-dict=10)
lossless означает lossless=true, pages-per-dict=10000)).
(Если интересно, размер cpc: 92K)

Пара соображений:

То, что cpc жмёт лучше djvu не должно очень удивлять, cpc -- формат только для чёрно-белой графики, djvu -- в большей степени для цветной.

Вообще, наверно, в описанном трюке особой мистики нет. Если вместо cpc использовать djvu-lossy, будет тот же эффект (в плане размера, смысл, конечно, исчезнет ).
CPC (как и любой не совсем lossless метод) сжимает за счёт удаления структур очень похожих на уже встречавшиеся, при восстановлении cpc-->tiff, эти очень пожие структуры становятся одинаковыми и теперь уже могут использоваться lossless-методом...
Автор: xalex
Дата сообщения: 29.06.2004 06:25
amv

Цитата:
lossy означает конфигурацию по умолчанию (т.е. normal=true, pages-per-dict=10)

А какой будет размер, если выставить agressive=true ?

Попробовал - путает "c"/"e".

За читалку просят денег, алгоритм засекречен - не вдохновляет как-то.


Цитата:
После tiff-cpc-tiff циклов, djvu-lossless

А смысл ? Исходный CPC все равно меньше по размеру.
Автор: amv
Дата сообщения: 29.06.2004 07:27
xalex
Цитата:
За читалку просят денег, алгоритм засекречен - не вдохновляет как-то.
Да Поэтому его вряд ли стоит использовать в окончательном файле. Но если с его помощью можно на выходе получить лучший djvu -- почему не использовать? Читалка тогда не нужна (кстати, есть бесплатная light версия).
В плюс CPC то, что в нём хранятся сканы www.jstor.org -- можно предположить, что протестированная технология...

Цитата:
Цитата:
После tiff-cpc-tiff циклов, djvu-lossless
А смысл ? Исходный CPC все равно меньше по размеру.
В конце хочется djvu -- у djvu есть хорошие, быстрые, свободные/бесплатные и распространённые смотрелки, и формат открытый, и ocr, и тот же формат годится для цветных файлов.
Автор: xalex
Дата сообщения: 29.06.2004 07:59
amv

Цитата:
кстати, есть бесплатная light версия

Она не совместима с последними версиями IE.
Автор: amv
Дата сообщения: 29.06.2004 16:59
xalex
Цитата:
Она не совместима с последними версиями IE.
Правда... Но она и не нужна, если использовать cpc только для "улучшения" tiff'а перед задежавючиванием.
Кстати, конвертор tiff-->cpc имеет ограничение в 1000 стр., под Linux оно символическое, в Windows я не разбераюсь, надеюсь, что тоже не проблема...
По модулю этой глупости конвертор удобный и быстрый.
Автор: castleofmusic
Дата сообщения: 10.07.2004 12:20
amv
спасибо за указание на формат CPC. Вот сейчас я попробовал им воспользоваться. Результаты действительно интересные. По-видимому CPC - это какой-то оптимизированный JBIG2 encoder с домашними разработками.

Исходный файл: 186 стр. TIFF : 11.8 MБ. Скан 300 дпи, чёрно-белый, как почти все мои сканы. Оригинал нормального качества. Под пингвиновозом ограничение конвертора CPC<->TIFF на 1000 страниц тривиально преодолимо (пишется shell script на 3 строчки).

TIFF-> cjb2 (page by page) -> lossless djvu: 6.3 MB
TIFF-> cjb2 -lossy -clean (page by page) -> lossy djvu: 2.3 MB
TIFF -> any2djvu (no OCR, all pages at once) -> lossy djvu: 1.65 MB*
TIFF -> CPC (page by page) -> lossy CPC: 1.55 MB
TIFF -> CPC (all pages at once) -> lossy CPC: 1.66 MB
TIFF -> CPC (page by page) -> TIFF -> cjb2 (page by page) -> lossless djvu: 2.11 MB**
TIFF -> CPC (page by page) -> TIFF -> cjb2 -lossy -clean (page by page) -> lossy djvu: 1.95 MB**
TIFF -> CPC (page by page) -> TIFF -> any2djvu (no OCR, all pages at once) -> lossy djvu: 1.54 МB**
* в этом файле на куске мелкого текста артефакт "ни" -> "нн"
** в этих файлах на куске мелкого текста найден артефакт "она" -> "оиа"
зрительно, качество текста почти не изменилось. (не считая артефакта)
вывод: в общем стоит пробовать CPC.
Автор: estimated
Дата сообщения: 12.07.2004 13:56
Есть пара вопросов, может кто сталкивался.

Есть старый djvu, в котором один словарь на каждые десять страниц. Как переделать его, чтобы был один словарь на весь документ?

Перепаковку делать не хочу, т.к. документ grayscale, и во-первых пакуется очень долго, а во-вторых, там ведь все слои, кроме foreground, сохраняются с jpeg-подобным сжатием, боюсь, что при перепаковке Solo будет пытаться сохранить артефакты этого сжатия, что только ухудшит соотношение качество/размер. Хотя, может это напрасные опасения?

Кому интересно, параметры относительно словаря выставляю так:
profiles\documenttodjvu.conf -> раздел "H-normal-quality:" -> параметр "pages-per-dict=10000"
Так он действует на все битональные/серые картинки.


Еще один вопрос, связанный с предыдущим.
Заметил, что при перестановке страниц местами в DjVu Solo, размер документа вырастает, т.к., как я установил, перемещенные страницы теперь сохраняют всю информацию в себе, без ссылки на словарь. Причем, это происходит даже в тех случаях, когда на весь документ только один словарь!

Например свойства страницы (всего в документе в 581 страница):
До перемещения: 0.0 Kb 'INCL' Indirection chunk (581_0001.djbz).
После перемещения: 163.0 Kb 'Djbz' JB2 shape dictionary (7257 shapes).

Как заставить страницы сохранять ссылки на словарь?
Автор: Cheburashka
Дата сообщения: 12.07.2004 16:02
Решил немного написать про подготовку изображений для упаковки куда бы то нибыло
1. Сканируем как удобно странички и уклабываем каждую отдельным файликом в bmp с возрастающей нумерацией
2. Запускаю фотожопину и:
а. Для картинок убираю растр. Т.е. отдельно ручками выделяю картинки и размываю их до исчезновения растра. Если этого не делать картинки смотрятся при увеличении достаточно погано да и сжать их хорошо не получится
б. Текст который выделен отдельно обрабатывается до чёрно белого состояния. Во первых если потом распознавать это существенно снижает количество ошибок. А во вторых текст без картинок можно сохранять двухцветным что тоже существенно уменьшает размер.
в. Делаю в фотожопе Action который выполняет все вышеперечисленные действия. И запускаю его на выполнение для директории. Ручками я только выравниваю страничку и выделяю картинки если таковые есть.

В результате обработки получаю файлы со страничками которые корректно повёрнуты (FR например ворочает картинки некорректно. Можете попробовать сеточку отсканенную криво повернуть в FR да и ворочать чёрнобелое не есть гуд.) Во вторых легко распознаются практически без ошибок и в третьих имеют минимально возможный размер для графики без сжатия.

3. Обычно распознаю в FR и сохраняю в PDFину. Этот формат мне больше нравится. Картинки обычно оставляю в разрешении 300dpi это позволяет при печати получать практически оригинальное качество.
Автор: andrejka k
Дата сообщения: 19.07.2004 11:25
Привет All. При сохранении djvu-файла с помощью Djvu Solo 3.1 появляется "Compression Dialog", содержащий 4 опции: Scanned, Photo, Clean, Bitonal. Разъясните, пожалуйста, кто-нибудь назначение и целесообразность использования каждой из этих опций. Что нужно выбрать для сканированных черно-белых тифов?
Вторая часть вопроса касается lossy и lossless. Есть ли общепринятое мнение, что считать lossy, а что lossless. Как я понял, все это нужно выставлять "ручками" в конфигурационных файлах. А вот конфигурация Djvu Solo по умочанию - это что??? Спасибо.
Автор: amv
Дата сообщения: 19.07.2004 12:39
andrejka k
Цитата:
Разъясните, пожалуйста, кто-нибудь назначение и целесообразность использования каждой из этих опций.
RTFM: у программы есть help: "DjVu Solo 3.1/help/index.html"
Страничка "DjVu Solo 3.1/help/encoding_settings.html" отвечает на вопрос.
Цитата:
Что нужно выбрать для сканированных черно-белых тифов?
Как говорит вышеупомянутая страница, bitonal. Tiff'ы обязательно должны быть сжаты g4, другие форматы не воспринимаются как bitonal (баг).
Цитата:
Есть ли общепринятое мнение, что считать lossy, а что lossless.
См. словарь английского языка
Цитата:
конфигурация Djvu Solo
DjVu Solo 3.1/profiles/documenttodjvu.conf
Там в конце есть раздел "BITONAL PROFILES". В нужном разрешении можно использовать
для lossless: lossless=true
для lossy:
conservative=true
normal=true (или ничего)
aggressive=true
Ещё можно добавлять опцию pages-per-dict=<value>
Подробнее об опциях написано в доке к command-line версии DocExpress:
http://www.planetdjvu.com/store/products/document_express_cle/help/whgdata/whlstt0.htm
Автор: xalex
Дата сообщения: 19.07.2004 15:30
amv

Цитата:
Подробнее об опциях написано в доке к command-line версии DocExpress:
_http://www.planetdjvu.com/store/products/document_express_cle/help/whgdata/whlstt0.htm

Можно ли как-то заставить работать в Djvu Solo/Editor
опцию "--fg-quality=<1-100>" ?
Автор: amv
Дата сообщения: 19.07.2004 15:33
xalex
Цитата:
Можно ли как-то заставить работать в Djvu Solo/Editor
опцию "--fg-quality=<1-100>" ?
Не знаю
Автор: andrejka k
Дата сообщения: 19.07.2004 21:46
amv
Большое спасибо за разъяснения. Теперь буду знать

Автор: dimasic
Дата сообщения: 20.07.2004 10:08
xalex
насколько я понимаю, многие опции там просто заблокированы.
Автор: Meaningless
Дата сообщения: 20.07.2004 18:59
Паффф....


Цитата:
Luc Vincent, Vice President of Document Imaging at LizardTech, and responsible for DjVu software development, has resigned effective the end of June, 2004. Three other employees have reportedly resigned as well, representing perhaps 15% of the company staff.


15%.. хех...


Цитата:
Luc was the last of the DjVu format authors at LizardTech, having co-written several technical publications on the DjVu format with the other format authors.
...............
All of this is just cause for concern for the future of the DjVu file format




Добавлено
Ню... и как у нас с бесплатной версией JRA Publish :)
Автор: andrejka k
Дата сообщения: 20.07.2004 21:34
Привет.
При конвертировании тифов, находящихся в одной папке, с помощью команды
CPCTool-5111-Win32-X86.exe *.tif -o output.cpс
получил, как и ожидалось, файл output.cpс.
А вот можно ли сделать, так сказать обратное преобразование, чтобы теперь из output.cpс получить ОРИГИНАЛЬНЫЕ ОДНОСТРАНИЧНЫЕ тифы (т.е. столько, сколько их было в самом начале)? В принципе, с помощью
CPCTool-5111-Win32-X86.exe output.cpc -o *.tif
получим ОДИН МНОГОСТРАНИЧНЫЙ тиф, что не совсем удобно для последующего разбиения на ОТДЕЛЬНЫЕ страницы.
Конечно, можно было бы в самом начале написать
CPCTool-5111-Win32-X86.exe -b *.tif
и потом также в пакетном режиме конвертнуть обратно, т.е. сделать всё так, как и хотелось; но раз уж сразу начал через задницу, может все-таки возможно как-нибудь исправить ситуацию
Спасибо.
Автор: kvk
Дата сообщения: 21.07.2004 03:36
andrejka k
сплит для тифов не проблема, но я по ленности кромсатором пользуюсь.
Удачи
Автор: andrejka k
Дата сообщения: 21.07.2004 09:53
kvk
Да я и сам только что обнаружил, что Кромсатор поддерживает многостраничные тифы. Очень удобно. Интересно, а почему меняется размер тифа до преобразования в cpc и того же тифа, но только уже извлеченного из cpc? Более оптимальный алгоритм конвертирования???
Автор: kvk
Дата сообщения: 21.07.2004 12:11
andrejka k
это уже неоднократно обсуждено (возможно в книжном топике). там скорее всего jbig2 при преобразовании в cpc очень похожие кусочки заменяются на один те становятся одинаковыми, что и уменьшает размер тифа (если он жатый конечно).
Удачи
Автор: estimated
Дата сообщения: 11.08.2004 15:33
Напомните, как из многостраничного DJVU (grayscale) сделать DJVU (bitonal) - т.е. сохранить только черно-белые картинки без фона?
Автор: castleofmusic
Дата сообщения: 14.08.2004 12:29
estimated
мне кажется, этого сделать нельзя без полного преобразования в ч-б битмэпы и затем обратно в дежавю.
по крайней мере, у меня ничего не получалось с попытками просто "убрать" серую информацию из дежавю-файла. может, это как-то делается средствами djvulibre, но я не знаю, как.
Автор: Dickobraz
Дата сообщения: 16.08.2004 07:46
DjVuReader версия 2.0.0.13 от 15 августа 2004.
http://opendjvu.nm.ru
Автор: DOE_JOHN
Дата сообщения: 17.08.2004 23:13
Я в этом деле , попробовал в DjVuSolo собрать в один файл журнал в gif (300dpi Photo). Результат меня поразил размер файла метров 30 против 10 метров (папка с gif) . Хотя есть журналы по 5-7 метров номер, с компакта. Need help, please.
Автор: estimated
Дата сообщения: 18.08.2004 00:12
DOE_JOHN: вместо "Photo" выбери "Scanned" в DjVu Solo. Надеюсь, результат тебя опять поразит, но на этот раз уже приятно
Кстати, изображения-то какие? Цветные, градации серого или черно-белые? И сколько страниц в одном журнале?
Эти gif'ы получены путем сканирования бумажных источников или другим путем (напр. напрямую из электронных оригинал-макетов)?
Ответы на эти вопросы помогут выбрать наиболее оптимальный способ конвертации в DJVU.
Автор: DOE_JOHN
Дата сообщения: 18.08.2004 23:13
estimated Журнал Радио с компактов. 1995-2002 там часть в djvu, а часть в gif (CompuServe GIF, colors 4). И вообще они там схалтурили. Некоторых номеров нет, в некоторых номерах не хватает страниц. Хотел пережать в djvu. В Scaned заметно страдает качество. В номерах которые уже в djvu Compression ratio: 271, а у меня Compression ratio: 15.
Автор: max67
Дата сообщения: 19.08.2004 00:03
Dickobraz
Вах, тысячи благодарностей за новую версию ридера.
Есть ли планы ещё чего-нибудь к нему привинтить?

Страницы: 12345678910111213

Предыдущая тема: Sockscap


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.