Ru-Board.club
← Вернуться в раздел «Программы»

» ScanKromsator СканКромсатор (Часть 3)

Автор: AlVaKo
Дата сообщения: 16.01.2013 12:01
2 MrLAG

Такой djvu скорее всего получен в результате конвертирования оригинального(издательского) pdf в djvu, с использованием виртуального принтера.
Через кодирование DEE(documenttodjvu) подобного качества врядли можно добиться.

Вот что у меня получилось. Из файла source.djvu, в программе Document Express Editor, экспортировал 5-12 страницы в TIFF. А затем закодировал через msepdjvu.exe, он используется в виртуальном принтере.

Результат без текстового(OCR) слоя. http://files.mail.ru/612A1DCC35AD429FB617180B336DA89C
размер файла 90 кбайт

UPD
Посмотрел ваш вариант кодирования. Что-то перемудрили в профиле, много элементов текста в фон ушла, от этого и размер большой получился.
Автор: MrLAG
Дата сообщения: 16.01.2013 22:18
Да действительно, Ваш вариант выглядит так как надо! Тогда я мог бы обработать книгу над которой бьюсь раскрасив зоны в СК, а потом сжав виртуальным принтером. А не напишите мне в ПМ по подробней где взят и как пользоваться, если Вам не сложно?
Автор: bolega
Дата сообщения: 02.02.2013 00:08
shch_vg
Вы еще занимаетесь обработкой?
Я наконец-то сделал фичу, о которой Вы просили: возможность кодировать часть страницы индивидуальным профилем, например, lossless. Причем под частью понимается не только pic-зона, но и заданный (произвольный) участок страницы. Это очень полезно, т.к. если у вас уже есть обработанные файлы (т.е. out-задание), то не нужно будет снова обрабатывать его, достаточно просто пометить участки, которые будут кодироваться особо и запустить команду создания djvu. Кроме этого, для таких участков можно задать также раскраску. Другими словами, параметры таких участков (или готовых pic-зон) предназначены для djvu-кодирования, а не для обработки. Осталось доделать то же самое для pdf.

Заодно реализовал возможность малоцветного кодирования в djvu цветных зон. Собственно квантование цветов (уменьшение их кол-ва до заданного минимума) тоже реализовал, но как правило это задача автоматически решается плохо, нужно предварительно особым образом обрабатывать зоны (увеличивать однотонность, убирать шум и т.д., причем скорее всего в сторонних программах, а не в СК), чтобы квантование приводило к хорошему результату.
Доделал также диалог создания djvu: параметры кодирования (главным образом - color-зон в случае использования МПФ-метода подклейки, Low-color-зон и special-djvu-profile-зон) можно при необходимости задавать индивидуальными для разных страниц. Кроме того, все параметры djvu-визарда сохраняются в файл задания. Находясь в djvu-визарде, можно там же вызвать стандартный диалог свойств любой зоны путем щелчка мышкой на ней в панели Preview страницы.

Когда-то тут задавали мне вопрос, почему для создания pdf и djvu нужно делать out-задание. Теперь я готов на него ответить: именно из-за возможности задать участки (зоны) с параметрами раскраски или особого профиля djvu-кодирования. Иногда раскраску (текста или фона) гораздо удобнее задавать на уже обработанных (почищенных и выравненных) страницах, чем на исходных перекошенных. Как и ранее, для обычных зон, поддерживается градиентная заливка фона и скругление углов зоны.
Автор: Torino
Дата сообщения: 02.02.2013 08:34
Олег, приветствую!
Хорошая новость, что вы не забросили проект.
Все же для сложных исходников ваша программа вне конкуренции.
Автор: bolega
Дата сообщения: 02.02.2013 11:02
Torino
Да, к сожалению, только для сложных
Автор: Gazoved
Дата сообщения: 02.02.2013 12:14
Лично я использую для всех сканов, единственное, что немного хочется возможной поддержки многоядерности, но пока это обхожу запуская несколько копий SK с разными заданиями. Очень хочется увидеть поддержку авто или полу-авто выделения картинок.
Автор: shch_vg
Дата сообщения: 02.02.2013 13:47
bolega

Цитата:
Вы еще занимаетесь обработкой?

Практически нет, но проверить возможность отдельного кодирования могу.
Вкратце опишу причину необходимости этого.
Была шахматная книга отличной полиграфии, содержащая множество диаграмм и черно-белых фото, но...
При попытке обработать диаграммы аналогично тексту терялись мелкие детали черных полей, которые были штриховые. Поэтому приходилось их (диаграммы) обрабатывать через черно-белые picture-зоны со своими свойствами. На выходе СК получался очень достойный результат.
Однако проблемы возникали при попытке дежавюировать эти сканы.
В зависимости от профиля либо были хороши фото, а терялись мелкие детали черных полей диаграмм, либо удавалось эти детали сохранить за счет резкого увеличения размера дежавю.
Поэтому у меня появилась эта идея раздельного кодирования диаграмм и фото, которая на тот момент не могла быть реализована.
Если сделанное Вами способно решить эту проблему, то я готов ее проверить.
Но на мой взгляд это все-таки довольно редкий случай применения.
Жаль, что так и не удалось решить один из главных (на мой взгляд) вопросов обработки шахматной (и не только шахматной) литературы.
Я имею в виду автоматическое создание зон вокруг диаграмм и фото, которое реализовано в СТ. Вот эта фича резко бы увеличила скорость обработки большинства шахматных книг.

Добавлено:
bolega

Цитата:
Да, к сожалению, только для сложных

С этим я не согласен!
Для качественной обработки БОЛЬШИНСТВА шахматных книг СТ недостаточен.
Конечно, книгу можно будет обработать в СТ, но качество обработки диаграмм будет заметно хуже, т.к. в плане самостоятельной обработки зон СТ нулевой (нет в нем возможности задавать отдельные свойства зон.
Честно говоря, я бы так и не сподобился познакомиться с СТ, если бы не поразительное (для меня) открытие. Почему-то обработка по умолчанию одних и тех же сканов в СТ и СК дает в СТ меньший размер. Подбирая свойства обработки в СК, мне удавалось выйти на аналогичные размеры, но это требовало достаточно трудоемкой работы, в то время как в СТ это было по умолчанию.
Но когда встал вопрос о качественной обработке диаграмм, то у меня не было сомнений, какую программу нужно использовать.
Автор: ghosty
Дата сообщения: 02.02.2013 15:07
bolega
shch_vg
Действительно полезная фича. Я тоже с этим сталкивался - требовалось перевести в DJVU книги, содержащие текст и гравюры - гравюры однозначно в лосслесс.

Добавлено:

Цитата:
Да, к сожалению, только для сложных

Тоже не согласен. Универсальный комбайн абсолютно для всех случаев.
Автор: shch_vg
Дата сообщения: 02.02.2013 16:07
ghosty

Цитата:
требовалось перевести в DJVU книги, содержащие текст и гравюры - гравюры однозначно в лосслесс.

Так для этого достаточно раздельного кодирования, что уже давно реализовано.
Автор: ghosty
Дата сообщения: 02.02.2013 16:28
shch_vg

Цитата:
Так для этого достаточно раздельного кодирования, что уже давно реализовано.

Так гравюры-то - они ж ЧБ, точнее 1-битные - так же как и Ваши шахматные схемы, только намного сложнее.

Кстати, ранее я предлагал точно так же кодировать фотографии, отпечатанные "1-битным" способом, но получилось, что это не реализуемо на практике - почему, не помню Проще полностью избавиться от растра и перевести в полутона...
Автор: Torino
Дата сообщения: 02.02.2013 16:38

Цитата:
Почему-то обработка по умолчанию одних и тех же сканов в СТ и СК дает в СТ меньший размер.

Судя по всему, СТ сглаживает итоговый результат (аналогично функции C.Smooth в SK).
При этом в СК я этой функцией боюсь пользоваться, т.к. возможен непредсказуемый результат.
В СТ для хороших сканов это приводит к улучшению сжатия и удобочитаемости шрифта, НО большиство плохих исходников НЕВОЗМОЖНО обработать в СТ благодаря этому, т.к. информация невозвратимо искажается и отключить это НЕЛЬЗЯ (в т.ч. играясь порогом бинаризации).
Буквально неделю назад я обработал в СК (low_dpi + JPG + DJVU) скан.
Пришлось конечно помучиться с выделением зон, настройками.
Но результат получился просто потрясающий.
Так что обработав в СТ 10 книг, приходит 11-я, которая полностью возвращает веру в СК )
Автор: ghosty
Дата сообщения: 02.02.2013 16:46
В целом, СТ стал несколько более популярен исключительно из-за того, что был заточен под ~60% книг, не позволяя при этом лезть в настройки. Для тех, кто имеет дело исключительно с новыми (и желательно зарубежными) книгами, подойдет прекрасно. Для российских реалий мало подходит
Автор: VadimirTT
Дата сообщения: 02.02.2013 20:49
Без SK не было бы ST!
Я ST не никогда не пользовался, мне в повседневной жизни достаточно и SK .
Помню, только раза с третьего я смог получить результат, который меня не то что устроил, а просто привел в восторг, но для этого понадобилось просто чудо и интуиция, чтобы догадаться как настроить SK.
А с ST люди не "паряться", и это тот плюс, который перевешивает все остальтное для новичков сканирования.
Автор: ghosty
Дата сообщения: 04.02.2013 12:26
Накопилось несколько вопросов.

1) По навигации - при попытке перемещаться по списку страниц с помощью кнопок со стрелками (Up-Down) перемещение происходит без обновления изображения страницы. У меня обновление происходит только при использовании колеса мыши. Это фича или бага?
2) Какова логика работы Page h./v/ align = A? В одних случаях это "А" правильно определяет ориентацию блока текста относительно страницы. В других случаях может ошибиться во всей книге - например, сдвинув все блоки текста вверх (как если бы значение было "Т").
3) Соответственно, можно ли после обработки без "финализации" массово заменить, например, Page v. align с "А" на "В"?
4) Если я нахожусь в режиме PR и нажимаю кнопку "Свернуть окно", то в следующий раз, когда я его разворачиваю, попадаю в окно основного режима, где ничего не функционирует.


Спасибо.
Автор: Benoni
Дата сообщения: 04.02.2013 20:08
И у меня несколько вопросов-пожеланий.
1) Для скроллинга страницы в RV желательно задействовать кнопки с стрелками.
2) Работаю в Result view (RV) c, скажем, 7 тиффом. На время нужно вернуться к 3 тиффу. Открываю вниз раскрывающее меню страниц и выбираю 3 тифф. Там скопировал все, что нужно и возвращаюсь к 7 тиффу. Каким способом? Опять открываю вниз раскрывающее меню страниц и выбираю 7 тифф. А желательно было бы иметь кнопку возврата.
3) Нужен свой буфер обмена.
4) Добавить несколько Hotkeys для пункта Tools/Rotate&save...
Автор: bolega
Дата сообщения: 06.02.2013 09:18
ghosty

Цитата:
1) По навигации

Баг. Исправил.

Цитата:
2) Какова логика работы Page h./v/ align = A?

Никакой А эквивалентно T. Так повелось с 1-й версии, хотя задумка какая-то была, но уже не вспомню.

Цитата:
3) Соответственно, можно ли после обработки без "финализации" массово заменить, например, Page v. align с "А" на "В"?

Можно. Если финализация не сделана, то можно менять расположение, поля, размеры книги и это сраpу же применяется. Это можно делать даже в окне VR.

Цитата:
4) Если я нахожусь

Иногда такое и у меня бывает. Не нашел пока как с этим справиться. Обхожу так: в статус-баре windows вызываю контекстное системное меню и выбираю команду "восстановить".

Benoni

Цитата:
1) Для скроллинга страницы в RV желательно задействовать кнопки с стрелками

Files->Options->VR->Special keys used for = image scroll

Цитата:
А желательно было бы иметь кнопку возврата

backspace

Цитата:
3) Нужен свой буфер обмена

Уже сделал. Назвал glyph library.

Цитата:
4) Добавить несколько Hotkeys для пункта Tools/Rotate&save

Зачем несколько? Диалог то один. Могу предусмотреть для вызова этого диалога.

Автор: Gazoved
Дата сообщения: 06.02.2013 09:24
Может кто-нибудь помочь // разъяснить?
Если в режиме RV до финализации (когда зона текста выделена оранжевым цветом) нажать «Ctrl+D» (удаление спеклов), то после перехода на следующую страницу и возвращения обратно блок текста съезжает в правый нижний угол. Это баг или применение «Ctrl+D» не подразумевается на стадии до финализации или я что-то не так делаю?
Автор: Benoni
Дата сообщения: 06.02.2013 11:02
bolega, спасибо!

Цитата:
Могу предусмотреть для вызова этого диалога.
Пожалуйста.
Ждём следующую версию СК!
Автор: Torino
Дата сообщения: 06.02.2013 12:37

Цитата:
Уже сделал.

Олег, раз пошла такая пьянка )))
Вы не могли бы добавить в VR плавающий тулбар, с девятью кнопками, определяющими Page v/h align.
Автор: bolega
Дата сообщения: 06.02.2013 14:03
Gazoved
Это баг. В том смысле, что в режиме, когда не завершена финализация, СК не должен позволять редактировать содержимое страницы (чистить и т.д.). Вроде все заблокировал, а деспекл забыл. Исправил.
Кстати, если подсветка выделения габаритов страницы не нравится, нажмите пробел. Останется только выделение. Если еще раз нажать, то габарит вообще будет скрываться, и видно будет только то, что в него не попало. Если еще раз нажать пробел, то вернется подсветка.

Torino
А что означает центр. кнопка? Есть ведь выравнивание по центру горизонтальное (наиболее частое), выравнивание по центру вертикальное, и оба вместе. А кнопка одна...
Автор: Torino
Дата сообщения: 06.02.2013 14:17

Цитата:
А что означает центр. кнопка? Есть ведь выравнивание по центру горизонтальное (наиболее частое), выравнивание по центру вертикальное, и оба вместе. А кнопка одна...

Я предполагал, что это H.align=C & V.algn=C
Автор: bolega
Дата сообщения: 06.02.2013 14:21
Torino
Вообще-то довольно редкая комбинация, я бы лучше оставил как гориз. центровку
Автор: Torino
Дата сообщения: 06.02.2013 14:32

Цитата:
Вообще-то довольно редкая комбинация, я бы лучше оставил как гориз. центровку

Тогда предлагаю по правому щелчку по этой кнопке настраивать поведение этой кнопки.
Автор: leescott
Дата сообщения: 07.02.2013 15:37
ghosty

Last time ,I upload some picture of cover which I want to learn the ways to treat color image.As you raised that point,they're not quite typical ones.Now,I upload one page with text and image on.
Could you make a configuration for me?
Thanks!

https://www.box.com/s/h6eucdf5pjclesaa3cs5
Автор: ghosty
Дата сообщения: 07.02.2013 15:47
bolega
Спасибо большое за ответы. Единственный уточняющий вопрос:

Цитата:
Можно. Если финализация не сделана, то можно менять расположение, поля, размеры книги и это сраpу же применяется. Это можно делать даже в окне VR.

Все-таки как это делается? Особенно в окне VR - как, например, выделить все страницы и задать Page h./v/ align = B?


Цитата:
Никакой А эквивалентно T.

Гм, тогда удобнее было бы, наверное, по умолчанию делать "B".
Автор: bolega
Дата сообщения: 07.02.2013 22:12
ghosty

Цитата:
Особенно в окне VR

Как раз в окне VR для всех не сделаешь. Только для текущей.

Цитата:
Все-таки как это делается?

Вы меня удивляете Вроде бы как задать любую опцию для всех файлов (или для группы), все знают: при ее изменении держать нажатым ctrl (все) или alt (группа на выбор). Кроме того, в контекстном меню любой опции есть команда для присвоения текущего значения опять же всем или заданной группе.

Цитата:
Гм, тогда удобнее было бы, наверное, по умолчанию делать "B".

Мне например, нет. Для удобства опять же есть профили, задайте там для своего default-профиля "B" и будет всегда у всех bottom.
Кстати, баг с блокировкой окна VR исправил.


Автор: ghosty
Дата сообщения: 07.02.2013 22:26
bolega

Цитата:
Вы меня удивляете Вроде бы как задать любую опцию для всех файлов (или для группы), все знают:
Нет, ну это я знаю, конечно. Просто в случае режима без финализации получается не совсем очевидно. Обычно параметры страниц подлежащих обработке мы задаем в основном окне, а параметры уже обработанных страниц меняем в VR. Вот и в данном случае я был уверен, что это надо делать из VR.
Еще раз спасибо за разъяснения.
Автор: leescott
Дата сообщения: 08.02.2013 05:13
bolega
I have offered a suggestion,automarking image zones.And you seemed to agree.I'm looking forward to getting that version.
And now I have another suggestion about image zone.
I have used some OCR software,when select using rectangular,the rectangular will smartly come near text.I wish SK introduce such technique,when select image zones using rectangular,polygon,etc.
Thank you again!
Автор: bolega
Дата сообщения: 08.02.2013 07:25
ghosty

Цитата:
параметры уже обработанных страниц меняем в VR

В целом все верно. Но можно сказать, что пока финализация не сделана, обработка еще не завершена (и это правда). Поэтому часть опций обработки еще оказывает влияние на конечный результат.

leescott

Цитата:
I have used some OCR software,when select using rectangular,the rectangular will smatly come near text

You mean black&white scans?
Автор: leescott
Дата сообщения: 08.02.2013 09:52
bolega

Цитата:
You mean black&white scans?

Thanks!
I mean selecting image zones,no matter which format the file is, black&white or color.
The rectangular(polygon,etc) will smartly come near the zone from blank to actual border.The rectangular contracts inward a little.
There is an OCR software in latter website,free to use.Name is "PDF OCR"(at the bottom of page).
http://www.hw99.com/server/download.htm
Such technique can also be seen in image software,when selecting object.

Страницы: 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102

Предыдущая тема: мнение о Maxthon


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.