Ru-Board.club
← Вернуться в раздел «Программы»

» Scan Tailor: Часть 2

Автор: papaVlad
Дата сообщения: 07.02.2016 22:32
4lex4, всё-таки STA отстаёт от ST-e, причина видимо в этой разнице
http://pixs.ru/showimage/2png_9214697_20588591.png
http://pixs.ru/showimage/1png_2300074_20588588.png
нет ещё одной настройки.

Пара тестов (видео можно не смотреть, это лишь для подтверждения)

журнал 44 стр. 300 dpi, tif (без сжатия), цвет (3164х4093)
STA 3.04 - 0.21 = 2.43 мин. (3х60+4=184 - 21 = 163 сек)
ST-e 5.24 - 3.33 = 1.51 мин. (5х60+24=324 - 3х60+33=213 = 111 сек.)
видео https://yadi.sk/i/DmHNWf2-oToUC

книга 448 стр., 300 dpi, tif (без сжатия), серый (кроме 9 цветных) (1605х2659)
STA 9.58 - 0.24 = 9.34 мин.
ST-e 17.26 - 10.27 = 7 мин.
видео https://yadi.sk/i/zLmRkS9voToTw

p.s. добавлено позже

ещё один тест на той же книге в STA, с включенной верхней галкой, особого прироста в скорости не дал
http://pixs.ru/showimage/3png_9771874_20588962.png

10.09 - 0.42 = 9.27 мин.
видео https://yadi.sk/i/-b2LX8IeoTuNW
Автор: LonerDergunov
Дата сообщения: 08.02.2016 00:00

Цитата:
Портативка - приятное дополнение, не более того,

Да. Просто раз уж затевается такой глобальный шикарный форк, то предложил заодно подправить и эту мелочь.
Автор: iit512
Дата сообщения: 08.02.2016 01:40

Цитата:
iit512, обязательно, вместе с x32 для винды, но после релиза, ибо я систему сборки еще не до конца доделал.

Спасибо. Просто хотелось бы потестировать.
У меня как раз x32, если что
Автор: 4lex4
Дата сообщения: 08.02.2016 04:37
[more] [/more]

Обновление:
* Портативность: все настройки теперь хранятся в папке с программой.
* Параметр выравнивания освещенности теперь доступен для mixed режима.
* При перелистывании страницы больше не пропадают для предотвращения резких перепадов яркости.

Ссылка обновлена.

LonerDergunov

Цитата:
И портабельность хотелось бы. Зачем писать в реестр, если можно просто сохранить немногочисленные настройки рядышком в ini-файле??

Согласен, сделано.

papaVlad, это OpenCL. Трабла в том, что в experemental OpenCL работает только на новеньких видеокартах и прирост производительности от него милипизерный, потому пока не горит переносить его. Я собираюсь юзать OpenCV 3, а там OpenCL уже вшит и поддержка более широкая (и старые карточки поддерживаются), возможно переделаю функции обработки изображений под OpenCV в будущем, будет быстрее работать.


Цитата:
Всё-таки при приглушённом комнатном освещении, при различных операциях в программе, исчезновение и появление белой страницы на тёмном фоне... Эх, глаза устают. Вижу, что на момент исчезновения страницы фон чуть осветляется, но не гасит яркостные вспышки.
Можно ли мне самому что-то исправить, чтоб не менять предлагаемое Вами оформление? Вдруг это не сложно и я сам подправлю какой-то файл. Подскажите.


Исправил систему обновления страниц, тестируйте.

hogu77

Цитата:
В начале года узнал о новой работе Tulon'а, ... и там этой функции нет! («возможно - пока»)

Вообще то в официальном ST ее никогда и не было и Tulon ее никогда не делал, если он вообще знает про нее, ее добавил monday2000 - фанат djvu, в своей версии Featured.

Экспортом я займусь потом, ибо старый код из featured во первых, слишком грязный, во вторых реализация корявая. Я сделаю свою реализацию.

Добавлено:
Следующий этап: начинаю перенос системы исправления геометрических искажений из ST Experemental.

Следующий вопрос: кто-нибудь юзал режим исправления marginal (по границам) из featured, есть ли от него польза?

[more] [/more]
Автор: hogu77
Дата сообщения: 08.02.2016 09:07

Цитата:
4lex4
Насчет экспорта: передумал переносить, <...> Вопрос закрыт.

Аргумент Ваш понятен. Жаль что пошли по Tulon'овскому пути, создавая «вещь в себе». Вообще я начинаю подозревать что это такой себе тонкий троллинг тех кто работает с DjVu форматом.
Я так понимаю, что бы добавить эту функцию из STF надо самому экзешник переделывать, добавляя кусок кода, простым добавлением файликов здесь не обойтись.

Цитата:
<...> если он вообще знает про нее, <...>

Знает.

Цитата:
<...> кто-нибудь юзал режим исправления marginal (по границам) из featured, есть ли от него польза?

Юзал и не единожды. Польза есть.
Учитывая тот факт что нормального деварпинга в ST, различных его форм и проявлений, так и не появилось, приходиться достаточно часто использовать несколько методов исправления кривизны страниц, в одной книге.

P.S.

Цитата:
<...> тем более djvu, про который в мире мало кто знает <...>

Вопрос дискуссионный, вот на рутрекере например проводят опрос-голосование за любимый формат, из трёх вариантов чуть меньше половины голосов отданы DjVu)

P.S.S.
Набор опций, именно Яркость и Контраст, в Cleaning & adjustment невообразимо радует но Вы не думали заменить это всё простым Avtolevel'ом? Выравнивание гаммы в автомате.
Автор: 4lex4
Дата сообщения: 08.02.2016 10:17
[more] [/more]

hogu77, перечитайте пост, я изменил мнение. Я просек фишку экспорта, но только сделаю свою реализацию.
Я реализую следующее: при нажатиим на кнопку обработки вылезет окошечко, в котором будет чекбокс с предложением разделить страницы в смешаном режиме, так же будет опция сохранения текста в цвете (без бинаризации), то есть в папке out мы получим подпапку mixed с папками text и pictures, в певой будет то, что мы не выделяли как картинки, во второй слой с картинками. Реализация будет работать без посреднически функций напрямую, потому будет работать так же быстро, как происходит обычная обработка.

Делаю я это не только для экспорта в djvu, а для раздельной обработки, ибо жалко терять зоны с картинками.
Это пригодится для моего будущего проекта - PDF компрессора по технологии MRC, скорее всего c Multi-COS/CCC сегментацией. Компрессор сможет также принимать изображение в виде пользовательских субсканов, ибо автомат не всегда надежен, и качество, и сжатие PDF будет максимальным (сжатие как у djvu, но качество намного выше). Задача - максимально сжать издания со сложной структурой (журналы например) при сохранении в хорошем качесвте картинок и цветного текста. Сейчас все это делают в PDF с JPEG сжатием, но в результате имеем большой размер и артефакты сжатия. В djvu это вообще невозможно, ибо там юзается сегментация по скрытой модели Маркова, повлиять ничего нельзя или трудозатратно, из-за этого получается это: https://yadi.sk/i/ShqBI5BnmWdy2
PDF более гибкий формат и для него можно сделать что угодно, чем я и займусь в будущем, благо появилось много новых хороших научных работ. (В одногй из работ как раз сравнивается djvu, LuraTech для PDF, и оба проигрывают новым технологиям)


Цитата:
Я так понимаю, что бы добавить эту функцию из STF надо самому экзешник переделывать, добавляя кусок кода, простым добавлением файликов здесь не обойтись.

Вообще-то объединение это не совсем объединение, а частичное переписывание кода. Но в данном случае получится полное, ибо реализация нечистая и в добавок не оптимизированая.


Цитата:
Вопрос дискуссионный, вот на рутрекере например проводят опрос-голосование за любимый формат, из трёх вариантов чуть меньше половины голосов отданы DjVu)

Я не встречал djvu за пределами рунета, а рунет - 5% мирового, везде в мире юзают pdf.


Цитата:
Набор опций, именно Яркость и Контраст, в Cleaning & adjustment невообразимо радует но Вы не думали заменить это всё простым Avtolevel'ом? Выравнивание гаммы в автомате.

Учтите, это функция еще не реализована, потому трогать пока не имеет смысла.
Так вообще можно было бы не парится и делать все в фотошопе или гимпе.
Это для другого: иногда нужно вычистить бекграунд, не трогая контраст и яркость, или меняя их по другому, не как меняют уровни.
С уровнями это невозможно, никакая гамма не поможет, ибо она лишь дает нелинейный сдвиг остальных пикселей к новым границам, а мне нужно контролировать сами границы.
Пример: есть готовая книженция, нуб сжал ее в JPEG -> на белом фоне вокруг текста артефакты -> имеем размытый текст, плохо читаемый. Но контраст и яркость изображений в порядке - трогать нельзя, иначе получим искажение всех цветов. Как вы очистите левелами, чтоб не изменился контраст и яркость остального изображения? Для этого я и делаю новый инструмент: во первых автомат, во вторых гибкость, в отличие от уровней.

[more] [/more]
Автор: Tulon
Дата сообщения: 08.02.2016 12:11

Цитата:
Следующий этап: начинаю перенос системы исправления геометрических искажений из ST Experemental.

Настоятельно рекомендую опубликовать исходники прежде чем браться за это. Перенос деварпинга на раннюю стадию потребовал серьезных изменений архитектуры, так что перенос этого в STA затянется надолго. В результате я опасаюсь получить один монолитный коммит "все в одном".

Строго говоря, бинарные сборки STA которые вы тут выкладываете являются варезом, так как нарушают лицензию. Если хотите подчистить код перед публикацией - сосредоточьтесь именно на этом.
Автор: hogu77
Дата сообщения: 08.02.2016 13:32

Цитата:
4lex4
<...> перечитайте пост, я изменил мнение.

WOW!!

Цитата:
Так вообще можно было бы не парится и делать все в фотошопе или гимпе.

Так и делаем.

Цитата:
Это для другого: иногда нужно вычистить бекграунд, не трогая контраст и яркость, или меняя их по другому, не как меняют уровни.
С уровнями это невозможно, никакая гамма не поможет, ибо она лишь дает нелинейный сдвиг остальных пикселей к новым границам, а мне нужно контролировать сами границы.

Чистка бэкграунда для многих уже не секрет. Существует несколько простых и изящных способов в 2D редакторах поддерживающих работу со слоями.

Цитата:
Пример: есть готовая книженция, нуб сжал ее в JPEG -> на белом фоне вокруг текста артефакты -> имеем размытый текст, плохо читаемый. Но контраст и яркость изображений в порядке - трогать нельзя, иначе получим искажение всех цветов. Как вы очистите левелами, чтоб не изменился контраст и яркость остального изображения?

Одними лэвэлами тут конечно же не поможешь, но можно записать action в PH по удалению ringing'а (или чего там появиться) и последующего sharping'а (по необходимости).
Если инструменты в Вашей программе помогут юзверю создавать классные книги/журналы/буклеты без максимального привлечения граф. редакторов — отлично! Вы помогли значительно уменьшить количество кривых работ.

Цитата:
Я не встречал djvu за пределами рунета, а рунет - 5% мирового, везде в мире юзают pdf.

Всё так, совершенно согласен.
Памятуя про разговор вокруг перевода программы на русский я ещё более утвердился в мнении что готовите Вы свою программу не только для русскоязычного сектора интернета. Только вот, на том же рутрекере есть релизы которых не найдёшь на забугорных площадках. Добавьте сюда и другие меньшие, но не менее значимые трекеры и Вы уведите что оцифровкой больше заняты по эту сторону Атлантики, чем по ту. Моё мнение.

P.S. Спасибо за Ваш труд, он будет оценён по достоинству.
Автор: 4lex4
Дата сообщения: 08.02.2016 13:54
Так, ну тут вроде все норм работает, в таком случае следующая сборка нескоро будет. Буду потихонечку переносить деварпер, сделаю раздельный выход, доделаю систему сборки, будет первый пререлиз на x32 и x64, выложу исходники.
Автор: papaVlad
Дата сообщения: 08.02.2016 16:09
4lex4

Цитата:
* При перелистывании страницы больше не пропадают для предотвращения резких перепадов яркости.

Отлично! Я бы и не додумался до такого варианта.

Цитата:
это OpenCL ... прирост производительности от него милипизерный, потому пока не горит переносить его.

Ясно, подождём.

Цитата:
Следующий этап: начинаю перенос системы исправления геометрических искажений из ST Experemental.
Следующий вопрос: кто-нибудь юзал режим исправления marginal (по границам) из featured, есть ли от него польза?  

Довольно часто нужен при обработке чужих сканов, ну не понимают некоторые человеки, что загибульки по краям строк - это некрасиво, сканят лишь бы как. Обязательно оставьте эту функцию, и спасибо monday2000 за её реализацию.
Скажу больше, всё что связано с поворотом и исправлением кривизны, короче весь этот новый блок от Tulonа из ST-e, работает гораздо правильнее в сравнении с остальными ST, у которых он одинаков. Я делал тесты, вот сохранился один на видео https://yadi.sk/mail/?hash=PqSb/o4a4GYtYfdTdk7%2BDk2zZWv2x/wBfHJWaSSJSpU%3D на котором видно, что Tulon изменил алгоритмы воздействия на искривления, результат более правильный.
4lex4, не оставьте без внимания этот момент, пусть народ поюзает новые возможности.
Tulon, ещё раз спасибо в Вашу сторону, действительно очень помогли оцифровщикам, сидящим на ST.

4lex4, на стадии Вывода добавились некоторые функции, некоторые пока не работают, подождём, но здесь от меня прежняя просьба, при изменении ползунков картинка сбрасывается, Вам же удалось исправить на стадии Поля и Полезная область, вдруг и на Выводе сможете, в других ST на этом этапе всегда, при изменении чего-либо, например регулировка толщины шрифта, картинка уменьшается, а хочется видеть разницу изменений на увеличенной картинке.

4lex4, на стадии Вывод, в режиме Цветной/серый появляется возможность Выравнивания освещения, но только после установки галки на Белые поля, да, это нормально и правильно, я понимаю, что программе нужно отчего-то отталкиваться для выравнивания, нужен кусок белого, и всё же, вдруг решите и эту заковыку и галка на Выравнивание будет доступна без белых полей.
Объясню зачем. Если Вы упоминаете журналы для оцифровки, то возможно встречали, где картинка на всю страницу, либо фон не белый, для таких случаев имею свою методику быстрой обработки. На стадии Полезная область обозначаю только край одного угла страницы, как правило внешний верхний, это экономит время (не нужно обозначать 4-е угла), затем на стадии Поля всё в 0 и жму на правых в верхний правый, применить к каждой второй, и также на левых. Но так я не могу воспользоваться Выравниванием из-за Белых полей.
На самом деле мне это не особо нужно, заранее или после прогоняю пакетом через графический редактор, но не все так могут и я бы им посоветовал использовать такую возможность, если бы она была, это лучше, чем облагораживать журнал коряво.
НО, здесь имеется всем известный косяк, если картинка в край, то получаем по краям страницы засветы. Насколько я знаю никому это беду победить не удалось и народ и по ныне спотыкается на таких случаях в режиме Смешанный. Для тех, кто не понимает о чём я пишу, то выглядит этот дефект примерно так http://pixs.ru/showimage/1jpg_2325330_20595882.jpg и в таких случаях рекомендовали отключать выравнивание освещения в зонах картинок, что имелось только в STF и теперь в STA, тогда получаем оригинал http://pixs.ru/showimage/2jpg_1983855_20595920.jpg
4lex4, если сможете победить эту болячку...
И нужно ли будет кому-либо вообще это выравнивание, если будет грамотный инструмент, о котором речь ниже.

4lex4

Цитата:
Пример: есть готовая книженция, нуб сжал ее в JPEG -> на белом фоне вокруг текста артефакты -> имеем размытый текст, плохо читаемый. Но контраст и яркость изображений в порядке - трогать нельзя, иначе получим искажение всех цветов. Как вы очистите левелами, чтоб не изменился контраст и яркость остального изображения? Для этого я и делаю новый инструмент: во первых автомат, во вторых гибкость, в отличие от уровней.

Здесь можно развернуть длинную дискуссию, в которой каждый поделится своими методами очистки фона, грязи, артефактов и прочими улучшениями. Пока подожду.
Чуток недопонимаю такой момент, Вы ругаете применение яркости и контраста и в тоже время прикрутили эти ползунки в обновлении (пока не активны), говорите о создании нового инструмента, работающего на автомате (видимо речь о кнопке Auto в Cleaning options <- тут ошибка Clearing), автомат будет из этих трёх возможностей? Имеются ли у Вас образцы того, на что будете ориентироваться?, оригинал и результат. Можем ли мы, участники форума, показать/порекомендовать что-то из своего опыта?, но только в случае, если Ваш результат будет очень спорным.

4lex4, я надеюсь такое количество предложений от оцифровщиков пока не сильно напрягает Выбор всегда остаётся за Вами, что продвинуть вперёд, а что отложить.
Автор: amaid
Дата сообщения: 08.02.2016 16:47
позволю себе вставить дилетантские 5 коп.
4lex4, с нетерпением жду вашу версию под 32 бита!
пробовал исправление геометрии в нескольких прошлых версиях ST, имхо: юзать можно, но в целом FR 12 делает это намного лучше (на серых сканах) или получше (на ч/б). Хотя допускаю, что мог упустить из виду что-то.

Цитата:
сжатие PDF будет максимальным (сжатие как у djvu, но качество намного выше)

вау! это стало бы сенсацией мирового масштаба

Цитата:
Я не встречал djvu за пределами рунета

попробуйте поиск на http://gen.lib.rus.ec/ (крупнейший коллектор пиратских книжек на сегодня)
djvu делит 2-3 место с epub.
pdf, ясное дело, вне конкуренции, но главным образом за счет издательских оригинал-макетов.
если брать только сканы, доля djvu в районе 20% (на глаз), но это ЛУЧШИЕ по качеству 20%.
А по удобству для научной работы windjvu extended (от N.M.E.) на голову превосходит acrobat reader.
Автор: papaVlad
Дата сообщения: 08.02.2016 18:46
amaid

Цитата:
но в целом FR 12 делает это намного лучше (на серых сканах) или получше (на ч/б).

Не соглашусь.

Цитата:
Хотя допускаю, что мог упустить из виду что-то.

Спасибо, что понимаете. Постом выше ссылка на видео, посмотрите возможности ST и ответьте, сможете ли Вы вручную в FR что-либо поправить?

Цитата:
вау! это стало бы сенсацией мирового масштаба

Не издевайтесь, дождитесь появления нового продукта, тогда и поднимайте панику.

Цитата:
доля djvu в районе 20% (на глаз)

Я больше верю этому ответу

Цитата:
Я не встречал djvu за пределами рунета

Есть подтверждения других заграничных жителей и сам видел пример заграничного обсуждения на несколько страниц, что это за djvu такой и как бы внутрь заглянуть, да достать бы страницы и в пдф переделать, обсуждали какой-то мой каталог с часами, это стало переломным моментом для меня, тогда начал параллельно выпускать пдф, а к тем несчастным зарегистрировался и дал ссылку на тифы. Сейчас к дежавю равнодушен, лишь бы оцифровывали, хоть в какой формат, и для книг он действительно удобен, но то что его используют на цветных журналах, ужимая до книжных размеров - это беда.
Из дежавю http://pixs.ru/showimage/3png_5311365_20598937.png
Из пдф http://pixs.ru/showimage/4png_2685602_20598941.png
И это не самый худший пример, первый попавшийся.

Цитата:
А по удобству для научной работы windjvu extended (от N.M.E.) на голову превосходит acrobat reader.

Да, ради Бога, пользуйтесь, сравнили автобус и тапочки, каждый для разных нужд, и почему Вы считаете, что все поголовно пользуются акробатовским ридером? Пдф любая электронная читалка примет, а вот дежавю не любая. Обычно, чтоб не париться, рекомендуют STDU, не знаю, чем он замечателен, наверное потому что всё открывает, и этого большинству достаточно. И почему именно для "научной работы", а детям комиксы полистать можно?, просто полистать, как их мамы читают женские журналы, просто читают и смотрят на любимых звёзд.

Цитата:
попробуйте поиск на http://gen.lib.rus.ec/ (крупнейший коллектор пиратских книжек на сегодня)
djvu делит 2-3 место с epub.

Не самый удачный пример для показа доли дежавю и пдф на планете.
В основной массе заливки сделаны из российских колхозов и прочих библиотек начала века, когда за каждый байт боролись, выпуская дежавю, да и сейчас сервера не резиновые, перед заливкой перегоняют не глядя пдф в дежавю ради экономии места. Всё правильно делают, кому нужно, тот в любом формате будет читать.
Автор: allo04
Дата сообщения: 08.02.2016 20:23
papaVlad, да ну, создать djvu, имея прямые руки, можно и из цветных сканов, и ни в чем уступать по качеству пдфкам не будет. Но прямые руки у нас дефицит.
Автор: papaVlad
Дата сообщения: 08.02.2016 22:11
allo04, а кто будет спорить, конечно можно, и делают отличные дежавю, но не все. Так же как и в пдфках бывает откровенный шлак выпускают.
И прямые руки при выборе сжатия не нужны, нужно просто посмотреть хотя бы один раз на результат своего труда, похоже именно этого не хватает нерадивым оцифровщикам.
Дежавю или пдф, это выбор оцифровщика, мне без разницы, просто у дежавьюрщиков откровенно просматривается тяга к мелким файлам, они готовы тратить много времени и жертвовать качеством картинок, а мне главное побыстрее, объёмы большие, всё пакетом корректирую и в пдф, качество сохранения картинок всегда важный момент. Не нравится размер, пережмите на худшее. Но мои файлы никто не будет пересканировать, а на замену дежавю много делаю пересканов.
И не важно прямые руки были у оцифровщика или кривые, дежавю или пдф, если человек экономил, значит там беда.
Автор: hogu77
Дата сообщения: 08.02.2016 23:46

Цитата:
papaVlad
<...> они готовы тратить много времени и жертвовать качеством картинок<...>

Это да, иногда такие «виртуозы» попадаются — кровь в жилах стынет от увиденного.
А те, кто с помощью своих программ и дополнений-исправлений способствуют продвижению качественного продукта в массы, заслуживают самых хороших слов в свой адрес. Незачем разработчикам смотреть и ориентироваться на всякий шлак. Помните, вашей вины здесь нет. Нормальные книгоделы, держат руку на пульсе а те кто гонит брак, как не учились, так и продолжают, это их выбор.
Автор: iit512
Дата сообщения: 09.02.2016 04:03

Цитата:
Я реализую следующее: при нажатиим на кнопку обработки вылезет окошечко, в котором будет чекбокс с предложением разделить страницы в смешаном режиме


А мне кажется, что это затруднит работу, лишний клик раздражает. Будет гораздо лучше опцию установить.

Но вообще говоря, есть совершенно четкая договоренность: ST выводит текст как 255 и 0, а картинки -- как все остальные значения. Поэтому никаких подпапок не нужно. Более того, одну и ту же папку вывода можно использовать в разных программах-кодировщиках, как разделяющих, так и не разделяющих слои. Разделение слоев на основе этой договоренности реализовать достаточно просто, и я это сделал (по результатам обсуждения в этом форуме) в img2djvu (см. гитхаб). Вот так это делается с ImageMagick (выдернуто из img2djvu):


Код:
convert "$1" -threshold 1 "$tmcdir/fore.pbm"
convert "$1" -fill white -opaque black $usepro -resize $newsize\! "$tmcdir/back.ppm"
Автор: 4lex4
Дата сообщения: 09.02.2016 04:41
[more] [/more]
allo04

Цитата:
да ну, создать djvu, имея прямые руки, можно и из цветных сканов, и ни в чем уступать по качеству пдфкам не будет.

Нет, нельзя. Если верстка сложная, алгоритм сегментации будет давать слишком много ошибок. Есть научные работы на этот счет, на сегодняшний день djvu, как реализация технологии MRC, лучший (только из практичеки реализованых), но и его не хватит. Поэтому только PDF JPEG/JPEG2000.

iit512

Цитата:
Но вообще говоря, есть совершенно четкая договоренность: ST выводит текст как 255 и 0, а картинки -- как все остальные значения.

Есть, и когда я сделаю свою систему раздела сканов, ее больше не будет, ибо мешает сжатию.

Вы не поняли самую главную фишку экспорта из featured, ни одна отдельная утилита вам тут не поможет: вывод и текста в цвете (без бинаризации), и картинок! Если у вас есть важный цветной текст, то его можно не бинаризовывать, а картинки будут в другом месте. Потом мы можем текст отдельно сжать в pdf mrc, а картинки не будут испорчены, будут сжаты отдельно в JPEG2000, причем они еще и будут выделятся как структурный элемент, только нужна программа, которой еще нет, и я ей займусь. Это позволит создавать pdf по сжатию как djvu, а по качеству превосходящее. По сути мы превращаем ST в инструмент ручной сегментации, и это идея меня радует, она пригодится в будущем.


Цитата:
Если хотите сделать PDF MRC encoder, рекомендую именно этот путь (а может быть, Вы даже захотите взять за основу LayerTaylor

Это намного более сложная вещь, чем вы думаете. Даже коммерческая компания ABBYY (и еще LuraTech компрессор, который юзяет движок от ABBYY) не сделали нормальный алгоритм сегментации, ошибок больше, чем у скрытой модели Маркова у djvu. На это есть целая отдельная научная работа.
Я взял это на будущее как хобби, попробую сделать just for fun, возможно нарушив пару патентов

[more] [/more]
Автор: iit512
Дата сообщения: 09.02.2016 05:24

Цитата:
Есть, и когда я сделаю свою систему раздела сканов, ее больше не будет, ибо мешает сжатию.

Тогда я буду вынужден отказаться от использования этой программы. Но воля Ваша, оперсорс, только исходники опубликуйте все же как можно скорее, Tulon совершенно правильно говорит.

Цитата:
вывод и текста в цвете (без бинаризации), и картинок

Удачи
Автор: 4lex4
Дата сообщения: 09.02.2016 05:48
iit512,
Я же не могу цветной текст разместить вместе с картинками, в одной картинке, а это нужно многим, например применить свою бинаризацию к тексту, а не которая в ST, поэтому тока отдельные папки. Всегда можно потом обратно объеденить.

И вообще у вас странная логика, зачем юзать сторонние программы, когда тоже самое быстрее можно сделать в ST?


Цитата:
Есть, и когда я сделаю свою систему раздела сканов, ее больше не будет, ибо мешает сжатию.


Цитата:
Но вообще говоря, есть совершенно четкая договоренность: ST выводит текст как 255 и 0, а картинки -- как все остальные значения.

Договоренность для обычного выхода возможно я сделаю под опцию в ini файле, но вряд ли она будет кому нужна, когда я сделаю экспорт. Просто такие скрытые области могут испотить, например, графики, выделенные как картинки при экспорте в djvu или pdf mrc. Этот момент нужнот протестировать. Предлагаю вынести это вопрос на обсуждение.
Автор: papaVlad
Дата сообщения: 09.02.2016 09:13
Ну не знаю, буду ли я сидеть и специально выделять картинки и текст на сложных страницах, чтоб потом разделять на папки, сжимать отдельно и заново объединять, всё лишь ради правильного сохранения цвета текста и отдельных картинок. Технология ClearScan в Acrobat достаточно грамотно это делает, конечно есть косяки, и качество сохранения картинок часто хочется повыше, а не среднее, неизменяемое. Но в целом, без выделения картинок и текста в ST под бинаризацию, экономия времени на оцифровку ощутимая, только графическая коррекция.
Для примера, о чём речь
CS 300dpi http://pixs.ru/showimage/03png_2094638_20605611.png
оригинал http://pixs.ru/showimage/04jpg_8994771_20605634.jpg
сырой скан http://pixs.ru/showimage/05jpg_1230519_20605792.jpg
Автор: allo04
Дата сообщения: 09.02.2016 09:50
papaVlad, на вкус и цвет все фломастеры разные, мне оригинал больше нравится, чем акробатовский ClearScan, хоть и весить он будет в несколько раз больше.
Автор: papaVlad
Дата сообщения: 09.02.2016 10:13
allo04, ну так здесь каждый проголосует за оригинал, мы же пытаемся решить дилемму, как преподнести читателю, чтоб и качество не страдало и размер был оптимальный, и сохранить цветные элементы, такие как колонтитулы, номера страниц и заголовки. А так представьте на секунду, что будут выходить в сеть такие "оригиналы" без сжатия, а в некоторых случаях на 600dpi, типа одна страница газеты на 400 МБ (ссылка есть где-то выше)
Автор: Dmb_2007
Дата сообщения: 09.02.2016 21:55
Добрый день!

Несколько вопросов

1) Не могу изменить ширину докера Filters, только высоту. Из-за этого часть элементов управления недоступна. Это у меня наблюдается и в плавающем и "докированном" состоянии.

2) Не могу полностью удалить зоны картинок в смешанном режиме. Такое ощущение, что хоть одна автоматически определённая картинка остаться должна. Они вообще удаляются только в режиме Quadro, но одна остается. точнее удаляется, вроде-бы, но появляется опять после переключения в режим вывода.
Всё что с ней можно сделать - использовать как заготовку для ручного выделения, перетягивая узлы в нужные места

3) Можно как-то изменить "раскраску" интерфейса?

4) В режиме Output изменение режима компрессии не вызывает пересохранения выходного файла, в отличии от изменения других опций. И даже насильственное нажатие на зелёный треугольничек не помогает. При попытке использовать сжатие Jpeg или Deflate, обрабатываемая страница просто исчезла из директории вывода.

Возможно это глюки моей системы, не знаю - Win8 и монитор 4K
Автор: papaVlad
Дата сообщения: 09.02.2016 23:01
Dmb_2007
1. тоже не расширяется, попросим исправить для владельцев 4К, друг я такой куплю лет через N.
2. удаляются.
Смотрите какая схема, у Вас программа неправильно определила картинку, выделяете ненужную область, правой кнопкой мыши, выскочит меню, жмите на верхнее, потом точку на нижнее (просто у меня по-русски, Свойства и Вычесть из авто-слоя)
3. самому никак, но возможно, при большом количестве совпадений в заявках, в будущем зачтутся пожелания. К примеру меня сейчас беспокоит выделение мышкой, ничего не вижу в цифрах на стадии Поля, нужен отступ не 9.0, а 9.2, двигаю мышь приблизительно, часто ошибаюсь, стирая запятую. Вот такой конфуз.
4. компрессия меняется, иначе я не смог бы радоваться любимому None. Не знаю зачем Вам понадобился Jpeg или Deflate, но тут схема действия такая, нужно при первом обращении на Вывод сразу поменять вид компрессии, а если уже процесс пошёл и в папке out есть файлы, вот они уже не изменятся, хоть сколь нажимай. Нужно что-то изменить, к примеру добавить/убавить Поля на миллиметр, теперь опять на Вывод. Если нужны именно те поля, то вернутся поменять и снова на Вывод.
Автор: Dmb_2007
Дата сообщения: 09.02.2016 23:45
papaVlad
1. Ок
2. Правой кнопкой - удалить. Удаляются. Но только в режиме Квадро. Я говорю только про автоматические зоны.
Но если осталась одна автозона, она появится вновь.
Её можно только изменить, но удалить безвозвратно - не получается.

4. Компрессия меняется, но не так, как остальные параметры - при изменении других параметров, происходит автоматическая обработка и перезапись выходного файла (в папке out) с новыми параметрами.
При изменении компрессии - нет.
Нелогично.

Jpeg или Deflate мне наверно не нужны, но если они есть, то должны работать. Нет?

Честно говоря, книгами я занимаюсь редко.
Чаще всего, я использую программу, как быстрый способ "привести в порядок" (выровнять, уменьшить размер, почистить ...) сканы документов.
К примеру, мне недавно прислали 8 (восемь!) страниц сканов, общим весом за сотню мегабайт. Электронной почтой...
Автор: papaVlad
Дата сообщения: 10.02.2016 00:10
Dmb_2007, автоматические зоны удалить нельзя нм в каком ST, вы можете удалить только свои зоны, своей рукой нарисованные. Автоматические зоны можно перекрыть своей зоной, надо её нарисовать поверх, а затем дать ей обозначение, что это за зона будет - видимая или невидимая, то есть обозначить вычитание из авто-слоя, Я не знаю, что у Вас в меню за слово выходит, которое выше Удалить, надо нажать на него (не на Удалить), и там три точки, выбрать нижнюю. Про режим Квадро, он сделан для удобства, можно перемещать контур, если он Вам для конкретного случая не подходить, то не ставьте на него. Видимо так устроена программа, что не может быть зон меньше 1 в режиме смешанный, иначе зачем его использовать.

В той версии, из которой взяли выбор компрессии работало также, как я описал ранее, ничего не изменилось, все привыкли заранее быстро менять этот параметр.
Jpeg, Deflate точно никому не нужны, действительно есть смысл оставить только None и LZW.
Автор: 4lex4
Дата сообщения: 10.02.2016 04:56
[more] [/more]

Dmb_2007,
1. Киньте скрин.
2. Учитесь пользоваться программой.
3. Пока что никак, но планирую сделать две схемы. (светлую и темную)
4. Исправлю.

Следующая сборка будет нескоро, месяц как минимум, возможно несколько.

papaVlad

Цитата:
Из дежавю http://pixs.ru/showimage/3png_5311365_20598937.png
Из пдф http://pixs.ru/showimage/4png_2685602_20598941.png

Ахах, в точку.
Про это я, собственно, давно и говорю, djvu разве что годится для самых простеньких книжечек, иначе получаем кучу ошибок сегментации -> размытые буквы и изуродованые картинки. Самый оптимальный вариант на сегодняшний момент для журналов и книг со сложной версткой - pdf с jpeg2000 сжатием (размер блока (Tile Size) лучше выбирать 1024), нет артефактов как у jpeg и размер меньше при лучшем качестве.

hogu77

Цитата:
Памятуя про разговор вокруг перевода программы на русский я ещё более утвердился в мнении что готовите Вы свою программу не только для русскоязычного сектора интернета.

Нет, неправильно. Я ее готовлю исключительно для себя, частично ради удовольствия поэксперементировать с математикой, частично ради результата, но вероятно этот труд пригодится и другим, как за рубежом, так и здесь. Но, честно говоря, последний вопрос меня волнует меньше всего.
А перевод мне не нужен, ибо у меня все на английском, и другой язык мне просто не нужен. А делать переводы мне не интересно.

amaid

Цитата:
пробовал исправление геометрии в нескольких прошлых версиях ST, имхо: юзать можно, но в целом FR 12 делает это намного лучше (на серых сканах) или получше (на ч/б). Хотя допускаю, что мог упустить из виду что-то.

Попробуйте BookRestorer - лучшее на сегодняшний момент для исправления геометрических искажений. FR отдыхает.

[more] [/more]
Автор: amaid
Дата сообщения: 10.02.2016 07:29

Цитата:
Попробуйте BookRestorer

о, спасибо, программу пробовал давно, выбрал ST, но геометрия - штука важная, поставлю.

для ST: хотелось бы иметь в настройках опцию сохранения последних параметров обработки на стадии "Поля", - утомляет для каждого проекта заново выставлять поля
ну и, для полного счастья, на стадии "Вывод" в выпадающем списке добавить строку 500 dpi
Автор: 4lex4
Дата сообщения: 10.02.2016 08:15
Многие юзают эту програмку не только для исправления геометрии, но и для выравнивания освещенности, как промежуточный шаг. Смотрите сайт, там все описано.
Автор: unreal666
Дата сообщения: 10.02.2016 08:22
4lex4

Цитата:
Следующая сборка будет нескоро, месяц как минимум, возможно несколько.

Может тогда пораньше выложишь исходники? Может кто-нибудь в них чего-нибудь еще добавит/изменит.

Добавлено:

Цитата:
Про это я, собственно, давно и говорю, djvu разве что годится для самых простеньких книжечек, иначе получаем кучу ошибок сегментации -> размытые буквы и изуродованые картинки.

а причем тут djvu и ошибки сегментации? 1-ое - формат, 2-ое алгоритм прог, создающих данный формат. Некорректное сравнение.

Страницы: 12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758596061

Предыдущая тема: CmCkA v4


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.