Ru-Board.club
← Вернуться в раздел «Программы»

» ScanKromsator СканКромсатор

Автор: bolega
Дата сообщения: 24.05.2006 13:01
monday2000

Цитата:
Вылечить баг, когда нажимаешь на "]" - а листается одновременно 3 файла. Нормальная работа невозможна в таких условиях

Если у Вас этого не происходит при нажатии на W ("W" и "]" по функциональности абсолютно идентичны), то скорее всего, баг в клаве, а не в cк.


Цитата:
Появилось у меня вчера смутное подозрение, что и dithering-алгоритм в Кромсаторе реализован не лучшим образом. По сравнению с Irfan View, который (как я понял) все серые сканы целиком конвертит в Ч/Б по dithering-алгоритму, и при этом мусор не вылезает - так, как в Кромсаторе. Если так сделать и в Кромсаторе, то отпадёт нужда в зонах "convert to bitonal", "convert to b/w".

Вы очевидно путаете, видимо, из-за незнания, что такое dithering. Вам сразу станет понятно, если поищите в гугле по фразе метод Floyd-Steinberg. Помогает также рассмотрение в сильную лупу ч/б газетных иллюстраций (напр., в газете Правда или Гудок).


Цитата:
d. Profile Editor (это для визуального редактирования ini - то, что в 5.65 DBG как "File -> Options").

Это какое-то новое слово в интерфейсе, чтобы меню Options (присутствует во всех известных мне прогах) выносилось в отдельную утилиту.

Насчет Lite-версии у меня сильные сомнения. Есть вещи, которые нельзя изымать даже из Lite-версии. Например, FR pro отличается от обычного FR только отутствием доп.языков и средств коллективной работы, но это не значит, что он будет распознавать через строчку


Добавлено:
sotori

Цитата:
это именно, исходные файлы. По отдельности он обрабатывает их нормально, а в пакетной обработке, иногда глючит, причём именно, на файлах где картинка.

А нельзя ли выложить все 30 первых файлов. Там похоже идет какое-то накопление ошибки, я никак не могу понять, откуда
Спасибо
Автор: bolega
Дата сообщения: 25.05.2006 08:11
Сделал по новой методе (с зонами) небольшую цветастую книгу.
Сделал естественно и djvu - 400 dpi color. Тут вне конкуренции: размер - 1 мег.
pdf: текст - 400 dpi b/w, иллюстрации (зоны) - 200 dpi color.
PDF, сделанный непосредственно из 400 dpi color тифов, весит 34 мега, сделанный с внедренными зонами - 5 метров. Разница почти в 7 раз.
hччp://rapidshare.de/files/21319968/kenguru.ZIP.html
Автор: shch_vg
Дата сообщения: 25.05.2006 09:33
bolega
Нельзя ли высветку скана в правой стороне сделать опционной?
Это здорово помогло бы в вариантах работы на маломощных компах с большими сканами, записанными на RW, в случае первоначальной загрузки программы ( когда я не собираюсь работать с первым сканом ), в случае, если я хочу перенести с какого-то скана его параметры на другие ( высветка его мне не нужна). Наверное, можно еще придумать варианты...
Автор: VadimirTT
Дата сообщения: 26.05.2006 09:15
bolega
Кенгура!!! Особенно размер в совокупности с качеством в djvu впечатляет.
Сколько ручного труда требуется?
Проста ли эта метода для освоения широкой общественностью?
Можно ли показывать Кенгуру в djvu варианте в других местах (с/без указания авторства) в качестве примера возможностей djvu?
Автор: monday2000
Дата сообщения: 26.05.2006 09:35
romanef

Цитата:
Если новичок серьезно увлечен книгосканированием, то он освоит все наши программы, но для этого он должен пройти свой нелегкий путь. Вы же хотите сделать конфетку и положить ему в рот.

Да, конечно. Но речь о том, что не надо, с другой стороны, неоправданно (как сейчас) усложнять эту, саму по себе, конечно, сложную задачу. Чувствуете разницу?
bolega

Цитата:
Если у Вас этого не происходит при нажатии на W ("W" и "]" по функциональности абсолютно идентичны), то скорее всего, баг в клаве, а не в cк.

Ещё и на PageDown то же самое. Это точно - проверял. Всё это в Win2000. Баг всегда проявляется вскорости после открытия задания и начала листания файлов и, кажется, всегда только один раз.А что скажут другие - это что, только у меня, что ли?

Цитата:
Вы очевидно путаете, видимо, из-за незнания, что такое dithering.

Dithering я понимаю как искуссную имитацию серой фотографии мельчайшими чёрными точками на белом фоне (т.е. 2 цвета). Это так раньше Мону Лизу на матричном принтере "рисовали" (её полагалось очень издалека рассматривать). Вообще я этот вопрос действительно тщательно ещё не рассматривал. Может быть, Вы тоже поэкспериментируете с Irfan View и сравните его конвертацию сложных случаев "grey->b/w" с кромсаторной?

Цитата:
Это какое-то новое слово в интерфейсе, чтобы меню Options (присутствует во всех известных мне прогах) выносилось в отдельную утилиту.

Это я предложил по аналогии с DEE 5.1 - там есть редактор профилей, который (как я думаю; точно не знаю, ещё не смотрел) правит текстовый файл с профилями. Смысл идеи в том, что эти опции настолько редко используемы, что им самое место именно в ini-файле - чтобы они обычного юзера не смущали. И вообще - как-то всегда все жили без этих опций - и ничего. А зачем, например, менять цвет резаков? Подозрительно как явная нелепость. И ещё меня вот эти изображения маленьких клавиатур просто убивают на месте (это где хоткеи назначаются). Нечего всему этому делать в Кромсаторе - пусть оно будет отдельной программой, редактирующей ini-файл. Вообще на мой взгляд, половина этих новых опций не нужна - это Ваша задача - разумно подобрать, скомпоновать и зафиксировать значения этих опций - а не юзера. Это Вы ответственность на бедного юзера перекладываете, снимая её с себя - ничего хорошего это не даст. А всё из-за того, что интерфейс ("парадигма") Кромстатора плох в принципе, вот и приходится городить такой огород - безуспешно пытаться улучшить заведомо плохое, вместо того, чтобы изначально сделать заведомо хорошее, не нуждающееся ни в каких "подпорках" (в виде крайне сомнительных опций). Это уже игра не на пианино, а на оргАне.
Насчет Lite-версии у меня сильные сомнения. Есть вещи, которые нельзя изымать даже из Lite-версии.
Очень хорошо, что Вы спросили. Я сейчас постараюсь нарисовать портрет такой программы. Итак, Kromsator Lite - это должна быть программа только для кромсания. На деле она получится только как бы для упрощённого случая обработки. То есть пусть Kromsator Lite принимает на входе только ч.б или серые или цветные сканы и их же и выдаёт, но только уже порезанными по размеру - и всё. Правда, не знаю, какого цвета должны быть навешенные поля - наверное, подобрать по среднему цвету скана. Т.к. Kromsator Lite не будет никак менять входной режим цветности, то и зоны ему никакие не потребуются. Поэтому можно станет вместо 4 оставшихся резаков сделать прямоугольник - один большой на скан. Прямоугольник, кстати, воспринимается юзерами интуитивно-понятнее, чем резаки (об этом говорят многочисленные просьбы заменить резаки на прямоугольник). Даже если Вы сделаете только один Kromsator Lite, а Gray Enhancer не дойдут руки - не беда - можно и вручную подкорректировать "по серому" отдельные "сложные" сканы, причём в сторонних программах (или в нынешнем Кромсаторе).

Расчёт тут на то, что среднестатистическая "техническая" скан-книга не имеет (почти) никаких "сложных" случаев. Согласитесь, что появление Kromsator Lite, рассчитанного на это, невероятно заманчиво - ибо это тут же привлечёт к делу создания DjVu-книг сотни новых участников (!) - за счёт исключительной простоты программы. Тут даже можно чуть-чуть, самую малость, пожертововать качеством (в виде отсутствия наличия навороченных фич).

Kromsator Lite должен состоять из 2 частей: предобработка и обработка. То есть запускаем Kromsator Lite, и нам предлагают выбрать один из двух вариантов и, в зависимости от выбора, загружается свой интерфейс (разный!) - оптимизированный под данную задачу. В предобработке мы унифицируем сканы (режем развороты-ошмётки), а в обработке загружаем полученные сканы-полуфабрикаты и кромсаем. Причём сделать бы так, чтобы в обработке проверять - удовлетворяют ли сканы-полуфабрикаты входным условиям, и если нет - отказываться кромсать и повторно направлять на предобработку (уж не знаю, возможно ли так в принципе сделать, но общая суть такая). То есть сказать: "как хотите, мытьём или катаньем, в каких угодно программах (можно и в нашей), а получИте путёвые полуфабрикаты, удовлетворяющие всем нашим условиям, вот их-то только мы и возьмёмся кромсать, а иные - нет. Только так". Такой подход к делу сильно упростит кромсание.

Разделять предобработку и обработку на 2 отдельные программы не стОит (на мой взгляд, а там как знать) - т.к. это неразрывные части одной задачи - кромсания.

В Kromsator Lite должно войти всё, что относится непосредственно к кромсанию простой, среднестатистической книги - deskew, despeckle, выбор полей, разрешения, и т.д. НЕ должны войти вкладки Convert, Quality, Pdf, работа с DjVu. Редактор постобработки Result view - обязательно войдёт, и практически в неизменном виде как в 5.6А, пожалуй (только иконки кнопочек хотелось бы построже). Magic clear убрать, наверное (в Gray Enhancer его потом). А вот в 5.65 DBG в Result view уже, кажется, появились излишества - вообще, очень трудно что-либо вразумительное сказать по полуготовой программе. Впрочем, по Result view я ещё особо не думал пока. Основная идея по Result view та же - убрать из контекстного меню "глобальные" опции, и куда-то их вынести (конечно, в пределах Result view) - может быть, сделать наверху текстовое меню и туда? Не знаю пока, знаю только, что контекстное меню Result view явно перегружено.

Может быть в Kromsator Lite удастся воплотить мою идею - полноэкранный режим обработки (аналогично Result view) - тем более, что задача воплощения облегчится уходом резаков. Ну, и конечно, надо чётко будет разделить глобальные и странично-ориентированные опции и только последние иметь "на виду", а первые куда-то прятать. Да, может быть, в Kromsator Lite стоит добавить статус-бар и туда выводить всякую там индикацию - всё-таки удобная штука - статус-бар.

Главное в Kromsator Lite будет то, что как минимум, половина интерфейса срежется, а оставшаяся половина должна быть доведена (можно и совместными усилиями) по эргономичности до уровня WinDjView. И тогда такая программа (Kromsator Lite) пройдётся как порождающая искра по рядам "книгоделов", в том числе потенциальных (лично я знаю таких несколько человек). В течение полугода после появления такого Kromsator Lite мы все увидим бурный всплеск качества (всплеск количества произойдёт позже - через год-полтора) новых DjVu-книг. И всё это зависит от одного человека - Вас. Чувствуете, какие мощные силы в Ваших руках? Главное - применить имеющиеся силы и средства с максимальным толком - и тогда эффект будет гораздо сильнее, чем сейчас от нынешнего Кромсатора, который всех пугает и отталкивает от "книгоделания", проталкивая мысль, что якобы всё это "неимоверно сложно".

Удачный исход в создании некоего Kromsator Lite (а потом, со временем, может быть, и Gray Enhancer) ликвидирует "самое слабое звено" во всей цепочке книгоделания и откроет дорогу к разработке столь вожделенной всеми универсальной и "чайниковой" технологии книгоделания "от и до". Ведь большинство элементов этой цепочки уже есть - осталось их лишь скомпоновать.
Автор: bolega
Дата сообщения: 26.05.2006 11:30
VadimirTT

Цитата:
Сколько ручного труда требуется?

Потребовалось совсем не много (от силы пол-часа) благодаря очень качественной полиграфии (белоснежная плотная бумага и четкая печать). Я даже grey enhance вообще не использовал.
Чистил только с помощью magic clear. Причем порог (небольшой=20) использовал единый для всей книги - выделял всю страницу (кнопкой на панельке) и нажимал del. Кое-где просвечивали иллюстрации с обратной стороны листа, так они магиком полностью удалились. В редких местах на синеньких иллюстрациях возникали белые точки, но они видны были только при сильном увеличении, а при конвертации в djvu и вовсе затянулись.


Цитата:
Можно ли показывать Кенгуру в djvu варианте в других местах (с/без указания авторства) в качестве примера возможностей djvu

Можно, кроме новостных книжных форумов (avax,kpnemo,nata и т.д.), и без моего упоминания.
Хорошо бы еще сказать, что то же самое в pdf занимает 34(!) метра или 5 метров, если использовать разделение слоев.

Добавлено:
VadimirTT
Вот еще цветные 300dpi маленького размера
hччp://rapidshare.de/files/14401617/Uzhasy1.djvu.html
hччp://rapidshare.de/files/14903149/uzhasy2.djvu.html
hччp://rapidshare.de/files/15138933/uzhasy3.djvu.html
Кто делал, не знаю



Добавлено:
В Lite такого не сделаешь
Автор: Smokeer
Дата сообщения: 26.05.2006 14:53
monday2000
По-моему подход должен бьіть обратньім:
создать програму в которой можно провести полную обработку сканов.

Другой момент что:
1) нужно оптимизировать алгоритмьі ресемплинга (у меня если вьіставить преобразование вьіходньіх файлов в 600ДПИ из 300 исходного обработка сканов занимает по 7 часов на каждьіе 100 страниц. Против часу-полутора если на вьіходе те же 300)
2) сделать возможность задать дефольтовьіе настройки для каждй новой страницьі
(а не добавил сканьі - наново лазить по вкладкам и вьіставлять)
3) усовершенствовать саму чистку. Хотя, возможно, я просто не вижу как скан норамльно почистить.
(если интересно могу вьіложить где-нибудь)

А с Лайтом которьій вьі предлагаете нужно будет ещё чесать репу: а как то? а чем єто?
Автор: terminat0r
Дата сообщения: 26.05.2006 15:33
bolega
1. У меня на винте постоянно где-то 6-8 подготовленых заданий лежит.
Оставляю на ночь одно задание с кромсатором.
Но задание делается максимум 5 часов. остальное время компютер стоит, потому что я сплю
Очень нужен batch для заданий- тоесть когда загружаю эти 8 подготовленых заданий, а кромсатор за ночь (+день, что я на работе) все это кромсает сам без моего участия.
Может это уже есть но я не нашел?

2. Хотелось бы иметь возможность делать выбор красным файла в списке (нажатие пробелом) не только тогда , когда список в фокусе, а в любом случае. Сейчас, когда в фокусе картинка или резаки, пробел не работает?

3. Выставлять по дефолту приоритет кромсания в окне диалоге (как раньше в винраре было). + сделать окно диалог более отзывчивым на нажатие -отмена-?

4. После полной проработки сканов задания сбрасывать автоматом размеры страниц на -Fixed-
А то я постоянно забываю при переделке нескольких страниц это сделать, и страницы выходят с другими размерами.

5. сделать возможность автоматически выделать файлы с установлеными специальными зонами красным (опционально конечно)

6. Для размышлений- мне иногда нехватает сортировки файлов по другим приметам в списке заданий- а именно - по наличию зон, по установке Special, и т д. Может заменить список файлов TCheckListBox на TListView ? и дать возможность сортировки по любому столбцу (соответственно добавить столбцы). Это, чтобы быстрее выбирать некоторые файлы.

Автор: Melirius
Дата сообщения: 26.05.2006 15:34
monday2000


Цитата:
Вылечить баг, когда нажимаешь на "]" - а листается одновременно 3 файла. Нормальная работа невозможна в таких условиях


А Punto Switcher или ещё какая клавиатурная "догонялка" не стоит? У меня такое бывало при нвыключенном в Кромсаторе PS - он меняет неправильную раскладку и при этом снова и снова заоняет символ в буфер клавиатуры (вроде так).
Автор: Arcand
Дата сообщения: 26.05.2006 15:34
bolega
Цитата:
Сделал по новой методе (с зонами) небольшую цветастую книгу
Можно выложить отдельно дежавю. Как я понял в комплект входит пдф, он меня не интересует, да и трафик на исходе.
Автор: terminat0r
Дата сообщения: 26.05.2006 15:38
monday2000

Цитата:
Ещё и на PageDown то же самое. Это точно - проверял. Всё это в Win2000. Баг всегда проявляется вскорости после открытия задания и начала листания файлов и, кажется, всегда только один раз.А что скажут другие - это что, только у меня, что ли?

не наблюдается
Автор: ghosty
Дата сообщения: 26.05.2006 16:01
Smokeer

Цитата:
Другой момент что:
1) нужно оптимизировать алгоритмьі ресемплинга (у меня если вьіставить преобразование вьіходньіх файлов в 600ДПИ из 300 исходного обработка сканов занимает по 7 часов на каждьіе 100 страниц. Против часу-полутора если на вьіходе те же 300)

Тут по ходу дела обнаружилось, что первым пунктом надо оптимизировать процесс открытия страниц...
Может, кто-нибудь возьмется сделать список хотелок (хотя бы первоочередных)?
Автор: VadimirTT
Дата сообщения: 26.05.2006 17:11
Arcand

Цитата:
Можно выложить отдельно дежавю.

Kenguru.N11.rar (1079 KB)
Автор: bolega
Дата сообщения: 26.05.2006 17:17
terminat0r

Цитата:
2. Хотелось бы иметь возможность делать выбор красным файла в списке (нажатие пробелом) не только тогда , когда список в фокусе, а в любом случае. Сейчас, когда в фокусе картинка или резаки, пробел не работает?

В опциях выберите для себя нужный хоткей для выделения. Или нужно именно пробелом?


Цитата:
5. сделать возможность автоматически выделать файлы с установлеными специальными зонами красным (опционально конечно)

Это уже давно есть. В меню select special.

Остальное сделаю.

Arcand
Смогу только в понедельник. Там pdf всего 5М.

Насчет оптимизации.
Я тоже этого очень хочу! Но, господа, чтобы что-то кардинально улучшить, нужно переходить на asm и mmx. Ну нет у меня сейчас время с этим разбираться. Что могу, я и сейчас пытаюсь. Слегка уже увеличил скорость прорисовки. Но это предел для не-ассемблера.


Автор: Liliac
Дата сообщения: 26.05.2006 17:51
Добрый день !

Скажите программа ScanKromsator работает по Windows XP ?
Автор: vitaly1
Дата сообщения: 26.05.2006 17:53
Liliac
Да, только не забудьте 2 библиотеки скопировать в папку с программой.
Автор: Liliac
Дата сообщения: 26.05.2006 18:00
Я скачала программу с http://bolega.hotmail.ru/ , распаковала архив и запустила sk.exe
Выходит ошибка "Access violation at address 004CCA3C in module 'sk.exe'. Write of address 00000000"
Автор: vitaly1
Дата сообщения: 26.05.2006 19:43
Liliac
А про библиотеки я для кого писал?
Вот линк из шапки - http://rapidshare.de/files/6819398/sk_dlls.rar.html
Автор: VadimirTT
Дата сообщения: 26.05.2006 21:20
bolega

Цитата:
Насчет оптимизации.
Я тоже этого очень хочу!

Извиняюсь, но мое мнение по этому поводу. Если не будет утяжеления процесса кромсания, то Штеуд с AMD со временем, дело со временем работы исправят .
Вот если бы (мечтательно) распаралелить процесс по ядрам (обработка двух-четырех-... страниц паралельно), вот это было бы здорово.
Автор: Smokeer
Дата сообщения: 27.05.2006 16:06

Цитата:
Тут по ходу дела обнаружилось, что первым пунктом надо оптимизировать процесс открытия страниц...
Может, кто-нибудь возьмется сделать список хотелок (хотя бы первоочередных)?


Да, я видел. Но лично меня просмотр не особо достаёт. (2.4 ГГЦ то ) А вот ресамплинг который работает в пятеро дольше чем всё остально вместе взятое...
Это ведь на 100 страниц 7 часов уходит, а всего в ней(книге которую я сейчас сканирую) 1700 страниц + отдельная номерацыя вкладышей, предесловий, дополнений.
Это ж ошизеть можно... пока дождёшься результата.


Цитата:
Ну нет у меня сейчас время с этим разбираться. Что могу, я и сейчас пытаюсь. Слегка уже увеличил скорость прорисовки. Но это предел для не-ассемблера.


Как варианты:
1) компилировать с оптимизацыей для разных процесоров, немного геморойно, но вот у меня (на П4 работать должно раза в 2(а может и больше) быстрей)
2) просто сделать возможность запускать внешнии фильтры которые делают это быстрее
(или полностю внешнюю программу)
3) для просмотра: сделать как в ресторере. Сначала упрощается скан далее в таком упрощённом виде показывается.
4) относительно того же списка заданий. Можно разьить програму на две части: одна, графическая, формирует задания и запускает вторуюю. Вторая непосредственно обрабатывает задания и не имеет вообще никаких интерфейсов.
(тут сразу на базе первой которая может запускать несколько вторых можно реализовать распаралеливание заданий)


Цитата:
Вот если бы (мечтательно) распаралелить процесс по ядрам (обработка двух-четырех-... страниц паралельно), вот это было бы здорово.


немного кривой подход НО запустите ДВА, ТРИ, или сколько у вас там процесоров-ядер кромсатора?
линейка НТ виндовсов даст вам увелечение производителдьности в целом, хотя каждый отдельный будет работать медленней.

Вообще есть мечта о подобном софте для линукса (кстати, дополнительная производительность за щёт особеностей оси)... но это пожалуй мечтой и останется.


Добавлено:
О! мелочь но приятно:
возможность вьіделения чётных или нечётных страниц и затем поворот их на 180 градусов(по ходу работы) или сначала вертикальных затем горизонтальное зеркало(что быстрее)
Автор: voltag
Дата сообщения: 27.05.2006 18:32
Вот читаю этот топик и никак не могу врубиться:
кто такие "колхозники" и где находится "колхоз"?
Автор: vitaly1
Дата сообщения: 27.05.2006 18:36
voltag
http://forum.ru-board.com/topic.cgi?forum=35&topic=23201&start=60#7
Автор: monday2000
Дата сообщения: 29.05.2006 10:52
Smokeer

Цитата:
По-моему подход должен бьіть обратньім:
создать програму в которой можно провести полную обработку сканов.

Такая программа уже есть - это Кромсатор. Не буду повторятся, почему надо разделить его на части. Хорошо бы сделать всего 2 программы: Kromsator Lite и Grey enhancer. И применять их с сканам в любой последовательности - кому как нравится. Так будет гораздо удобней и практичней. Можно, например, конвертировать сырые сканы Grey->BW (с улучшением) в Gray enhancer до Kromsator Lite (т.к. BW кромсаются быстрее, чем Grey - простое решение проблемы ghosty, да уже и других), а можно после (традиционный подход). Последовательность использования этих 2 программ будет сильно зависеть от вида сканов - смотря как проще с данными сканами. Знаете, в чём преимущество "латинских" языков перед "китайскими"? В том, что в 1 случае - 26 букв, а во 2 - тысячи. Но всё оттенки смысла лучше передают именно латинские языки (на все оттенки смысла иероглифов не напасёшься ). Так что нынешний Кромсатор - это в прямом смысле "китайская грамота".
Melirius

Цитата:
А Punto Switcher или ещё какая клавиатурная "догонялка" не стоит?

Да, стоит! Вот спасибо! Попробую отключать. А то этот глюк наблюдается и дома, и на работе - т.е. на 2 разных компах.

Добавлено:
bolega
Я обратил внимание на то, что фактически совершенно непонятно - а когда именно нужно сбрасывать соответствующую подгалку Automargins при просмотре и анализировании результатов DK? Вот Вы везде пишете что-то такое:

Цитата:
Вы плохо представляете себе назначение резаков. Основное их назначение - отрезать мусор, но не определять края страницы (поэтому резаки и не обязательно ставить вплотную точно к тексту, а иначе выставлять их было бы мучением, да и невозможно это бывает при перекосе страницы). И только когда кромсатор не может самостоятельно правильно это сделать, только тогда резаку можно придать дополнительную функцию (что и сигнализируется теперь изменением цвета резака).

Эта информация совершенно двусмысленная и ничего толком не объясняющая. А что значит "когда кромсатор не может самостоятельно правильно это сделать"? Это можно понять двояко. Варианты "понимания" такие:

1. При просмотре результатов DK мы видим на каком-то скане: ага, вот резак неправильно встал после DK, отсекает кусочек текста - значит, подводим его как положено (впритык к тексту, но чтобы текст не отсекал), и делаем резак малиновым. Но совершенно непонятно - резак следует делать малиновым во всех таких случаях (когда он неправильно был установленом Draft kromsate'ом (подведя его как нужно) или же в большинстве случаев достаточно не делать резак малиновым, а просто подправить синий резак, чтобы он не отсекал текст, и всё?

2. Имеется в виду более сложное понятие - когда в Result view мы просматриваем уже нарезанные листы и видим: вот на этом листе отсёкся при Process кусочек текста - и поэтому нужно вернуться к скану, сделать данный резак малиновым, подправить его "как положено" и перекромсать по новой.

Так что, как видите, наблюдается полнейшая неясность - а когда, собственно, делать резак малиновым? По какому именно критерию тут ориентироваться? Какой из этих 2 вариантов правильный? Подозреваю, что второй.

В связи с этим я подумал: а что, если вообще отказаться от концепции Automargins (т.е. сделать резаки всегда "Automargins = on")? Ведь эта такая ужасно неудобная вещь. Хотелось бы так:

Делаем DK, потом проходим по сканам и вручную приблизительно подправляем резаки, после чего запускаем кромсание.

И всё. И никакого геморроя со снятием подгалок Automargins. Причём тут имеется в виду, чтобы резаки подправлять именно приблизительно, т.е. для коррекции результатов DK, а вовсе не точно, для коррекции последующей работы Process.

Кроме того, в этой связи не только Automargins сложен и труден для понимания юзерами. Ещё и значения Text sensitivity лично мне, к примеру, совершенно непонятны - ну откуда мне знать - на сколько единиц повысить чувствительность Automargins, чтобы DK стал точнее работать? Дайте, что ли, какие-то предельно недвусмысленные рекомендации по значениям Text sensitivity. А иначе что толку от присутствия в программе Text sensitivity? Надеяться на то, что среднестатистический юзер станет ставить эксперименты и, DK-разметив одну и ту же книгу 3-4 раза с разными значениями Text sensitivity, всё-таки выберет правильное значение Text sensitivity и DK-разметит её уже окончательно? Да никто и никогда так делать не станет - разве нет? Так что и Text sensitivity по большому счёту можно убрать из программы. Это всё равно, как если бы в Файнридере был ползунок "точность распознавания" и юзеру предлагали бы: "если Вам не понравилось, как текст распознался, то повысьте чувствительность распознавания и распознайте повторно".

Отказаться от Automargins можно прямо сейчас. Как, спросите Вы? А вот как: пусть после DK юзер проходит по сканам и вручную приблизительно подправляет синие резаки (т.о. корректируя результаты DK). Далее запускаем Process. При этом Кромсатор вычислит среднестатистические размеры и сам навесит поля - а для этого Process предварительно точно распознает контур голого текста. Так вот, весь трюк тут в том, что погрешности точного распознавания Process'ом контура голого текста (т.н. "оконтуривание") скомпенсируются такими принудительными операциями:

1). Приведение всех результирующих сканов к среднему размеру.

2). Навешивание к этим сканам полей рекомендуемого Вами размера (в зависимости от DPI сканов).

Причём вторая процедура тут гораздо более "компенсирующая", чем первая. И, если задать навешиваемые поля именно рекомендуемого размера, то они окажутся достаточно большими, чтобы скомпенсировать погрешности оконтуривания.

Об этом, кстати, не раз и не два уже говорилось. Новизна идеи тут в том, что ведь всё это даёт возможность вовсе отказаться от Automargins. Главное - чтобы навешиваемые поля были достаточно большие.

Но Вы скажете - а что же всё-таки делать, если и это не поможет и всё равно текст будет отсекаться? Как же тогда отказаться от Automargins? Я предлагаю - ради именно для таких случаев - не выкидывать полностью Automargins из интерфейса. А сделать так: сейчас убрать Automargins из интерфейса. И потом сделать Automargins как некий специальный, особым образом вызываемый (в исключительных случаях) инструмент. А не так, как сейчас - когда Automargins - это ходовой инструмент и всё время на виду и им предлагают пользоваться постоянно. Нет, надо, чтобы пользоваться им предполагалось лишь в исключительнейших случаях.

Конечно, полный отказ от Automargins предполагает решение проблемы ОВ-символов (одиночных выступающих символов). Или хотя бы снижения её остроты до приемлемого уровня. Это, надеюсь, дело будущего. Наверное, тут можно кое-что сделать. По крайней мере, тут у Вас есть одна железная зацепка: если после DK юзер двигает резак (т.е. вообще двигает, хоть как хоть куда), то это должно быть сигналом Кромсатору: ага, с этой стороны скана DK сработал неточно, надо для этого резака Кромсатору увеличить некую внутреннюю переменную - аналог Text sensitivity (а может быть, и вообще программно оценивать бледность скана, разрешение и т.п. и на основании этих данных подбирать её значение), либо применить OCR-подобное сложное определение ближайшей окрестности данной стороны контура голого текста. Посмотрите на GPL OCR-проект http://jocr.sourceforge.net/ - может, сможете что-то оттуда позаимствовать.

Добавлено:
bolega
Слушайте, меня осенило: а ведь есть совершенно простой и железный способ вообще полностью отказаться от Automargins! Заодно и практически решим проблему ОВ-символов!

Я Вам уже очень давно и неоднократно предлагал разбить кромсание как бы на 2 ступени: "предварительное" и "окончательное". Поясню: представим себе ситуацию, что вот мы видим в Result view, что на данном скане при кромсании снизу отрезался номер страницы. Сейчас нам надо вернуться в главное окно, подвести резак, сбросить подгалку Automargins и перекромсать по новой данную страницу. А я предлагаю другое: не выходя из Result view, нажимаем Alt и двигаем стрелой скан вверх до тех пор, пока из-за нижней кромки окна не появится отрезанный номер страницы. Сейчас это невозможно - снизу "выедет" не отрезанный номер страницы, а молоко. То есть сделайте, чтобы сканы кромсались "предварительно", с неким хорошим запасом по всему периметру, а мы потом в Result view при необходимости вот так подправляли, прежде чем принять как окончательное.

Вы что-то говорили, что так сделать очень трудно, т.к. скан претерпевает массу сложных преобразований - deskew и т.п. Может быть, нужно просто сделать достаточный "запас" по всему периметру? Как бы там бы ни было, а всё равно - это тысячекратно более лучший способ, чем сброс подгалок Automargins и повторное перекрамсывание. Конечно, предлагаемый способ требует, чтобы все сканы были обязательно предварительно приведены к усреднённым размерам (что уже есть сейчас). Кроме того, скорее всего, предлагаемый способ потребует, чтобы можно было прямо в Result view по месту увеличить размер нарезанного скана (за счёт запаса) (это прийдётся реализовать).

Просто очень хочется уйти от Automargins, которые являются слишком неудачным решением (точнее, слишком заумным). Сделав Automargins, Вы пошли путём больших софтовых фирм, забывая - что Вы один и силы Ваши ограничены и поэтому Вы не можете использовать их "академические" пути (внесение поправок в алгоритм Process перед его запуском вместо простой ручной правки уже его результатов, что я предлагаю) - поэтому Вам лучше выбирать физически посильные решения.


Цитата:
4. После полной проработки сканов задания сбрасывать автоматом размеры страниц на -Fixed-

Я то же самое просил - сделайте, пожалуйста. Кроме того, предлагаю Вам вообще взять на вооружение концепцию пакетов Файнридера (и ещё DEE 5.1 так работает - с папками, а не с отдельными файлами). Для этого нужно добавить опцию открытия папок, а не только по одному скану. Представим: открываем мы папку со сканами. Сканы тут же загружаются, и автоматически в данной папке создаётся папка "Out" и Task-задание, куда автоматически записываются любые изменения опций (а сейчас надо вручную запоминать - очень неудобно). Юзера же лишить возможности открывать Task-задание и выбирать путь к Out-папке - пусть работает с пакетом целиком. Так будет проще, да и часто забываешь выбрать папку "Out" и Process на это ругается.
Автор: sergeant20
Дата сообщения: 29.05.2006 14:00
2 Bolega
Очень впечатлен качеством Кенгуру. Я набросился на дебуговую версию и пытался безрезультатно кромсать с picture area. После нескольких попыток понял, что эта функция отключена. А жаль. Для себя решил отложить кромсание всех уже отсканированных книг до момента выхода более иле менее работающей с picture area версии. По большому счету надо было бы мне перекромсать десяток старых книг, но на такой подвиг я не поднимусь.
Автор: monday2000
Дата сообщения: 29.05.2006 14:28
bolega
Насчёт ликвидации Automargins: Действительно, можно сделать кромсание 2-х ступенчатым, и весь процесс может выглядеть так:

1. После DK мы подправляем синие резаки так, чтобы они текст не отсекали, и запускаем Process.

2. Сначала сканы обрезаются прямо по синим резакам (или чуть больше), обрабатываются по заданию и так и выводятся в окне Result view, при этом пусть линия реального будущего реза будет обозначена на скане прямоугольником (можно красным).

3. Теперь, просматривая сканы, мы гарантированно видим, не обрезается ли где текст, и подправляем его через "Alt + стрелка". Подправляем лишь примерно - лишь бы загнать обрезаемый текст внутрь зоны будущей обрезки. Кстати, хорошо бы сделать, чтобы все 4 стрелки двигали скан без Alt - для этого следует отобрать у стрелок "верх-низ" функцию листания сканов в Result view.

4. Это была предварительная обрезка. Закончив просматривать сканы, не выходя из Result view, запускаем уже окончательную обрезку - такую, как сейчас.

5. Подправляем сканы через "Alt + стрелка" уже окончательно (точно) - как и сейчас мы это делаем.

Таким образом, хотя и кромсание получится 2-ступенчатым, но зато оно в общем сильно упростится - уйдут Automargins, и мы будем точно уверены, что ничего нужного не отрезается (а сейчас нет такой уверенности), а просмотр и правка результатов предварительного кромсания будет происходит достаточно быстро - т.к. тут точность не нужна, достаточно будет лишь просто "загнать"потенциально неправильно обрезаемый скан внутрь зоны обрезки.
Автор: bolega
Дата сообщения: 29.05.2006 15:10
sergeant20

Цитата:
Я набросился на дебуговую версию и пытался безрезультатно кромсать с picture area.

Если Вы имеете ввиду djvu, то picture-zone тут ни при чем. Это как раз тот случай, когда они абсолютно не нужны. Из-за того, что исходный скан как был цветной, так и остался таковым. Другое дело, что для pdf зоны позволили сократить размер в 7 раз.
Я выложил ее чтобы продемонстрировать только две вещи: улучшение pdf и то, что такой простой и тупой операции, как magic clear, достаточно, чтобы результат хорошо сжался в djvu несмотря даже на то, что dpi=400 является вообще-то чрезмерным для color-сканов. Обычно считается, что цветные книги надо сканировать и кодировать с dpi-150-200. Я же показал, что, наоборот, увеличение dpi скана вкупе с чисткой фона дает лучшее сжатие, во всяком случае, для не-старых книг. Обратите внимание, что книги-ужасы состоят сплошняком из цвета (они буквально залиты им) и тем не менее несмотря на 300dpi прекрасно сжались. Парадокс.

Зоны нужны для другого: представьте, что имеется страница с ч/б текстом и серой/цветной иллюстрацией. Как обычно обрабатывается она? Два варианта: либо вся оставляется как есть (тогда она будет выделяться на фоне остальных), либо в другой программе вырезается иллюстрация, в SK оставшееся обрабатывается переводом в b/w с апсэмплингом, чистится, затем этот b/w (подложка) переводится снова в первонач.формат (color или grey), на него накладывается вырезанная ранее иллюстрация и результат кодируется в djvu (хорошо кодируется, т.к. dpi страницы не отличается от соседних, она вычищена, она по сути ч/б, поэтому текст весь уходит в foreground, а иллюстрация уходит в background-слой djvu). Введение же зон позволяет полностью автоматизировать этот процесс: кромсатор сам вырежет, сам повернет, сам спозиционирует на выходе, сам изменит если надо dpi, сам сольет. Только и всего. Но не думайте, что эти зоны - панацея от всего.

Добавлено:
P.S.
Кстати, хотел сказать: последнее время на форуме создается атмосфера сильного давления на меня, при которой создается впечатление, что от меня можно _категорично требовать_ сделать то-то и то-то. Это я уже начал ощущать и по личным письмам. Я начинаю себя чувствовать неуютно, как работник, который обещал начальнику выполнить работу, и не смог. Заметил, что чем больше я делаю фич, тем сильнее давление и недовольство. Чтобы никого не разочаровывать невыполненными обещаниями и прочими багами (я же не ума палата, чтобы мне все удавалось), а также ради сохранения своей нервной системы, я почти принял решение о прекращении распространения кромсатора.
Автор: Arcand
Дата сообщения: 29.05.2006 15:24
bolega
Все чего-то просят и я попрошу, вдруг дадут . Зоны это здорово, без них цветные книги делать большая проблема. Вот еще бы автоматизировать выделение самих зон. Пусть они не всегда будут удачными, их можно поправить вручную. В книгах нередко цветной текст рассыпан по странице и выделять его вручную муторно. Нельзя ли ввести в СканКромсатор функцию автоматического выделения в зоны цветного текста и картинок?

ЗЫ: В связи с последним Вашим замечанием, вопрос снимается . А может не обращать внимания на ретивых товарищей .
Автор: bolega
Дата сообщения: 29.05.2006 15:31
Arcand

Цитата:
Нельзя ли ввести в СканКромсатор функцию автоматического выделения в зоны цветного текста и картинок?

Я уже думаю над эти потихоньку. Хорошо было бы реализовать.


Автор: vitaly1
Дата сообщения: 29.05.2006 15:40
bolega

Цитата:
я почти принял решение о прекращении распространения кромсатора

Очень надеюсь, что этого не случится.

Друзья, давать уважать Автора!
Автор: sergeant20
Дата сообщения: 29.05.2006 16:00

Цитата:
Зоны нужны для другого: представьте, что имеется страница с ч/б текстом и серой/цветной иллюстрацией. Как обычно обрабатывается она? Два варианта: либо вся оставляется как есть (тогда она будет выделяться на фоне остальных), либо в другой программе вырезается иллюстрация, в SK оставшееся обрабатывается переводом в b/w с апсэмплингом, чистится, затем этот b/w (подложка) переводится снова в первонач.формат (color или grey), на него накладывается вырезанная ранее иллюстрация и результат кодируется в djvu (хорошо кодируется, т.к. dpi страницы не отличается от соседних, она вычищена, она по сути ч/б, поэтому текст весь уходит в foreground, а иллюстрация уходит в background-слой djvu). Введение же зон позволяет полностью автоматизировать этот процесс: кромсатор сам вырежет, сам повернет, сам спозиционирует на выходе, сам изменит если надо dpi, сам сольет. Только и всего. Но не думайте, что эти зоны - панацея от всего.


Я именно так и делал. Для книг по биологии картинки бывают не менее важны чем текст.
Может я что то не так делаю. Я пытаюсь до кромсания выделить зону как картинку. Но
контекстные меню на левой кнопке мыши не активны.
Теперь о стратегии развития кромсатора. Мне кажется, что Вы не правы. Если кто то наглым тоном от вас чего то требует, то отправляйте такие письма в треш и не берите в голову. Если же кромсатор уходит в глубокое подполье, то с одной стороны вы будете вариться в собственном соку и вы лишитесь большой группы БЕТТА тестеров. К тому же средне статистическое качество книг у народа не будет улучшаться, а будет деградировать. Благодаря кромсатору планка качества сканов поднялась очень высоко. Достаточно сравнить сегодняшние и сканы 5-7 летней давности.

Страницы: 12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758596061626364656667

Предыдущая тема: MSN Search Toolbar with Windows Desktop Search


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.