Ru-Board.club
← Вернуться в раздел «Программы»

» ScanKromsator СканКромсатор (Часть 3)

Автор: bolega
Дата сообщения: 12.05.2011 10:29
shch_vg
http://www.descreen.net/rus/help/descreen/home/descreen_manual.htm
CК давит растр не так хорошо, как sattva descreen, но зато полностью на автомате, безо всяких настроечных параметров (в новой версии естественно, где появилась опция descreen). И СК плохо давит растр, который рсаполагается под углом. Но в реальных книгах я пока такого не встречал.

Кстати, в СК есть еще и 4-й способ, который не упомянут в статье. Это парметр inverse dithering в свойствах зоны. Тоже хорошо убирает растр.
Автор: woodyfon
Дата сообщения: 12.05.2011 18:19

Цитата:
Для обучения лучше юзать СТ.

Согласен, но SK объективно лучше все делает (по крайней мере в результате алгоритмов SK результаты получаются лучше).
Тогда такой вопрос: разрешаете ли вы сделать перевод к новой версии на русский язык? Не защищен ли exe-файл? Спрашиваю, чтобы не тратить время на проверку.
Автор: sanatoliy
Дата сообщения: 13.05.2011 05:01
я не знаю где спросить, но почему-то нигде толком не нашел ответа, можно ли с помощью каких-то прог с гамно пдф сделать хороший пдф, или путь только один - распознать его в ворд, а потом куда угодно. Обидно, в сети много есть действительно уникальных книг под 200д стоимостью, но сделанных тупыми ламерами.
Автор: monday2000
Дата сообщения: 13.05.2011 08:23
СК 5.92.

Обнаружен глюк с Auto-Clear. Вроде бы когда захватываешь красным прямоугольником край большого чёрного объекта (точно не могу понять условия возникновения глюка), то красный пунктирчик сменяется чёрным - и его чистящий эффект пропадает. Вернуть функциональность Auto-Clear назад уже не получается никак кроме как через перезапуск программы.

Чищу сейчас одну книжку - и буквально задолбался этим глюком уже.
Автор: shch_vg
Дата сообщения: 13.05.2011 13:56
monday2000
А в 5.93?
Автор: bolega
Дата сообщения: 13.05.2011 14:01
monday2000
Никогда не встречался с таким глюком. Помню, очень давно была у одного юзера похожая претензия, дело оказалось в какой-то клавиатурной утилите. Например, Autoclear ведет себя по-разному, если нажаты Shift (получится auto-despeckle) или Ctrl+Shift (получится затягивание белых спеклов на черном фоне - fill holes).


Добавлено:
sanatoliy

Цитата:
но почему-то нигде толком не нашел ответа, можно ли с помощью каких-то прог с гамно пдф сделать хороший пдф


C gamno pdf можно сделать другой gamno pdf
Если серьезно, то это все индивидуально.

Добавлено:
woodyfon

Цитата:
разрешаете ли вы сделать перевод к новой версии на русский язык? Не защищен ли exe-файл?

Скажем так, я ничего не запрещаю. И файл не защищен. Ресурсы exe-можно менять.
У меня у самого была мысль руссифицировать его. Но хорошего бесплатного русификатора я не знаю. Возможно, я просто перейду полностью (за исключением устоявшихся терминов типа deskew, despeckle и т.п.) на русский язык.

monday2000
Кстати, движок, на основе которого я делал свой, стал бесплатным. Так что с точки зрения чистоты, СК стал практически белым. От dll-к я избавился в 5.94.
Автор: woodyfon
Дата сообщения: 13.05.2011 18:46

Цитата:
Возможно, я просто перейду полностью (за исключением устоявшихся терминов типа deskew, despeckle и т.п.) на русский язык.

Если будет, то когда? Попробовал, запакован файлик. Удалось распаковать. Много авторских сленгов, к тому же написан на Delphi. Очень будет трудно переводить.
Автор: bolega
Дата сообщения: 13.05.2011 20:32
woodyfon

Цитата:
авторских сленгов

Дык за столько лет хоть один бы юзер подсказал правильное написание, а то ведь у меня английский своеобразный до ужаса
Автор: woodyfon
Дата сообщения: 13.05.2011 21:23
bolega

Цитата:
Дык за столько лет хоть один бы юзер подсказал правильное написание

У каждого свой английский. Попробуем подсказать правильное написание во время перевода. Начну с меню. Относительно недавно стал рыть в SK. Нашел пару интересных моментов и фич, которые есть только в нем. Сделать дружественный интерфейс, подправить перевод, замануалить - scan tailor отдыхает.

Автор: sanatoliy
Дата сообщения: 13.05.2011 23:38

Цитата:
C gamno pdf можно сделать другой gamno pdf
Если серьезно, то это все индивидуально.

ну вы то хоть скажите в каком направлении рыть, вот конкретно - сделал захват скрина, перетащил его в файн-рид, прекрасно распознал, даже потом идеально преобразовалось в хороший пдф, но как всегда найдется пара букв, которые портят всю эстетику, делаешь попытку исправления - летит не только масштаб, но и вся разметка строки. Может кто из опытных лосей возьмется курировать, я всё сделаю сам, ему отдам все лавры. Дело то в общем-to уникальное, вот 3 супер книги , я аж сам одну из них имею за свои кровные, надо их довести до ума, что странно OCR делается быстор и легко, но белый фон даже через тотальный захват синеет только по-строчно, такое читать - значит жечь белым фоном себе глаза, но не довести эти шедевры до идеал - эт лингвинистический грех.

http://rutracker.org/forum/viewtopic.php?t=2124811
A Comprehensive Grammar of the English Language (Randolph Quirk, 1985).pdf

http://rutracker.org/forum/viewtopic.php?t=3410283
R.Quirk, S.Greenbaum - A University Grammar of English [1976 г., PDF, ENG]

http://rutracker.org/forum/viewtopic.php?t=2124822
Sidney Greenbaum, Randolph Quirk - A Student's Grammar of the English Language [1990, PDF]

Дайте хоть тезисные рекомендации, как оптимально подступиться.
Автор: alpopo
Дата сообщения: 14.05.2011 06:22
sanatoliy
Цитата:
или путь только один - распознать его в ворд, а потом куда угодно. ]Дайте хоть тезисные рекомендации, как оптимально подступиться.не довести эти шедевры до идеал - эт лингвистический грех.  

Именно так-распознать его в ворд!!!
Автор: woodyfon
Дата сообщения: 14.05.2011 11:49
sanatoliy
Наличие OCR-слоя обязательно? Если возможно, дайте ссылки на файлообменники. Поиграюсь.
Если нет, то обычно такие книжки я переделываю так.
1. Экспорт страницы в отдельный tif-файл в режиме серого (>300 dpi).
2. Обработка экспортированных изображений.
На этом этапе иногда приходиться посидеть лично на стринице.
3. Сборка в Adult Image To PDF c сжатием для черно-белых G4FAX.
4. Применение технологии ClearScan (только Adobe Acrobat, в версии 9 и выше).
Но если страницы pdf-файла черно-белые, то практически улучшить не получиться.
Автор: sanatoliy
Дата сообщения: 15.05.2011 06:09

Цитата:
Если возможно, дайте ссылки на файлообменники.

эти книги я случайно обнаружил пару недель назад на рутракере, поэтому я и дал туда ссылки, на файлообменники ссылок нету. Вообще я заметил одну странность, если чел подсел на файлообменники, то он полностью игнорирует трекеры и наоборот. Я имею опыт на обеих и всем бы рекомендовал переориентироваться на трекеры, там ваши выкладки будут жить намного дольше, конечно там есть свои сложности, но если вы освоили такую прогу как кромсатор, то научитесь держать рейтинг и там, самый лучший не только русский, да пожалуй и мировой трекер - рутрекер.

woodyfon, посколько вы вызвались помочь без всяких условий, то я выслал вам на безсрочное пользование акоунт на 5ТБ, я его полностью не дарю потому, что трекер такая странная штука, что в любой момент тебя могут выкинуть, так что для страховки всегда надо иметь дубль, но пользуйтесь им как хотите и скачайте эти книги, если даже не хватит 5ТБ - не переживайте, я через кроссинг подниму вам рейтинг. Кстати главное преимущество трекеров, что на флагмановских трекерах средня скорость 1,5 Мбайт/с, а на рапиде только 100кбайт/с.


Цитата:
Наличие OCR-слоя обязательно?

чет не понял смысла вопроса, уж если делать, так делать стандарта не хуже, чем тут http://forum.ru-board.com/topic.cgi?forum=93&topic=3172&start=2180 Автор: TWDragon.
что касается OCR, то там вы увидете в однoй ис книг оср, засвечиваешь мышью на копи и видишь, что 20% текста не охватывываются.

Автор: woodyfon
Дата сообщения: 16.05.2011 21:26
sanatoliy
Книжки Comprehensive и Student's примерно одного качества. Я бы сразу такие книжки бы выкинул, но как вариант можно их обработать по тому алгоритму, котоый в раннем топике писал, с обязательным CS (в процессе OCR возникает столько ошибок, что придется посидеть очень долго). Книга University подается нормальной сканообработке, я бы селал полный OCR с проверкой орфографии в формате doc. Но опять таки, вы посчитайте усилия, которые приложите, получив результаты. Не редко бывает проще, быстрее, найти бумажную книжку, отсканить ее и собрать. Ведь электронные книжки в основном читают с экрана или распечатывают. Нужен ли вообще OCR?
Давайте перейдем в тему http://forum.ru-board.com/topic.cgi?forum=5&bm=1&topic=29984#1, а то пошли сообщения не по теме.
bolega
Уже твердо решил заняться переводом на русский язык ScanKrmsator. Вот только толком не знаю, какая последняя стабильная (финальная) версия. Скажите, пожалуйста, также хотя бы примерно назовите строки локализации вами, если такое, конечно, будет.
Автор: monday2000
Дата сообщения: 18.05.2011 12:00
bolega

Цитата:
Никогда не встречался с таким глюком.

Всё, разобрался я. Просто это от двойного клика переключалась чистка на деспекл. А двойной клик - оказалось слишком растяжимым понятием.

Цитата:
Так что с точки зрения чистоты, СК стал практически белым.

А какая у него лицензия? Любая программа имеет окошко с информацией о своей лицензии и об используемых библиотеках. Без этого любая программа считается нелицензионной.

Цитата:
Кстати, движок, на основе которого я делал свой, стал бесплатным.

А как он называется, сообщить не хотите? И ссылку бы неплохо увидеть - на объявление о том, что он стал бесплатным.

Кроме того, как правило, у всех бесплатных движков есть обязательное условие - использующая их программа обязана включать в явном виде упоминание об использовании этого движка - с его названием и ссылкой на сайт производителя движка.

Невыполнение этого условия нарушает лицензию на использование движка. Примеры - FreeImage, SMF.
Автор: monday2000
Дата сообщения: 19.05.2011 08:49
bolega
Вот ещё одна ужасно раздражающая фича в СК 5.92 - отдельное запоминание масштаба для каждого чистящего инструмента:

Если нажать на Fit Image, затем нажать кнопку Ластик, крутануть колёсико мыши на увеличение, и нажать кнопку Режим Mouse-up очистки - то масшаб тут же вернётся к запомненному (на изначальном Режим Mouse-up очистки) масштабу Fit Image.

Это крайне неудобно и очень раздражает. Ведь нужно на одном и том же масштабе то и дело менять инструмент очистки - с ластка на Mouse-up clear. А масштаб сбивается при смене инструмента очистки - и потом нужно искать опять то место, где ты только что чистил.

Автор: bolega
Дата сообщения: 19.05.2011 10:56
monday2000

Цитата:
ужасно раздражающая фича

Хорошо, что напомнили. Чтобы я это сделал как опцию.
Мне она тоже не нравится. Но пару лет назад меня кто-то убедил здесь на форуме, что это самое правильное поведение )))
Автор: Olive77
Дата сообщения: 19.05.2011 18:07
кто подскажет почему к picture-zone добавляется серый фон?
в вырезанной картинке ничего такого не наблюдается.
Появляется после слияния.



P.S.: SK 5.93b

Добавлено
P.P.S.: это я ошибочно предпологал, что выбранный цвет в Background мне заменит близкие цвета к серому на серый.
Автор: monday2000
Дата сообщения: 20.05.2011 12:05
bolega
Я заинтересован в скорейшем выходе новой версии СК - потому что ожидаю, что в ней будет реализован полный цикл по работе с разделёнными сканами.

Это позволило бы мне упростить DjVu Imager и DjVu Small - убрав оттуда привязки к СК в плане разделённых сканов (именно поэтому я заинтересован в новом СК).

Ещё парочка идей:

1. Декодирование произвольного PDF в TIF можно программно осуществить при помощи GhostScript. Там есть DLL всего на 9 МБ - как я понял, подключаемая к самодельному приложению. И даже довольно прилично по качеству декодирует (почти так же хорошо, как и PDF X-Change Viewer). Конечно, добавлять 9 метров к размеру программы нежелательно - но как доп. оцию это можно предусмотреть. Кому нужно декодирование PDF в TIF, те пусть качали бы DLL на 9 МБ, и подсовывали бы её к экзешнику СК. Я всё надеялся на MuPDF как на способ программного декодирования любого PDF - но эта затея полностью провалилась - качество декодирования оказалось не то (из-за убогих шрифтов).

2. Я сделал программу на базе CuneiForm для распознавания DjVu - CuneiDjVu:

http://www.djvu-soft.narod.ru/scan/cuneidjvu.htm

Там внутри есть скомпилированный под Windows CuneiForm-Linux версии 1.1. Нельзя ли использовать его OCR для создания "Умного Despeckle"? Т.е. получать через его OCR геометрические данные о координатах букв, и чистить скан за пределами букв. CuneiForm-Linux поддерживает побуквенную детализацию OCR, и работает он шустро, и свободно-бесплатен. Такой функционал можно было бы и в СК встроить (зная Вашу любовь к идее "всё-в-одном" ).
Автор: shch_vg
Дата сообщения: 20.05.2011 12:41
monday2000

Цитата:
1. Декодирование произвольного PDF в TIF можно программно осуществить при помощи GhostScript.

А чем это лучше уже имеющегося в СК механизма декодирования?
Автор: bolega
Дата сообщения: 20.05.2011 14:14
monday2000

Цитата:
Нельзя ли использовать его OCR для создания "Умного Despeckle"?


В СК уже есть такой встроенный метод - safe despeckle. И есть уже несколько лет. С буквами все более-менее понятно. Хуже обстоят дела со знаками препинания.

shch_vg

Цитата:
А чем это лучше уже имеющегося в СК механизма декодирования?

Речь насколько я помню шла и о декодировании векторных pdf. Хотя зачем их нужно обрабатывать в СК, я не очень понимаю.



Добавлено:
monday2000

Цитата:
Я заинтересован в скорейшем выходе новой версии СК - потому что ожидаю, что в ней будет реализован полный цикл по работе с разделёнными сканами.


Да, полный цикл уже работает. Последние 20-30 djvu-книг я полностью закодировал в СК.
По поводу новой версии: а я уже не заинтересован. Во-первых, совсем нет времени чтобы добить мелочи. Мелочи - это как раз то, на что труднее всего выкроить время
Во-вторых, на форумах, включая и на иностранных, за последний год очень много критики СК или просто отрицательных отзывов об СК, в темах типа "СК vs СТ". Это собственно и привело к тому, что я абсолютно охладел к дальнейшему распространению СК. Когда я все-таки доделаю версию, я разошлю ее приватно активным пользователям СК. Это точно. А что будет потом, я не решил. Но пока желания и стимула выпускать публичный релиз нет никакого. Включаться в состязание с СТ не хочется, уже возраст не тот.
Автор: ghosty
Дата сообщения: 21.05.2011 19:19
bolega

Цитата:
По поводу новой версии: а я уже не заинтересован. Во-первых, совсем нет времени чтобы добить мелочи. Мелочи - это как раз то, на что труднее всего выкроить время
Во-вторых, на форумах, включая и на иностранных, за последний год очень много критики СК или просто отрицательных отзывов об СК, в темах типа "СК vs СТ". Это собственно и привело к тому, что я абсолютно охладел к дальнейшему распространению СК.

Не всегда Вас понимаю Ведь Вы прекрасно знаете, что СК и СТ выступают в разном весе. Зачем же их сравнивать и делать какие-то далеко идущие выводы.
Каюсь, я и сам года два назад хотел сделать сравнительную таблицу по СК и СТ, но потом быстро понял, что все и так очевидно.
За СК гигабайты колхоза, а за СТ - десятки неряшливо обработанных книг на натахаусе. Ну и т.п.
Автор: woodyfon
Дата сообщения: 21.05.2011 19:35
Поддерживаю, перейдя на ST стало откровенно быстрее делать книжки, но качество желает лучшего. ST годится только для текста, остальное ему не под силу. Хотя чтобы овладеть SK нужно черта обыграть, но оно того стоит.
Автор: shch_vg
Дата сообщения: 22.05.2011 18:23
ghosty

Цитата:
За СК гигабайты колхоза, а за СТ - десятки неряшливо обработанных книг на натахаусе.

Склонен скорее согласиться с bolega, хотя и Ваша выше приведенная цитата имеет право на существование. Но дело в том, что первая часть Вашего утверждения в дальнейшем будет изменяться мало, а вторая довольно быстро достигнет терабайтов и не только на натахаузе, но и в инете вцелом.
У СК остаются те, кто к нему пришел во времена его монополии, когда СТ вообще не было, либо только-только появилось. Лично у меня даже не появлялось желания попробовать СТ, т.к. практически все, что мне надо было для обработки шахматной литературы, я уже в СК знал, а тратить время на освоения нового было просто жаль.
Но я сужу по вновь появляющимся в последние год-два обработчикам.
Большинство из них говорят, что им быстрее и проще обработать в СТ, причем речь о качестве результата не идет, т.к. им просто не с чем сравнивать.
На мой взгляд СК уступило СТ из-за документации и степени автоматизации.
Поставьте себя на место новичка в обработке, который преобрел сканер и желает осчастливить человечество обработанными из своей (и не только своей) библиотеки книгами. Первым делом он узнает, что есть СК и СТ, затем он начнет пробовать и то, и другое, и быстро выяснит, что с СК непонятно, что надо делать, хотя и найдет несколько описаний процесса. Зато в СТ у него море документации и элементарный переход из окна в окно (здесь я могу ошибаться, т.к. о СТ практически не имею представления, а только что-то слышал ).
Можете представить его радость, когда путем простых манипуляций ему удастся получить нечто, в чем он сможет различить все буквы, а если повезет, то и картинки. После этого поток подобного качества превратится в полноводную реку.
Таких энтузиастов будет сотни или тысячи и только единицы, ну максимум десятки их них вскоре будут недовольны результатом своих трудов, вот именно они могут посмотреть в сторону СК. Но лично я не знаю ни одного описания работы в СК, с помощью которого можно было бы получить результат лучший, чем в СТ (по крайней мере в обработке шахматной литературы).
Сравнительно недавно мне пришлось консультировать через аську новичка по обработке шахматной книги, поэтому должет сказать, что это не такое простое дело, хотя мне и не пришлось рассказывать все, что я знал об СК.
Автор: Torino
Дата сообщения: 22.05.2011 18:53

Цитата:
Включаться в состязание с СТ не хочется

Лично я пользуюсь как ST так и SK.
Если обрабатывать хороший grayscale скан без наворотов в виде фона, сложной графики и т.п., то в ход идет ST.
Если речь идет либо о плохих исходниках, либо о сложном содержимом страниц, которое необходимо обработать и сохранить, то ST тут бессилен и выбор однозначно за SK.
Было бы жаль, если развитие SK заморозится.
Автор: seka1894
Дата сообщения: 23.05.2011 18:09
скан тейлор практически не работает вручном режиме, а на автомате вещи подобные таблицам убиваются СТ напрочь. Алгоритм , видать их не понимает. в СК с этим получше, гораздо лучше, зато скорее он полуавтомат, чем автомат

Добавлено:
качество продуктов от SC выше и читабельнее, чем от ST, факт

Добавлено:

Цитата:
bolega


Цитата:
Включаться в состязание с СТ не хочется, уже возраст не тот.


Здравствуй, уважаемый создатель! не дай умереть проекту, предложи энтузиастам, найди преемника или сделай его open-source, но но Кромсатор - должен жить ибо нет ему аналогов. Тейлор - прога сама по себе, у нее свой путь, он не пересекается с твоим проектом, как, нм, едут же рядом Жигулишки и Лексусы - у них у каждого своя судьба, хотя назначение одно. SK - , однозначно, это Лексус в области сканирования под книжки. Читать его сканы на порядок приятнее тейлоровских.
Автор: Gazoved
Дата сообщения: 24.05.2011 19:03
Делая первую сотню книг я у себя на сайте сделал опрос для пользователей, хотят ли они видеть много но сырых сканов или существенно меньше, но качественно, или же и что Вы думаете, я получил однозначный перевес большинства голосов - медленно, но качественно


Цитата:
перейдя на ST стало откровенно быстрее делать книжки, но качество желает лучшего


сейчас количество страниц книг и журналов перевалило за 200 тыс страниц, использую только SK, хотя так и не освоил метод раскраски и часто приходиться мучится со школьными учебниками, где очень любят выделять номера страниц или же номера разделов в цветные квадратики

Буду рад любому продвижению SK и всех кто из знакомых делал в ST переубедил работать в ST!
Автор: gsn13n
Дата сообщения: 24.05.2011 21:07
Как-то я не допонял о каких гонках с ST идет речь? Вменяемая публичная версия справила трехлетний юбилей. У ST между тем (пусть и не авторские версии) выходят релизы. Для аникейшика программа-мечта -- из приличного скана получаются прекрасные картинки... и в help заглядывать не требуется.
С SK мне не повезло и все версии из шапки (за исключением 5,91 из пакета от Melirius) чудесным образом не переваривают тифы из-под акробата и ACDSee, Из преимуществ у SK над ST - программа адекватно реагирует на предобработку сканов другими редакторами и богатые настройки при обработке текста... и с ST ее и рядом не поставишь(есть много свободного времении и желание каждую страничку ручками потрогать, используй SK).
Для обработки книг лучше и проще использывать ST. О каких неряшливых книгах, выходяших из-лод ST остается только догадываться. На всем встречающемся хламе красуется значок SK... Для меня SK был бы идеалом постобработки, если бы имел русский фейс и одной галочкой принимал заданную полезную область, а все остальное без напряга прекрасно в ST сделаю.
И откровенно смешно читать, как некоторые освоили такого монстра, как SK и возникают трудности с раскраской маски (уж насколько все интуитивно, да и подробный help у monday2000 в программах присутствует)
Автор: shch_vg
Дата сообщения: 24.05.2011 22:02
gsn13n
А то же самое, только на нормальном русском не попробуете написать?
Я практически так и не понял, что Вы хотели сказать, кроме того, что СТ - супер, а СК - г...о, т.к Вам не удалось найти нужной версии.
Автор: gsn13n
Дата сообщения: 25.05.2011 00:25
shch_vg
Понял как-раз то, о чем не говорил
1. Программа не развивается, раз нет публичных релизов
2. Версии программы, прибитые в шапке имеют склонность к засыпанию и не любви к картинкам извлеченными акробатом
3. СК прекрасно подходит для обработки сканов, отвратного качества (доктор для тяжелых случаев, НО... в большинстве случаев без заморочек обработку сканов удобнее и доступнее провести в СТ. ПОЭТОМУ и было пожелание к автору - русский фейс, кнопочку для фиксации полезной области (макетирование проекта удобнее проводить сторонними программами, а вывод резаков за полез.область - много телодвижений)... и не только читать, как прекрасна новая версия программы, но и самим ее щупать.
P.S. Заметьте ни разу не сказал это - г...о, а это - супер.

Страницы: 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102

Предыдущая тема: мнение о Maxthon


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.