Ru-Board.club
← Вернуться в раздел «Программы»

» Scan Tailor: Часть 2

Автор: OleM2k
Дата сообщения: 13.06.2011 18:46
Как-то поторопился и вместо сообщения в Scan Tailor создал тему http://forum.ru-board.com/topic.cgi?forum=5&topic=36571#1 и как удалить тему не знаю... Да ладно. Сообщение:

Scans To Booklets - Graphic Scripts of Nautilus
» Удобства при обработке отсканированных книг.

Я часто пользуюсь скриптами «Scans To Booklets - Graphic Scripts of Nautilus», которые предназначены для обработки отсканированных книг, конвертации их в формат DjVu и управленим страницами pdf-файлов с помощью мышки в среде Nautilus — файловом менеджере Ubuntu по умолчанию. Не сомневаюсь, они многим окажутся полезными.

g-script-ы Nautilus-а: http://g-scripts.sourceforge.net/faq.php.

Требуют установки:
sudo apt-get sed scantailor libtiff djvulibre pdf2djvu bsh itext djvudigital

1-0-rnWithoutS_p_a_c_e — переименовывает файлы в имена без пробелов.
1-1-ScanTailor — запуск ScanTailor-а.
2-1-tifs2pdf2djvuByDigital — преобразует tiff-ы через pdf-ы в djvu-юшки с помощью djvudigital и создает djvu-книгу.
2-2-tifs2pdf2djvuByPdf2djvu — то же самое, но с помощью pdf2djvu.
3-2-tifs2pdfs2pdfBookletWith20Pages2djvuByDigital — преобразует tiff-ы в pdf-ы, создает pdf-книгу/буклет из тетрадок по 20 страниц с помощью BeanShell и iText, преобразует ее в djvu-юшку с помощью djvudigital.
3-2-tifs2pdfs2pdfBookletWith24Pages2djvuByDigital — то же самое, но из тетрадок по 24 страницы.

Полезные при буклетировании действия.
4-0-djvusConcatenateByDjvm — объединяет djvu-юшки в djvu-книгу с помощью DjVuLibre.
4-1-pdfBookletOn20pagesByiText — преобразует pdf-ы в pdf-книгу/буклет из тетрадок по 20 страниц с помощью BeanShell и iText.
4-2-pdfBookletOn24pagesByiText — то же самое, но из тетрадок по 24 страницы.
4-3-pdfPagesNumberingByiText — нумерует страницы pdf-книги с помощью BeanShell и iText.
4-4-pdf&ps2djvuByDigital — преобразует ps-ы и pdf-ы в djvu-юшки с помощью djvudigital.
4-5-pdf2djvuWithText — то же самое, но только pdf-ы с помощью pdf2djvu с сохранением текста.
4-6-pdfsConcatenateByiText — объединяет pdf-ы в pdf-книгу с помощью BeanShell и iText.
4-7-tiffsplit — разрезает многокартиночные tif(f)-ы в однокартиночные tif-ы.

Обрабатывающие pdf-ы скрипты написанные на java и исполняемые в bsh:
pdfsBooklet.java — по вызову g-script-а преобразует в pdf-ы в pdf-книгу/буклет по arg[0] страниц с помощью BeanShell и iText.
pdfsConcatenate.java — по вызову g-script-а объединяет pdf-ы в pdf-книгу с помощью BeanShell и iText.
pdfsPageNumbering.java — по вызову g-script-а нумерует страницы pdf-книги с помощью BeanShell и iText.
Автор: DikBSD
Дата сообщения: 15.06.2011 13:28
Выложил новый релиз Scan Tailor Plus 1.0.0beta11:
Все изменения в основной ветке master влиты в эту версию plus

Изменения кода основной ветки master:
1. Fix failure to reserve pure white and pure black colors for B/W content. (Joseph Artsimovich <joseph.artsimovich@gmail.com>)
The problem happened in Color / Grayscale mode with "White margins" turned on.
2. Fixed deskew re-processing bug. (Masahiro Kitagawa <kitashi@users.sourceforge.net>)

Изменения ветки plus: (Vadim Kuznetsov (DikBSD) <dikbsd@gmail.com>)
~ Небольшие улучшения диалога Настроек - дизайн.
+ Этап Разрезки сканов: Сортировка по числу резаков по убыванию. Т.е. сверху - страницы с 2 резаками, за ними - с одним резаком (2 страницы), и в самом низу - без резаков (1 страница).
Данная сортировка удобна для отслеживания неверно разрезанных сканов, когда вместо 1 страницы автомат выставляет 2 резака. Сортировка сделана таким образом, чтобы эти "возможно проблемные" сканы оказались в самом верху.

Скачать: http://www.onlinedisk.ru/file/681179/

P.S Вечером залью код в git-репозиторий в ветку plus
Автор: VidelSamogO
Дата сообщения: 15.06.2011 22:40
Неплохо бы сделать ещё, чтобы результат на выводе можно было видеть сразу. До выяснения параметров всех изображений. То есть на основе только уже обработанных, как будто другие - пустое место.

Добавлено:
Кстати, моё предложение не для разработчика, а для пользователей. Вначале изображения загружать и обрабатывать с минимальным разрешением, для ускорения определения начальных параметров. То есть на входе выбирая разрешение 600, а для вывода чернового прохода - 150. А потом в тексте проекта с помощью текстового редактора всё скопом поменять в соответствующем начальном блоке на качественный ввод 150-300. А на выходе - 600. Таким образом я обработал уже более 2000 книг. Берёте, запускаете на ночь пару десятков процессов с автоопределением. Утром остаётся только немного подкорректировать и поставить на вывод в консольном варианте. Только уже создав батничек поточной обработки всех проектов.

Добавлено:
ДА. Предлагаю упразднить пункт меню - "применить к выделенным страницам" и сделать его автовключаемым по-умолчанию. Потому, что зачем мы столько всё это выделяли, кроме как затем, чтобы ко всему этому применить наш параметр?
Автор: StanFreeWare
Дата сообщения: 15.06.2011 22:53
DikBSD
Рад за освоение сортировки, значит и сортировка на стадии Вывод возможно не за горами.

Еще технический такой вопрос - можно ли в режиме смешанный как-либо анализировать, есть ли серые области, и если нет, то использовать однобитное кодирование тифов?
Это бы значительно ускорило работу Сепаратора (он бы использовал простое копирование вместо лишнего в данном случае анализа). Естественно, если это не замедлит стадию Вывода.

В фич-реквестах СТ в очередной отметил необходимость увеличения размера кнопок-сцепок стадии Поля.

Ну и все-таки подумать еще разок над заменой раскрывающегося списка Режима на простой список или набор кнопок. Мне кажется, что одно нажатие в данном случае более оправдано - по крайней мере мне приходится менять режим на порядок чаще, чем чувствительность деспекла, тем не менее последний реализован на кнопках. Правда, придумать адекватный рисунок для кнопки чтобы все было понятно с первого взгляда мне так и не удалось.
Автор: NoneNobody
Дата сообщения: 15.06.2011 23:11
При установке полей равнения на правый верхний угол вылетает во время вывода файлов. Баг?
Автор: VidelSamogO
Дата сообщения: 15.06.2011 23:36
NoneNobody
Да. Давно замечено. На старых версиях всё в порядке.
Автор: StanFreeWare
Дата сообщения: 16.06.2011 07:14

Цитата:
В фич-реквестах СТ в очередной отметил необходимость увеличения размера кнопок-сцепок стадии Поля

Реквест прошел. Кнопки-сцепки увеличены.

VidelSamogO
В баг-трекер СТ писали?
Автор: Dashout
Дата сообщения: 16.06.2011 10:14
VidelSamogO

Цитата:
То есть на входе выбирая разрешение 600, а для вывода чернового прохода - 150. А потом в тексте проекта с помощью текстового редактора всё скопом поменять в соответствующем начальном блоке на качественный ввод 150-300. А на выходе - 600

опыт интересный
если не трудно, сделайте пожалуйста под [MORE] подробную инструкцию
Автор: VidelSamogO
Дата сообщения: 16.06.2011 10:42
StanFreeWare
Нет. Только здесь писал.
Автор: DikBSD
Дата сообщения: 16.06.2011 19:34

Цитата:
Рад за освоение сортировки, значит и сортировка на стадии Вывод возможно не за горами.

Занимаюсь в настоящий момент

Добавлено:

Цитата:
Ну и все-таки подумать еще разок над заменой раскрывающегося списка Режима на простой список или набор кнопок. Мне кажется, что одно нажатие в данном случае более оправдано - по крайней мере мне приходится менять режим на порядок чаще, чем чувствительность деспекла, тем не менее последний реализован на кнопках. Правда, придумать адекватный рисунок для кнопки чтобы все было понятно с первого взгляда мне так и не удалось.

Я тоже так думаю... Надо будет с Tulonom обговорить - если он не будет против - можно сделать это в основной ветке master. Если это будет идти вразрез с его видением ST - сделает в ветке pkus.
Надо только хорошо продумать - какой тип выбора Режима более прост и предпочтительнее.
Прошу ВСЕХ высказаться по этому поводу.

Добавлено:

Цитата:
Еще технический такой вопрос - можно ли в режиме смешанный как-либо анализировать, есть ли серые области, и если нет, то использовать однобитное кодирование тифов?
Это бы значительно ускорило работу Сепаратора (он бы использовал простое копирование вместо лишнего в данном случае анализа). Естественно, если это не замедлит стадию Вывода.

Я пока не углублялся в этот код - не могу ничего сказать. Напишите Tulonу - он человек отзывчивый - подскажет.

Добавлено:

Цитата:
ДА. Предлагаю упразднить пункт меню - "применить к выделенным страницам" и сделать его автовключаемым по-умолчанию. Потому, что зачем мы столько всё это выделяли, кроме как затем, чтобы ко всему этому применить наш параметр?

Да, идея хорошая - чтобы при наличие нескольких выделенных страниц в Диалоге Применения включалась автоматом опция "применить ко всем". Я посмотрю, что здесь можно сделать.

Добавлено:

Цитата:
То есть на входе выбирая разрешение 600, а для вывода чернового прохода - 150.

Если не ошибаюсь (Tulon лучше это знает, как автор ST) - выбор DPI влияет на работу некоторых фильтров. Таким образом, после замены в текстовом редакторе входного и выходного DPI параметры фильтров все равно остаются настроенными на предыдущие значения DPI, и результат будет хуже, чем при входном DPI - как у сканов, а выходном - 600.
Но - это в теории, сам не проверял. Так что если я ошибаюсь - приношу извинения. Надо поэкспериментировать...
Автор: VidelSamogO
Дата сообщения: 17.06.2011 02:52

Цитата:
если не трудно, сделайте пожалуйста под [MORE] подробную инструкцию

Ну насчёт входа, если разрешение и размеры входных страниц очень разнятся, лучше сначала дать тэйлору самостоятельно определить входное разрешение. Иногда он не ошибается и подгоняет всё достаточно правильно. А когда надо подгонять разрешения, придётся лезть в текст проекта и править соответствующие неправильно определённым страницам, разрешения. Я использую регулярные выражения редактора EditPad pro от компании JgSoft. Лет 10 использую 4-ю старую версию этого редактора. Кстати, второй и последний проходы очень быстро прогоняю с помощью консольной версии ScanTailor,Натравливая на файл проекта, находящийся в папке исходных рисунков, вот этот батничек.

LastStep.bat с:\Путь к папке с входными страничками\Наш проект, который мы уже создали.ScanTailor :
Код: start scantailor-batch.exe -v --color-mode=mixed %1 %1\out
pause
Автор: NoneNobody
Дата сообщения: 17.06.2011 06:57
А почему нельзя исходные изображения подравнять?
Обрабатываю ноты в основном, причём зачастую с разобранных черновых pdf-ов.
Считанные секунды занимает.
Вот пара батников:

1. цветное в jpg, ч/б / серое - в tiff без подгонки

Код: for /r %%z in (*.ppm) do ("C:\Program Files\XnView\nconvert.exe" -keepdocsize -keepfiledate -rmeta -rexifthumb -overwrite -out jpeg -floyd -D "%%z") & for /r %%y in (*.pbm;*.pgm) do ("C:\Program Files\XnView\nconvert.exe" -keepdocsize -keepfiledate -rmeta -rexifthumb -overwrite -out tiff -binary floyd -c 7 -D "%%y")
Автор: alpopo
Дата сообщения: 17.06.2011 12:08

Цитата:
Ну насчёт входа, если разрешение и размеры входных страниц очень разнятся

Попалась книжка видимо спешно сфотографированная в jpg. Разрешение у всех180 дпи, а вот размер гуляет, видимо не фиксировалось расстояние книга - объектив. В итоге размер текста на странице прижатой вниз (ПОЛЯ фиксированные для всех страниц) - сверху "гуляет" до 10 строк текста.
Как пакетно выровнять размер разных страниц перед загрузкой в СТ?
Или это уже можно сделать в СТ обработкой файла проекта?
Автор: StanFreeWare
Дата сообщения: 18.06.2011 06:34
alpopo
Рецепт может быть такой - сделайте два прохода в СТ. В первом проходе определите размер полезной области так, чтобы она находилась на одном и том же месте на всех страницах. И затем выведите в цветном режиме с нулевыми полями и без выравнивания страниц.
Результат пакетно приведите к какому-либо физическому размеру пакетным ресайзом графического просмотрщика или какой другой утилиты.
Результат ресайза повторно прогнать через СТ уже в требуемых режимах. Можно предварительно пропустив 4 стадии с помощью ST Skipper.
Автор: StanFreeWare
Дата сообщения: 18.06.2011 10:40
Маленький совет - для ускорения разделения Сепаратором при выводе в смешанном режиме можно файлы, не содержащие картинок (их достаточно легко выбрать по размеру файла) предварительно пакетно перевести в однобитные тифы.

Была также мысль переводить полноцветные файлы с серыми иллюстрациями в 8-битные файлы с градациями серого, но тут надо быть аккуратнее - у меня после такого преобразования слетела информация о маске.

Кстати, при этом подумалось о таком нестандартном подкритерии сортировки на стадии вывод, как размер файла автомаски - его можно быстро определять, и он более-менее показателен. А также по размеру файла на выходе - это может помочь перевести файлы из смешанного в черно-белый режим.

А если совсем загоняться, то можно завести счетчик черно-белых пикселей, завести для него поле в файле проекта и сортировать по процентному соотношению черно-белых ко всем пикселям.
Автор: VidelSamogO
Дата сообщения: 18.06.2011 10:55
NoneNobody

Цитата:
А почему нельзя исходные изображения подравнять?

Да можно конечно. Только я привык это не в XNView, а в IrfanView, делать.
Автор: StanFreeWare
Дата сообщения: 20.06.2011 22:50
По поводу кнопок для режимов - вот очередной концепт:

По крайней мере достаточно точно отображает то, что произойдет со сканом в том или ином режиме вывода.
Автор: VidelSamogO
Дата сообщения: 21.06.2011 02:12

Цитата:
очередной концепт

Интересно. Красиво. Наглядно.
Автор: StanFreeWare
Дата сообщения: 22.06.2011 07:12
Попробовал прикинуть как кнопки будут выглядеть в существующем интерфейсе:
смотреть
Поясняющая подпись будет конфликтовать со значением бинаризации, поэтому ее решил не добавлять.
Автор: DikBSD
Дата сообщения: 22.06.2011 12:00
Добавлено:
StanFreeWare
Пришлите, пожалуйста, иконки на кнопки. Спасибо.
Автор: qwaxym
Дата сообщения: 22.06.2011 21:05
Знатоки Scan Tailor,подскажите,как снять выделение с картинки которая автоматически определилась в режиме смешанный,но мне нужно выделить по другому.
Автор: StanFreeWare
Дата сообщения: 23.06.2011 04:42
qwaxym
в заголовке темы ссылка на описание зон картинок.
Автор: monday2000
Дата сообщения: 23.06.2011 09:41
qwaxym

Цитата:
подскажите,как снять выделение с картинки которая автоматически определилась в режиме смешанный,но мне нужно выделить по другому.

http://www.djvu-soft.narod.ru/st_zones.htm
Автор: qwaxym
Дата сообщения: 24.06.2011 10:41
В заголовке читал.Объясняю подробнее.Мне нужно на рисунке который выделен почти полностью,выделить вручную внутри другую зону(цветную область),а полное выделение(как определилось автоматически) в данном случае вообще не нужно.При действиях по выше приведённой ссылке,теряется цвет,а если бы можно было отменить выделенную автоматом зону,а затем выделить как самому захочется,то и цвет остался и операция заняла совсем мало времени.Пришлось делать в редакторе.
Автор: gsn13n
Дата сообщения: 24.06.2011 15:18
А кто Вам мешает выделить нужные зоны вручную (добавить к автослою), а после обвести всю страницу (с небольшим плюсом) и вычесть из автослоя. Получите зоны выделенные вручную
Автор: qwaxym
Дата сообщения: 24.06.2011 17:58
gsn13n вот это то что нужно!Спасибо!
Автор: unreal666
Дата сообщения: 25.06.2011 18:26
Как скомпилить STE под виндой? Или есть ли уже готовый пакет для винды?
Автор: DikBSD
Дата сообщения: 25.06.2011 18:34
STE уже не разрабатывается, как отдельный форк, т.к. автор ST Tulon сделал в основной ветке git-репозитория ветку для разработки STPlus - с фичами и т.лд. (в шапке не могу удалить ссылки на STE ).
Сейяас параллельно с официальной версией ST разрабатывается STPlus - вот его можно легко скомпилировать под любую систему. Под Windows я выкладывал недавно - посмотрите несколькими сообщениями выше.
Если захотите сами откомпилировать под систему - то вот здесь: http://72.233.112.78/topic.cgi?forum=5&bm=1&topic=32945&start=900
есть инструкция, как скачать из git-репозитория исходный код. А в исходниках в папке scantailor\packaging\windows\ для Windows есть файл readme.ru.txt - с подробной инструкцией на русском, КАК собрать ST под Windows.

Автор: unreal666
Дата сообщения: 25.06.2011 19:33
DikBSD
сенкс.
Т.е. после такого обновления репозитория в папке scantailor окажется содержимое именно ветки Plus?

ЗЫ.
А перед 2-ым шагом разве не нужно делать переход в папку scantailor ?
Автор: DikBSD
Дата сообщения: 26.06.2011 06:13

Цитата:
Т.е. после такого обновления репозитория в папке scantailor окажется содержимое именно ветки Plus?

Да, именно эта ветка и должна оказаться после такого обновления в папке scantailor. Это можно будет проверить в терминале: git branch

Цитата:
А перед 2-ым шагом разве не нужно делать переход в папку scantailor ?

Вы правы - сейчас подправлю инструкцию

Добавлено:
Tulon исправил падение ST на Этапе Удаление пятен: Fix a possible crash on despeckling.
Вот новая сборка STPlus: http://www.onlinedisk.ru/file/687009/

Страницы: 12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758596061

Предыдущая тема: CmCkA v4


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.