» Scan Tailor: Часть 2

Автор: terminat0r
Дата сообщения: 12.08.2010 12:44

ndch

Цитата:

ОК. Покажи "пальцем".

А может вас еще и пятачком в код ткнуть. Я отвечаю, что говорю. Можно начать с гугла по "We are morons".

Цитата:

Зачем мне исходники ?

Цитата:

Плевал я на исходники, как таковые.

И как усовершенствовать программу без исходников? На пальцах?

Цитата:

Очевидно ни один из вас ,не занимался ни программированием, ни администрированием, ни хелпдеск в промышленных масштабах при отсутствии постановщиков задач.

А вот не надо здесь пыжиться как первомайский шарик. Очевидно только то, что вам просто делать нечего, вот вы и пишете здесь чепуху с претензией на какие-то таинственные знания. Почти каждый в этом топе так или иначе знаком с программированием на достаточном уровне (в отличие от вас), чтобы делать именения в коде. Дело в том, что эти изменения не принимаются автором в основную ветку.

Цитата:

А так, да, дистрибутивы линукса напоминают поделия отёчного автопрома (а чё, нормальные машины, кувалдой в глуши нормально чинятся.) Так вот, нет у меня желания чинить кувалдой в глуши.

А ну все понятно, windows головного мозга детектед.

Автор: ndch
Дата сообщения: 12.08.2010 13:11

terminat0r

Цитата:

Можно начать с гугла по "We are morons".

In the file private\ntos\w32\ntuser\kernel\swp.c from 11-Jul-1991:
И чему это учит ? 19 лет прошло, так к слову.

Цитата:

Я отвечаю, что говорю

Ответь где код кривой.

Цитата:

Почти каждый в этом топе так или иначе знаком с программированием на достаточном уровне (в отличие от вас), чтобы делать именения в коде.

1. Отучаемся говорить за всех.
2. Переход на личности - отсутствие аргументов.
3.
Цитата:

Но в результате этого, развивать СТ, или сделать форк проекта и тянуть его дальше в другом направлении сможет только специалист не меньшего уровня. А это увы очень и очень маловероятно.

4.[more]
Цитата:

Автор: terminat0r, Отправлено:18:24 05-05-2009
У меня проблемы с компилированием последней версии. Можете что-то посоветовать?

Автор: Tulon, Отправлено:02:26 06-05-2009
terminat0r
У вас Qt версии 4.3.1, а нужна минимум 4.4.0.

Цитата:

Автор: terminat0r, Отправлено:15:25 03-10-2009

Tulon
да напишите или сгенерируйте вы ему диаграмму классов. И выложите на первой странице. Вот и все.

Цитата:

Ликбез:
Диаграмма классов - это графическое представление структуры и отношений между собой разных сущностей внутри программы. Диаграмму можно либо создать в специальном редакторе (долго), либо сгенерировать автоматически из исходных кодов (результат - не очень). Диаграмму я не создавал - не было особого смысла.

Цитата:

Автор: terminat0r, Отправлено:20:18 03-10-2009
Возможно я ошибаюсь, так как у меня мало опыта в разработке. Но как говорят, программу надо начинать писать всегда с докумментации.

[/more]

Скачущий мяч, абсолютно не знакомый с программированием, способен делать изменения в коде.

Есть что по-существу сказать ?

Цитата:

Конечно, я Tulonа не виню ни в чем, но мысли monday2000 идут в правильном направлении.
СТ развивается совсем не по пожеланиям пользователей, а только по видению его автора.
Стоит упомянуть хотя бы
1. ластик,
2. отключаемые шаги обработки
3. жесткие условия поддерживаемых входных сканов (по dpi, размерам etc.)
и т.д (здесь еще достаточно пунктов)
Все это автору делать не интересно, потому что это или не укладывается в его концепцию программы или слишком тривиально (а Tulonу нравятся только трудные задачи ), хотя отлично смотрится в понимании пользователей.

Если нет понимания почему нужны "жесткие условия поддерживаемых входных сканов (по dpi, " то ни с каким знаниями и умениями программирования тут не справится.

Вы вообще знаете что такое T3 ?

Автор: terminat0r
Дата сообщения: 12.08.2010 13:45

ndch

Цитата:

Если нет понимания почему нужны "жесткие условия поддерживаемых входных сканов (по dpi, " то ни с каким знаниями и умениями программирования тут не справится.

Хм, книг с печатью scanned by terminat0r oколо 3 сотен (и это не считая еще книги, которые не я сканировал и делал, а просто переделывал). Вы хотите мне рассказать что-то о dpi чего я не знаю?

Цитата:

так как у меня мало опыта в разработке.

По сравнению с Tulon (судя по его словам),- мало, по сравнению с вами (судя по вашим словам), мой опыт огромен.
Диаграмма классов говорит о очень многом разработчикам со стороны,особенно если автору лень писать документацию (а именно это Tulonу действительно до сих пор лень делать).

Цитата:

У вас Qt версии 4.3.1, а нужна минимум 4.4.0.

Я не отслеживаю изменения интерфейсов и классов в Qt, а должен ли?

Цитата:

Скачущий мяч, абсолютно не знакомый с программированием, способен делать изменения в коде.

Продолжайте убеждать себя и дальше.

Добавлено:
ndch
Попрошу меня не спамить.
[more]
От:    ndch (в адресную книгу)
Дата:    15:06 12-08-2010
Тема:    писюнометр

Цитата:
Хм, книг с печатью scanned by terminat0r oколо 3 сотен (и это не считая еще книги, которые не я сканировал и делал, а просто переделывал). Вы хотите мне рассказать что-то о dpi чего я не знаю?

Также я видел множество журналов на журнал-плаза.
"На улице лето. Я круче." - не аргумент.
Про dpi Тулон уже объяснил почему пошел на такие меры. Более чем очевидно.
Чтение вслух - 300$/час.

Цитата:
По сравнению с Tulon (судя по его словам),- мало, по сравнению с вами (судя по вашим словам), мой опыт огромен.

Извините, Вам сколько лет ?

Цитата:
Диаграмма классов говорит о очень многом разработчикам со стороны,особенно если автору лень писать документацию (а именно это Tulonу действительно до сих пор лень делать).

Если Вы не были удовлетворены ответом Тулона, ищите причину в себе.
Хватит прилюдно плакаться.

Цитата:
Я не отслеживаю изменения интерфейсов и классов в Qt, а должен ли?

http://scantailor.git.sourceforge.net/git/gitweb.cgi?p=scantailor/scantailor;a=blobdiff;f=packaging/windows/readme.ru.txt;h=63d17f2b657a0878cb882bdf95b6d5c32e3dd29a;hp=951a230b65ed9a4b4cfe5fd33124e9efc6bc4bdd;hb=8ef026526078a59e675b4bdb53f9c203d2a67a67;hpb=f75ad4f3b1081eb81fb76419439687239f224768

Цитата:
Qt 4.x.x (протестировано с Qt 4.4.2)

readme.ru.txt для кого писали ?

Все то у Вас виноваты, всё то у Вас Самое Большое.
Э-э-эххх, молодёжь.
---------------------------------------

Меры по dpi это удобство разработчика а не пользователей.
Мне 34 и тем чем вы желаете мерятся я уже давно не меряюсь.
Ответ Тулона о классах был дан не мне а таким пользователям как вы.
Если бы внимательно посмотрели то ошибка сборки была под линксом, и ваши цитаты по сборке в виндовсе с пом визуальной студии не в тему. Все библиотеки и инструментарий установлены в линуксе по умолчанию, а правильно написаный конфигурационный файл к cmake должен проверять версию Qt, так что это камень в сторону Tulona а не меня.
Ну и т.д.
[/more]

Автор: ndch
Дата сообщения: 12.08.2010 14:14

terminat0r
Тулон объяснил что происходит.
Хочешь помочь проекту - пиши багрепорты.

Псевдоиндус вспомнился.

Добавлено:

Цитата:

Ответ Тулона о классах был дан не мне а таким пользователям как вы.

Вы когда оправдываться перестанете ? Тошно от такого.
http://forum.ru-board.com/topic.cgi?forum=5&bm=1&topic=27424&start=1320#2

Цитата:

Qt 4.x.x (протестировано с Qt 4.4.2)

Цитата:

Если бы внимательно посмотрели то ошибка сборки была под линксом

1. Вы и в правду думаете что разработчик будет тестировать сборку с разными версиями чего бы то ни было ?
2.lynx, как Вы выразились - это ядро.

Автор: terminat0r
Дата сообщения: 12.08.2010 17:37

ndch

Цитата:

1. Вы и в правду думаете что разработчик будет тестировать сборку с разными версиями чего бы то ни было ?
2.lynx, как Вы выразились - это ядро.

Вас наверно это удивит, но основная ОС для разработки СТ - дистрибутив linux. Можете спросить об этом у автора.

[more]
ndch

Цитата:

Цитата:
Ответ Тулона о классах был дан не мне а таким пользователям как вы.

Вы когда оправдываться перестанете ? Тошно от такого.
http://forum.ru-board.com/topic.cgi?forum=5&bm=1&topic=27424&start=1320#2

----------------

Ха, предложение о диаграмме Тулону было дано мной одним постом раньше. Вы действительно думаете, что мне надо обьяснять то, что я предлагаю? Может вам в вытрезвитель сходить сначала?
[/more]

Автор: ndch
Дата сообщения: 12.08.2010 19:54

terminat0r

Цитата:

Вас наверно это удивит, но основная ОС для разработки СТ - дистрибутив linux

Не знал что дистрибутив - это ОС, и что с его помощью можно вести разработку.
Какая разница, на чем ведется разработка iBook,ноут или tower ?

Как Вы считаете как обстоят дела с удобством в Linux ? Как с desktop в linux ? Много ли в Linux/gnu из современных сканеров поддерживаются ?

Автор: VadimirTT
Дата сообщения: 12.08.2010 21:52

мужики, завязывайте

Автор: monday2000
Дата сообщения: 17.08.2010 15:16

Давайте обсудим теперь другой вопрос.

Интересно - кто-нибудь из присутствующих когда-нибудь задумывался о гипотетической возможности САМОМУ взяться и сделать программу по сканобработке?

Неужели такая мысль ни у кого никогда даже не промелькивала в голове?

И, если такая мысль всё-таки имела место - какие же именно причины удержали Вас от изготовления собственной программы по сканобработке?

Давайте обсудим в деталях - что же именно страшит потенциальных создателей аналогов СТ-СК, и можно ли тут как-то сдвинуть ситуацию с мёртвой точки.

Может, всё не так уж и страшно, и люди не делают сами альтернативы СТ-СК в силу каких-то предубеждений?

Автор: woodyfon
Дата сообщения: 17.08.2010 21:31

Кто-то досконально знает язык программирования, другой мат. часть, третий английский язык, другой может выступать в роли руководителя проекта. Одному человеку физически быстро сделать такую программу не получится. Поэтому необходимо объединяться. А вот тут начинают проявляться амбиции. И дальше пошло по наклонной. А если делает один человек, то может долго и не принимает во внимание мольбы других, результата же больше.

Автор: StanFreeWare
Дата сообщения: 22.08.2010 11:19

В качестве развития утилиты ST Output Only сделал ST Skipper.

Она требует .NET 2.0.

Утилита позволяет пропустить на выбор любой шаг СТ со 2 по 6й:

Создаете в СТ проект, проходите в нем до шага (не заходя в него), начиная с которого нужен пропуск, сохраняете проект. Открываете проект в утилите, галками выставляете, какие шаги нужно пропустить, сохраняете проект. Открываете проект в СТ и работаете на последующих шагах.

Т.е. можно, например, только бинаризовать уже ранее обрезанные и выровненные сканы без лишних шагов выравнивания и задания полезной области (это раньше уже делал ST Output Only, но новым способом правильнее - теперь не нужно заниматься анализом графических файлов, это отдается на откуп СТ).

Чего не было возможно, а теперь стало - можно по-быстрому разрезать развороты (или разрезать и подправить наклон) - проходите в СТ вторую (или третью) стадию, в утилите пропускаете третью и четвертую (или только четвертую), в СТ делаете вывод в режиме серый.

Тестируйте, пожалуйста, если кому такое надо.
О проблемах - как обычно, в личку, чтобы не засорять этот топик.

Автор: Salvatorul
Дата сообщения: 26.08.2010 13:22

Цитата:

Она требует .NET 2.0.

Была б она кроссплатформенной, хоть на том же моно, цены бы ей не было.

Автор: AxelX
Дата сообщения: 08.09.2010 11:24

Новое видео, демонстрирующее автоматическую работу выравнивания строк
http://vimeo.com/14736353

Автор: monday2000
Дата сообщения: 08.09.2010 13:27

ИМХО на сегодняшний день самая важная задача, которая стоит перед Scan Tailor - это сделать там (в Scan Tailor) встроенный экспорт разделённых сканов - чтобы устранить нужду в таких программах, как Сепаратор (или ST Split).

Метод разделённых сканов - это вполне устоявшаяся сущность на сегодняшний день, а в будущем он, скорее всего, полностью вытеснит автоматическую сегментацию (отсюда и важность).

Я написал письмо Tulon с просьбой сделать такую фичу (просто на jart собака users.sf.net - другого адреса у меня нет).

Я мотивировал свою просьбу тем, что она крайне необременительна для Tulon в плане реализации (максимум один вечер посидеть, и всё).

Может, кто-нибудь ещё здесь тоже напишет ему аналогичное письмо?

Автор: DikBSD
Дата сообщения: 08.09.2010 14:01

Еще бы отключение выравнивания "освещения" в Смешанном режиме - портятся картинки...

Автор: ndch
Дата сообщения: 08.09.2010 20:46

Цитата:

в будущем он, скорее всего, полностью вытеснит автоматическую сегментацию

Цитата:

на xxx собака users.sf.net

Как первое так и второе - в твоем стиле

Цитата:

она крайне необременительна

ну так сам по доделай. В чем проблема ?

Выводы и способы твои крайне немотивированны, долее того - неверны в корне.

Автор: DikBSD
Дата сообщения: 09.09.2010 07:49

monday2000

Цитата:

другого адреса у меня нет.

В исходниках Scan tailor в каждом .h-файле есть строка:
Copyright (C) Joseph Artsimovich <joseph.artsimovich@gmail.com>
Другой адрес Иосифа - joseph.artsimovich@gmail.com

Автор: monday2000
Дата сообщения: 09.09.2010 09:52

DikBSD

Цитата:

Другой адрес Иосифа

А Tulon мне ответил и по моему адресу. Сказал, что не хочет встраивать разделение сканов в СТ. Привёл крайне неубедительные доводы:

Цитата:

Мне кажется, что тут вы противоречите сами себе. Вам ведь не нравится "вредный универсализм", когда одна программа делает все. А тут вы просите именно этого. Почему я не хочу вносить такую функциональность прямо в ST? Потому, что понятия "интуитивный интерфейс" и "интерфейс для профессионала" плохо совместимы. ST стремится к первому, а не ко второму. Профессионал предпочтет навороченный интерфейс, но сможет пользоваться и упрощенным. Я конечно понимаю, что профессионалам такая функция нужна, поэтому и сделал (по совету U235) резервирование цветов, чтобы максимально упростить разработку сторонней утилиты разделения сканов. В Линуксе например, все можно сделать утилитами из набора ImageMagick. Считаю, что сторонняя утилита - идеальный вариант. И волки сыты, и овцы целы.

Tulon рассуждает так, словно кому-то нужно делать разделение сканов, а кому-то нет. Но ведь очевидно, что разделение сканов нужно делать всем и всегда.
Я ему написал ещё раз.

Добавлено:
Tulon сейчас занимается dewarping:

Цитата:

До завершения моего деварпинга остался месяц-другой, и при этом он имеет сильное приемущество в том, что результат автоматики будет легко подправить руками.

Добавлено:
ndch
Ну что за манера "тыкать"? Я вот не люблю это.

Цитата:

ну так сам по доделай. В чем проблема ?

Разумнее самому Tulon это сделать - по многим простейшим соображениям.

Цитата:

Выводы и способы твои крайне немотивированны, долее того - неверны в корне.

Аргументируйте.

Автор: ndch
Дата сообщения: 09.09.2010 10:49

monday2000

Цитата:

Аргументируйте.

Цитата:

А Tulon мне ответил и по моему адресу. ...
Привёл крайне неубедительные доводы

И я тебя убеждать не собираюсь.
Тебе в жизни чего то не хватает или психотравма какая ?

Автор: monday2000
Дата сообщения: 09.09.2010 15:17

Кто-нибудь знает, зачем в СТ появился 2-ой резак на стадии "Разрезка страниц"?
http://scantailor.git.sourceforge.net/git/gitweb.cgi?p=scantailor/scantailor;a=commit;h=2295badfac1cacc65b052723782d240800203df2
Для чего он?

Автор: StanFreeWare
Дата сообщения: 09.09.2010 15:26

monday2000
см. здесь.
Есть же версия "для печати"..

Автор: monday2000
Дата сообщения: 09.09.2010 15:36

Я добавил в шапку ссылку на новую схему именования выходных сканов в СТ. Как я понял, Tulon отказался от добавления к старому имени файла через подчёркивание нового имени, а также сменил расширение выходных файлов с *.tiff на *.tif.

Т.е. раньше было так:

На входе: 0001.tif, 0002.tif, ... , 0010.tif, ....

На выходе: 0001_0001.tiff, 0002_0002.tiff, ... , 0010_0010.tiff, ....

Если было разрезание разворотов - то имена выходных файлов ещё как-то менялись (уже не помню как).

Теперь всё (как я понял) сильно упростилось:

- Если не было разрезаний, то выходные имена равны входным именам.
- Если разрезания были, то выходные имена будут выглядеть так:

0001_1L.tif, 0001_2R.tif, 0002_1L.tif, 0002_2R.tif, ... , 0010_1L.tif, 0010_2R.tif,....

По-моему, это очень разумные и хорошие изменения. Отказ от *.tiff в пользу *.tif - вообще замечательно.

А прежний подход с добавлением к старому имени файла через подчёркивание нового имени я всегда считал ошибочным и неправильным. Правильно так, как сейчас - т.е. в общем случае не менять именование входящих файлов (если не было разрезки).

Таким образом, если не делать разрезку в СТ (а я бы всем рекомендовал именно это), то тогда проблем переименования файлов из-за СТ теперь вообще не будет!

Добавлено:
StanFreeWare

Цитата:

см. здесь.

Этот пост я видел. Но ничего в нём не понял. Там же в сущности ничего не ясно - из одного лишь него.

Автор: woodyfon
Дата сообщения: 09.09.2010 23:34

Перейдя на версию ST? которая имеет два резака, стало проще обрезать странички, где есть только одна из страниц. Также поднялась точность определения места корешка (мне так показалось). Перестал пользоваться напрочь синими кружками для поворота резака. Отсюда и ответ на ваш вопрос: Для чего он? Для удобства. Вы иногда говорите такие вещи, что кажется вы не занимаетесь обработкой книг вообще. И по поводу разделенных сканов. Лично я этот метод не использую. Вы на каждой страничке кричите , что это должны делать все и всегда. Стало даже интересно, поэтому прошу привидите какие-нибудь доки и(или) примеры. Возможно серые (иллюстрации в оттенках серого, а текст черно-белый) и цветные (цветные иллюстрации и черно-белый(иногда на другом фоне) сканы станет обрабатывать проще и быстрее. Ну все равно не понимаю смысл разделенных сканов, если книга в конце концов собирается в pdf-формат. Вот если собирать книгу в djvu, то несомненно имеет смысл -повышается качество инезначительно увеличивается размер. Если я прав конечно. В принципе, добавить фичу разделения обработанных страниц Tulon бы мог - это не сильно бы усложнило интерфейс даже для домохозяек. Но если не хочет тогда не требуем.

monday2000? уверен, что ваших знаний хватило бы для осуществления такой фичи. НЕ понимаю, почему не можете это реализовать, а только требуете и советеуете.

Автор: anagnost96
Дата сообщения: 10.09.2010 00:16

woodyfon

Цитата:

Ну все равно не понимаю смысл разделенных сканов, если книга в конце концов собирается в pdf-формат. Вот если собирать книгу в djvu, то несомненно имеет смысл -повышается качество инезначительно увеличивается размер. Если я прав конечно.

Смысл разделения сканов в том, что картинки (серые либо цветные) и текст (бинаризованный) требуют разного разрешения и разных методов сжатия. В этом отношении разницы между форматами DjVu и PDF (который тоже прекрасно позволяет совместить текстовый и картиночный слои на одной странице) нет никакой. Если этого не делать, то разрешение на выходе будет либо недостаточным для текста, либо избыточным для картинок (что ведет к увеличению объема). Кроме того, при упаковке страницы в PDF придется использовать формат, не обеспечивающий эффективного сжатия текстовых данных (опять же увеличение объема). Поэтому при правильном применении сегментация безусловно способствует уменьшению размера, а никак не наоборот.

Соответственно, спор здесь идет не о том, нужна ли сегментация (она безусловно нужна), а о том, следует ли ее делать вручную или доверять программе. Ну а на этот вопрос уже каждый отвечает в зависимости от меры своего перфекционизма и от того материала, с которым приходится работать. У меня, например, картинки на 90% такого свойства, что никакой алгоритм сегментации с ними заведомо не справится.

Автор: ndch
Дата сообщения: 10.09.2010 08:44

anagnost96

Цитата:

Смысл разделения сканов в том, что картинки (серые либо цветные) и текст (бинаризованный) требуют разного разрешения и разных методов сжатия.

Ага, но исследуя шапку "Электронные книги: сканирование, обработка, сборка" - это обнаружишь далеко не сразу.

Битональный в pdf (чаще всего)- tiff g4/jbig2; в djvu - JB2
полноцветный в pdf (чаще всего)- jpeg/jpeg2000; в djvu -IW44

"требуют разного разрешения" - чаще да, но с оговорками.

Цитата:

Соответственно, спор здесь идет не о том, нужна ли сегментация (она безусловно нужна), а о том, следует ли ее делать вручную или доверять программе.

Да. Кроме того, в "Электронные книги: сканирование, обработка, сборка" было время когда обсуждалось что лучше разделенные сканы или всё же стоит понять как работает сегментер. С выводами разобравшихся, что иногда лучше сегментер DEEE, но все зависит от материала.

Сейчас там, наконец то , дошли до clearscan, появившемся, если не ошибаюсь в 9-м акробате.

Год/полтора назад всматривался в cs - заметил что он даёт неплохие результаты, хотя на вид слабее сегментера deee.
Но вполне жизнеспособный, если речь идёт за борцунство за малый размер конечного файла.

Цитата:

Ну а на этот вопрос уже каждый отвечает в зависимости от меры своего перфекционизма и от того материала, с которым приходится работать. У меня, например, картинки на 90% такого свойства, что никакой алгоритм сегментации с ними заведомо не справится.

Во-первых: cегментер может сегментировать по-крупному

, т.е решить что всё это полноцветное изображение.
Во вторых: страницы с глянцевых журналов можно "сегментировать" - например большие желтые буквы, но практического смысла в этом мало. Т.е. разглядывая сегментированную таким образом djvu, её вес и вес iw44, а также photo-djvu(можно сказать что это iw44 в чистом виде) невольно задумываешься - нафига козе баян ?

Моё мнение касательно журналов/детских книг - гораздо лучше выровненный и подчищенный pdf/jpeg2000, чем кривой сильносжатый убитый криво настроенным сегментеров djvu. Из такого pdf можно сделать маленькую djvu, но не наборот.

Автор: monday2000
Дата сообщения: 10.09.2010 09:58

woodyfon

Цитата:

НЕ понимаю, почему не можете это реализовать, а только требуете и советеуете.

Tulon'у это сделать - пара часов работы. А мне нужно будет убить неделю-две на это. Поэтому рациональнее это сделать Tulon'у. Или кому-то ещё - у меня и так полно иных задач по DjVu.

И потом - если появится клон СТ с желаемой фичей - то его потребуется всё время обновлять обновлениями основного СТ. А это изрядная морока. Мне пришлось бы всё забросить ради этого. Поэтому лучше уж Tulon бы сделал это сам.

Добавлено:
PS Всё, разобрался с тем, как работает 2 резак. Спасибо всем за пояснения.

2-ой резак работает так: вырезается и остаётся область между 2-мя резаками. А остальное выбрасывается (и никакое переименование выходного скана не производится).

Правда, пока не понял - а зачем это нужно?

У одиночного разворота есть лишь один ошмёток, который нужно отрезать - не два же?

Добавлено:
woodyfon

Цитата:

Перейдя на версию ST? которая имеет два резака, стало проще обрезать странички, где есть только одна из страниц.

Каким образом?

Добавлено:
woodyfon

Цитата:

Вы на каждой страничке кричите , что это должны делать все и всегда.

Ну конечно же, в случае наличия на сканах книги полутоновых (цветных) фотографий, разделение сканов действительно должны делать все и всегда (в случае последующего кодирования в DjVu).

В противном случае получится "порча картинок" в DjVu:

(иллюстрация от StanFreeWare)

Добавлено:
anagnost96

Цитата:

Кроме того, при упаковке страницы в PDF придется использовать формат, не обеспечивающий эффективного сжатия текстовых данных (опять же увеличение объема).

Как я понимаю, это концептуальный аналог PhotoDjVu? И, наверное, размер получается сопоставимым? Интересно, что это за сжатие - которое обычно применяется в PDF? Наверное, типа JPG? Или какое-то своё? (не считая JBIG2 и JPG2000)

А то замучали PDF-щики своими обвинениями, что "DjVu портит картинки", а "PDF - нет".

Я просто никогда в PDF книги не делал и не представляю себе, как там и что.

Автор: woodyfon
Дата сообщения: 10.09.2010 11:49

Цитата:

Каким образом?

Раньше приходилось пользоваться кнопками для поворота резака. Сейчас только двигаю один или два резака.

Цитата:

Или кому-то ещё - у меня и так полно иных задач по DjVu.

Какие такие задачи? Уже всё все прошли и порешали, или вы продолжаете добиваться совершенства, которого никак не достигнуть.
В темке "Электронные книги: сканирование, обработка, сборка" разделение сканов разбирается достаточно хорошо? А то новые технологии перед тем, как внедрять надо пощупать и понюхать.

Автор: anagnost96
Дата сообщения: 10.09.2010 12:29

monday2000

Цитата:

Интересно, что это за сжатие - которое обычно применяется в PDF? Наверное, типа JPG? Или какое-то своё? (не считая JBIG2 и JPG2000)

Ну, как известно, PDF -- это контейнер, так что там можно упаковать почти любой графический формат в зависимости от поставленных задач. Помимо JPEG или JPEG2000, можно использовать сжатие без потерь (LZW или deflate). Можно сделать фоновое изображение индексированным и тем самым уменьшить размер (этого иногда не хватает в DjVu). Ну а для бинаризованных изображений, наверное, нет смысла обсуждать другие форматы помимо JBIG2 и G4.

Лично я отдаю предпочтение DjVu, но считаю использование PDF целесообразным в двух случаях: либо картинки в книге настолько ценны, что сжатие с потерями неприемлемо, либо качество текста внушает опасения, и потому его нежелательно подвергать JB2-сжатию.

Автор: StanFreeWare
Дата сообщения: 10.09.2010 12:55

anagnost96
А разве lossless JB2 не оставляет информацию "пиксель в пиксель"?

Автор: C0USIN
Дата сообщения: 10.09.2010 15:46

Полезная штука Dewarping. Но делать его логичнее не на этапе окончательного вывода а перед этапом определения полезных областей.

С искривлением строк бороться достаточно просто еще на этапе сканирования. Мы просто кладем книгу так, чтобы строки были параллельны лампе. Не знаю почему, но помогает.

В старых книгах очень часто встречаются геометрические искажения. Например строки вверху страницы и внизу не параллельны. Или съезжают в сторону. Видимо это издержки докомпьютерной технологии верстки. Вот тут то и хочется привести полезную область к прямоугольному виду.

Кстати, если включить деварпинг, то отключаются зоны заливки. И полезная область смещается произвольным образом.

Автор: U235
Дата сообщения: 10.09.2010 16:17

C0USIN

Цитата:

С искривлением строк бороться достаточно просто еще на этапе сканирования. Мы просто кладем книгу так, чтобы строки были параллельны лампе.

Тут будут просто другой тип искажений: буквы будут сжаты в районе корешка.
И если при сканировании разворотом (строки перпендикулярны лампе) можно полностью восстановить исходное изображение реконструкцией 3D формы страницы, то в Вашем случае ничего уже не поможет. По крайней мере я таких алгоритмов не встречал. Так что еще вопрос как лучше сканировать..

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61

Предыдущая тема: CmCkA v4

Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.