AntiDupl

Автор: WatsonRus
Дата сообщения: 28.09.2014 20:57

Я не знаю, что именно эти авторы сделали, но у них алгоритм работает намного хуже.

Автор: XPerformer
Дата сообщения: 28.09.2014 21:01

Как я вижу ситуацию: есть разные алгоритмы нечеткого сравнения изображений.
Как частный вырожденный случай - побитовое сравнение, никому не интересен, т.к. существует много лет и прекрасно реализован миллион раз. Более того, я не понимаю, как в коллекции могут быть многочисленные 100% побитово равные дубли - вы что, скачиваете из интернета все подряд, не думая? в этом случае надо завести базу с хешами картинок, и сравнивать хеши. К обработке изображений это особого отношения не имеет.
Далее. Если разные программы используют разные алгоритмы нечеткого сравнения, и эти алгоритмы дают худшие результаты на _вашей_ конкретной выборке, то это очевидное следствие того факта, что программы разные и алгоритмы разные. С чего вдруг считать, что на другой выборке эти алгоритмы будут давать _намного худшие_ результаты как вы пишите.
Поэтому каждому овощу свой фрукт, или надо подбирать инструмент под задачу. Можно конечно сделать мегаинструмент такой как фотофоп, который вберет в себя все лучшее, и потом 5 лет учиться им пользоваться... но и стоить он будет как реактивный самолет

Автор: WatsonRus
Дата сообщения: 28.09.2014 21:11

XPerformer 22:01 28-09-2014
Цитата:

не понимаю, как в коллекции могут быть многочисленные 100% побитово равные дубли

Элементарно, Холмс.

Во многих коллекциях с сотнями изображений, скачанных с разных источников, среди прочих могут повторяться абсолютно одинаковые изображения под разными именами. 200-300 из 100000+ думаю, не столь уж многочисленные случаи. Но они есть.

Еще раз - AntiDupl прекрасно справляется со всеми вариантами сравнения изображений. И сравнивает он отнюдь не побитово.

Автор: XPerformer
Дата сообщения: 28.09.2014 21:17

Цитата:

Еще раз - AntiDupl прекрасно справляется со всеми вариантами сравнения изображений. И сравнивает он отнюдь не побитово.

ну прям со всеми.
Настройки надо подгонять под каждую группу изображений, а это уже большое участие человека - то бишь некого алгоритма, "зашитого" в мозг.
Насколько я знаю, в цифровых фотоаппаратах используется этот принцип - встраивается база данных типичных изображений, для каждой группы изображений и условий съемки экспертами выставлены оптимальные значения параметров (диафрагма, баланс и прочее). Программа фотоаппарата делает пробный снимок, ищет соответствие в базе и выставляет наилучшие параметры съемки. Этот же подход можно и здесь использовать - скажем, для чертежей и для цветных фото параметры должны быть разными. Это как идея развития AntiDupl, надеюсь, что автор (авторы) читают эту тему

Автор: XPerformer
Дата сообщения: 29.09.2014 02:18

вот статья от автора Antidupl
http://habrahabr.ru/post/122372/
Пожалуй, заберу назад свои слова о том что алгоритм прост как 5 копеек. Тем не менее существуют и другие алгоритмы, более сложные и более точные для определенных классов задач и изображений

Добавлено:
WatsonRus

Цитата:

Проблема в том, что софт, специально созданный для поиска дублей изображений, не видит их.
Мне не нужно запускать универсальный компаратор (какового у меня не было и нет за полной ненадобностью), это сделает один AntiDupl. Он же видит все 100% одинаковые изображения, а ImageDupeless нет, хотя некоторые почему-то видит.

Перечитал третий раз, наконец понял о чем речь.
Есть простые программы для побитового сравнения, это молоток.
Есть программы для определения похожести изображений или текстов, использующих сложные алгоритмы, это микроскоп. Хотя и речь идет о поиске дублей, основное здесь - как определить степень похожести двух изображений, причем желательно очень быстро потому что изображений может быть миллионы и все их попарно сравнивать очень долго. Если микроскоп хорошо микроскопит, и при этом слабовато забивает гвозди, так ли уж это принципиально? хотя формально вы правы, конечно.

Автор: WatsonRus
Дата сообщения: 29.09.2014 19:12

XPerformer 03:18 29-09-2014
Цитата:

Если микроскоп хорошо микроскопит, и при этом слабовато забивает гвозди

Как видим, есть микроскоп, достаточно хорошо и микроскопящий, и забивающий гвозди. Это AntiDupl.

100% одинаковые изображения - это ведь тоже похожие изображения, только с процентом отличия 0%. В настройках степени похожести устанавливается максимальный уровень отличий, а минимальный вроде как и есть этот самый 0%. И как-то стоит ожидать, что весь софт, заточеннный на поиск похожих изображений, должен находить похожие изображения во всем заданном диапазоне - от 0% до заданного в настройках. Ан нет.

Автор: XPerformer
Дата сообщения: 29.09.2014 19:21

WatsonRus
1) отнюдь
каждый раз, когда вы сохраняете картинку в формате jpeg она пережимается. Побитово - это разные картинки. Попиксельно - это разные картинки. Однако особенности восприятия человека в сочетании с ограниченным разрешением монитора дают иллюзию 100% сходства то есть 0% различий.
2) а чем вам не нравится моя версия, высказанная с самого начала? людям почему-то не нравится, когда их платные продукты взламывают, и они сознательно встраивают ухудшение алгоритма при нарушении целостности программы

Автор: Andarin
Дата сообщения: 29.09.2014 19:39

Цитата:

сознательно встраивают ухудшение алгоритма при нарушении целостности программы

Как-то нелогично это, поскольку если судить о работе программы - кто же её купит, если она плоха? И даже если специально предупреждать "законная версия программы работает лучше" (чего я ни разу не встречал), то кто этому поверит?

Автор: XPerformer
Дата сообщения: 29.09.2014 20:10

Andarin
здесь и так никто не купит

Автор: WatsonRus
Дата сообщения: 29.09.2014 20:16

XPerformer
20:21 29-09-2014
Цитата:

людям почему-то не нравится, когда их платные продукты взламывают, и они сознательно встраивают ухудшение алгоритма при нарушении целостности программы

Эта версия не годится.
Чисто как пример - автору ImageDupeless точно не нравится, что его продукт взламывают, потому все взломанные версии так или иначе глючат. Там полкода, наверное, всякие проверки. А потому ImageDupeless не взломанный, а зарегенный оригинальным ключом. Image Comparer тоже не взломанный, а акционный, с легальным бесплатным ключом. А все равно они не находят того, что находит бесплатный AntiDupl.

Автор: XPerformer
Дата сообщения: 29.09.2014 20:24

для одинаковых картинок хеши одинаковы. Обратное неверно
Поэтому могут быть ложные срабатывания, но одинаковые картинки должен определять любой алгоритм на хешах.
Значит, там нейронные сети или что-то другое из ИИ, либо сознательные закладки.

Автор: laprad
Дата сообщения: 29.09.2014 21:58

WatsonRus
Я удивлен, что никто не попросил пару картинок для примера - которые не признает ImageDupeless, но признает AntiDupl, при примерно одинаковом пороге определения "схожести". Ну дык, я прошу
Если что - AntiDupl очень уважаю. До его появления юзал ImageDupeless и Dup Detector

Автор: XPerformer
Дата сообщения: 29.09.2014 22:04

laprad
поддерживаю
давайте потестируем, возможно, проблема в разных настройках

Автор: WatsonRus
Дата сообщения: 30.09.2014 10:24

laprad 22:58 29-09-2014
Цитата:

Я удивлен, что никто не попросил пару картинок для примера

XPerformer 23:04 29-09-2014
Цитата:

поддерживаю

Ну и откуда я их теперь возьму, по-вашему, когда AntiDupl уже давным-давно удалил эти дубли? Когда в следующий раз попадутся такие, будет и пример.

Но можете поверить на слово - в ImageDupeless таких картинок вообще в списке дубликатов не было. Если бы я не прогнал потом по коллекции AntiDupl, я бы и не подозревал о существовании этих дублей.

Добавлено:
Неужели вы думаете, что я вспомню, на каких именно изображениях были эти совпадения? Это было больше года, а то и полтора, назад. AntiDupl, по-моему, даже еще не последний использовался.
Впрочем, ImageDupeless и Image Comparer были те же, проекты, похоже, давно умерли.

Автор: XPerformer
Дата сообщения: 30.09.2014 10:33

WatsonRus
если это было один раз то и говорить не о чем

Автор: Andarin
Дата сообщения: 30.09.2014 11:09

На скорую руку - 4 пары картинок, побитовые копии (CloneSpy определяет как копии, и MD5 одинаковые, только названия разные) При сравнении с разницей 0%, AntiDupl их находит, а ImageDupeless - нет, хотя при 1% он эти картинки находит.
P. S.Всего было 2730 аналогичных картинок (в основном - котоматрица и демотиваторы по теме), побитовые копии - только эти. ImageDupeless при разнице 1% нашёл 61 группу похожих, AntiDupl при 2% и отнормированном размере 16 на 16 - 46 пар.
P. P. S. ImageDupeless v 1.6.3 rus, ломаный, AntiDuplNet v 2.3.1.83

Автор: XPerformer
Дата сообщения: 30.09.2014 11:16

Andarin
картинки считаются одинаковыми если отклонение меньше порогового
меньше нуля оно быть не может
AntiDupl вероятно отрабатывает по схеме меньше либо равно
вот и весь сказ

Автор: Andarin
Дата сообщения: 30.09.2014 11:39

XPerformer
То есть полное согласие в том, что дубликаты ImageDupeless не находит, так? Примерно с этого и начался разговор.

Автор: XPerformer
Дата сообщения: 30.09.2014 11:45

Andarin

Цитата:

То есть полное согласие в том, что дубликаты ImageDupeless не находит, так? Примерно с этого и начался разговор.

Я ни разу не опровергал этот факт. Как и не подтверждал, поскольку не использую эту программу.

WatsonRus

Цитата:

Вот не могу я понять, как такое может быть - как можно было так написать алгоритм сравнения, что проги не видят 100% одинаковые изображения.

Я отвечал на этот вопрос - как такое может быть

Автор: Andarin
Дата сообщения: 30.09.2014 12:04

Кстати, маленькая проверка - взял файл, скопировал его под другим именем и уже в копии изменил 16 байт в области изображения (больше не стал, так, ради интереса). Соответственно, получилось две копии не побатовой идентичности, ImageDupeless их при пороге сравнения 0% всё равно не находит.

Автор: XPerformer
Дата сообщения: 30.09.2014 12:33

Andarin
у него значение порога = 0 вообще рабочее? он хоть что-то находит при нуле?

Автор: Andarin
Дата сообщения: 30.09.2014 13:02

XPerformer
В справке написано
Цитата:

основной критерий сравнения (в процентах; 0% - это очень похожие картинки с точки зрения программы). Рекомендуемый предел значений: [0-15]%. Опытным путем установлено, что наиболее оптимальным является значение 11% (установлено по умолчанию). Не рекомендую отходить от него слишком далеко. Как результат задания слишком больших значений (более 20%) программа может посчитать похожими все изображения в галерее.

Но я что-то не уверен, что 0% рабочее значение, я этой программой мало пользуюсь, да и аналогами - редко, от случая к случаю. Скорее всего, надо начинать от 1%. Но тогда туда войдут и 100% дубликаты и очень похожие. А при 11% - из упомянутых мной выше 2730 картинок нашла 186 групп похожих (ну, там надписи разные и в разных местах) и 6 пар картинок, которые даже при взгляде на превьюшку похожими не назовёшь. AntiDupl вообще - 379 пар и более 80 из них малопохожих. Но для этой проги, я думаю, надо не более 7-8% ставить. Но в обоих случаях нашлись и интересные находки при таких процентах - например, два разных фото одного котёнка в разных позах (и фон не одинаковый).

Автор: XPerformer
Дата сообщения: 30.09.2014 13:07

Andarin
напишите разработчикам - пусть переименуют программу, поскольку она ищет не дубли а похожие картинки

Автор: WatsonRus
Дата сообщения: 30.09.2014 13:53

XPerformer 11:33 30-09-2014
Цитата:

если это было один раз то и говорить не о чем

Один раз проверял AntiDupl после других прог. А ImageDupeless и Image Comparer гонял не один раз. Процент отличий в основном был стандартный (11% для ImageDupeless и не помню уже какой стандартный для IC), и при этом ImageDupeless все же находил часть 100% дублей с различием 0%. Значит, он все-таки может работать со значением 0%. Но после них AntiDupl нашел еще порядка 200-300 100% дублей.

Как показывают и эксперименты Andarin, AntiDupl все же находит куда больше как дублей, так и похожих изображений (впрочем, и ложняков куча).
Выходит, AntiDupl работает все же точнее, скорее всего потому как он позволяет задавать кроме % схожести еще и отнормированный размер превьюшек, по которым он вычисляет похожесть (я выставил 64х64, т.е. вдвое больше умолчального - максимальный для той версии, что я использовал - сейчас есть еще и 128х128). В других программах таких настроек нет.

Andarin
Для разных программ и процент похожести разный. Но я говорил про использование с процентом по умолчанию (авторы ведь не случайно именно его предлагают).

Автор: laprad
Дата сообщения: 30.09.2014 21:09

Имхо, разраб ImageDupeless накосячил, интуитивно конечно хотелось бы чтобы при 0% различий программа искала бинарные дубликаты, но она этого не делает.
В защиту ID - при нажатии на "глазик" между картинками появляется окно сравнения с кнопками действий, так вот на побайтовых дубликатах видим значок равенства, при наведении на который появляется всплывашка "Binary equal images".
Пару дубликатов, которые Imagedupeless определял бы при 0% различий (выставленных в настройках перед поиском дубликатов!), найти не смог...

Автор: WatsonRus
Дата сообщения: 30.09.2014 21:45

laprad 22:09 30-09-2014
Цитата:

Имхо, разраб ImageDupeless накосячил

У автора весь пар ушел в проверки целостности и создание бяк использующим крякнутые версии.

22:09 30-09-2014
Цитата:

на побайтовых дубликатах видим значок равенства, при наведении на который появляется всплывашка "Binary equal images"

Вот никогда не замечал, что там всплывает...

но все равно кривизна сплошная - одни видит, другие нет. С этой странности и возник мой первоначальный вопрос.

Автор: Skif_off
Дата сообщения: 01.10.2014 01:12

Никто не замечал проблем с удалением в корзину? Начал вчера разгребать одну коллекцию, нечаяно лажал, удаляя не то, пытался вытащить и заметил раза четыре: в корзину попало не всё.
Дважды замечал - как-то странно удалялись файлы, как будто не сразу, а набирая очередь, и только потом разом пачку.
Win7x64, крайняя версия сабжа.

Автор: XPerformer
Дата сообщения: 01.10.2014 11:57

WatsonRus

Цитата:

Вот никогда не замечал, что там всплывает... но все равно кривизна сплошная - одни видит, другие нет. С этой странности и возник мой первоначальный вопрос.

выложите пожалуйста две бинарно равные картинки которые ID определяет при пороге 0%

Автор: WatsonRus
Дата сообщения: 01.10.2014 18:37

XPerformer 12:57 01-10-2014
Цитата:

которые ID определяет при пороге 0%

Он их находил при стандартном пороге 11%. Прилежно ставя 0% отличий со значком равенства. А другие бинарно равные не видел в упор. Почему -

Автор: KLERIK2222
Дата сообщения: 02.10.2014 08:00

Skif_off

Цитата:

Дважды замечал - как-то странно удалялись файлы, как будто не сразу, а набирая очередь, и только потом разом пачку.

Зависит от настройки "Размер очереди отмены". Если поставить 0, программа сразу будет выполнять все действия. В противном случае, указанное число операций будет сохраняться в памяти и только после его превышения, начнет выполнять действия.

» AntiDupl