Я не знаю, что именно эти авторы сделали, но у них алгоритм работает намного хуже.
» AntiDupl
Как я вижу ситуацию: есть разные алгоритмы нечеткого сравнения изображений.
Как частный вырожденный случай - побитовое сравнение, никому не интересен, т.к. существует много лет и прекрасно реализован миллион раз. Более того, я не понимаю, как в коллекции могут быть многочисленные 100% побитово равные дубли - вы что, скачиваете из интернета все подряд, не думая? в этом случае надо завести базу с хешами картинок, и сравнивать хеши. К обработке изображений это особого отношения не имеет.
Далее. Если разные программы используют разные алгоритмы нечеткого сравнения, и эти алгоритмы дают худшие результаты на _вашей_ конкретной выборке, то это очевидное следствие того факта, что программы разные и алгоритмы разные. С чего вдруг считать, что на другой выборке эти алгоритмы будут давать _намного худшие_ результаты как вы пишите.
Поэтому каждому овощу свой фрукт, или надо подбирать инструмент под задачу. Можно конечно сделать мегаинструмент такой как фотофоп, который вберет в себя все лучшее, и потом 5 лет учиться им пользоваться... но и стоить он будет как реактивный самолет
Как частный вырожденный случай - побитовое сравнение, никому не интересен, т.к. существует много лет и прекрасно реализован миллион раз. Более того, я не понимаю, как в коллекции могут быть многочисленные 100% побитово равные дубли - вы что, скачиваете из интернета все подряд, не думая? в этом случае надо завести базу с хешами картинок, и сравнивать хеши. К обработке изображений это особого отношения не имеет.
Далее. Если разные программы используют разные алгоритмы нечеткого сравнения, и эти алгоритмы дают худшие результаты на _вашей_ конкретной выборке, то это очевидное следствие того факта, что программы разные и алгоритмы разные. С чего вдруг считать, что на другой выборке эти алгоритмы будут давать _намного худшие_ результаты как вы пишите.
Поэтому каждому овощу свой фрукт, или надо подбирать инструмент под задачу. Можно конечно сделать мегаинструмент такой как фотофоп, который вберет в себя все лучшее, и потом 5 лет учиться им пользоваться... но и стоить он будет как реактивный самолет
XPerformer 22:01 28-09-2014
Цитата:
Элементарно, Холмс.
Во многих коллекциях с сотнями изображений, скачанных с разных источников, среди прочих могут повторяться абсолютно одинаковые изображения под разными именами. 200-300 из 100000+ думаю, не столь уж многочисленные случаи. Но они есть.
Еще раз - AntiDupl прекрасно справляется со всеми вариантами сравнения изображений. И сравнивает он отнюдь не побитово.
Цитата:
не понимаю, как в коллекции могут быть многочисленные 100% побитово равные дубли
Элементарно, Холмс.
Во многих коллекциях с сотнями изображений, скачанных с разных источников, среди прочих могут повторяться абсолютно одинаковые изображения под разными именами. 200-300 из 100000+ думаю, не столь уж многочисленные случаи. Но они есть.
Еще раз - AntiDupl прекрасно справляется со всеми вариантами сравнения изображений. И сравнивает он отнюдь не побитово.
Цитата:
Еще раз - AntiDupl прекрасно справляется со всеми вариантами сравнения изображений. И сравнивает он отнюдь не побитово.
ну прям со всеми.
Настройки надо подгонять под каждую группу изображений, а это уже большое участие человека - то бишь некого алгоритма, "зашитого" в мозг.
Насколько я знаю, в цифровых фотоаппаратах используется этот принцип - встраивается база данных типичных изображений, для каждой группы изображений и условий съемки экспертами выставлены оптимальные значения параметров (диафрагма, баланс и прочее). Программа фотоаппарата делает пробный снимок, ищет соответствие в базе и выставляет наилучшие параметры съемки. Этот же подход можно и здесь использовать - скажем, для чертежей и для цветных фото параметры должны быть разными. Это как идея развития AntiDupl, надеюсь, что автор (авторы) читают эту тему
вот статья от автора Antidupl
http://habrahabr.ru/post/122372/
Пожалуй, заберу назад свои слова о том что алгоритм прост как 5 копеек. Тем не менее существуют и другие алгоритмы, более сложные и более точные для определенных классов задач и изображений
Добавлено:
WatsonRus
Цитата:
Перечитал третий раз, наконец понял о чем речь.
Есть простые программы для побитового сравнения, это молоток.
Есть программы для определения похожести изображений или текстов, использующих сложные алгоритмы, это микроскоп. Хотя и речь идет о поиске дублей, основное здесь - как определить степень похожести двух изображений, причем желательно очень быстро потому что изображений может быть миллионы и все их попарно сравнивать очень долго. Если микроскоп хорошо микроскопит, и при этом слабовато забивает гвозди, так ли уж это принципиально? хотя формально вы правы, конечно.
http://habrahabr.ru/post/122372/
Пожалуй, заберу назад свои слова о том что алгоритм прост как 5 копеек. Тем не менее существуют и другие алгоритмы, более сложные и более точные для определенных классов задач и изображений
Добавлено:
WatsonRus
Цитата:
Проблема в том, что софт, специально созданный для поиска дублей изображений, не видит их.
Мне не нужно запускать универсальный компаратор (какового у меня не было и нет за полной ненадобностью), это сделает один AntiDupl. Он же видит все 100% одинаковые изображения, а ImageDupeless нет, хотя некоторые почему-то видит.
Перечитал третий раз, наконец понял о чем речь.
Есть простые программы для побитового сравнения, это молоток.
Есть программы для определения похожести изображений или текстов, использующих сложные алгоритмы, это микроскоп. Хотя и речь идет о поиске дублей, основное здесь - как определить степень похожести двух изображений, причем желательно очень быстро потому что изображений может быть миллионы и все их попарно сравнивать очень долго. Если микроскоп хорошо микроскопит, и при этом слабовато забивает гвозди, так ли уж это принципиально? хотя формально вы правы, конечно.
XPerformer 03:18 29-09-2014
Цитата:
Как видим, есть микроскоп, достаточно хорошо и микроскопящий, и забивающий гвозди. Это AntiDupl.
100% одинаковые изображения - это ведь тоже похожие изображения, только с процентом отличия 0%. В настройках степени похожести устанавливается максимальный уровень отличий, а минимальный вроде как и есть этот самый 0%. И как-то стоит ожидать, что весь софт, заточеннный на поиск похожих изображений, должен находить похожие изображения во всем заданном диапазоне - от 0% до заданного в настройках. Ан нет.
Цитата:
Если микроскоп хорошо микроскопит, и при этом слабовато забивает гвозди
Как видим, есть микроскоп, достаточно хорошо и микроскопящий, и забивающий гвозди. Это AntiDupl.
100% одинаковые изображения - это ведь тоже похожие изображения, только с процентом отличия 0%. В настройках степени похожести устанавливается максимальный уровень отличий, а минимальный вроде как и есть этот самый 0%. И как-то стоит ожидать, что весь софт, заточеннный на поиск похожих изображений, должен находить похожие изображения во всем заданном диапазоне - от 0% до заданного в настройках. Ан нет.
WatsonRus
1) отнюдь
каждый раз, когда вы сохраняете картинку в формате jpeg она пережимается. Побитово - это разные картинки. Попиксельно - это разные картинки. Однако особенности восприятия человека в сочетании с ограниченным разрешением монитора дают иллюзию 100% сходства то есть 0% различий.
2) а чем вам не нравится моя версия, высказанная с самого начала? людям почему-то не нравится, когда их платные продукты взламывают, и они сознательно встраивают ухудшение алгоритма при нарушении целостности программы
1) отнюдь
каждый раз, когда вы сохраняете картинку в формате jpeg она пережимается. Побитово - это разные картинки. Попиксельно - это разные картинки. Однако особенности восприятия человека в сочетании с ограниченным разрешением монитора дают иллюзию 100% сходства то есть 0% различий.
2) а чем вам не нравится моя версия, высказанная с самого начала? людям почему-то не нравится, когда их платные продукты взламывают, и они сознательно встраивают ухудшение алгоритма при нарушении целостности программы
Цитата:
сознательно встраивают ухудшение алгоритма при нарушении целостности программы
Как-то нелогично это, поскольку если судить о работе программы - кто же её купит, если она плоха? И даже если специально предупреждать "законная версия программы работает лучше" (чего я ни разу не встречал), то кто этому поверит?
Andarin
здесь и так никто не купит
здесь и так никто не купит
XPerformer
20:21 29-09-2014
Цитата:
Эта версия не годится.
Чисто как пример - автору ImageDupeless точно не нравится, что его продукт взламывают, потому все взломанные версии так или иначе глючат. Там полкода, наверное, всякие проверки. А потому ImageDupeless не взломанный, а зарегенный оригинальным ключом. Image Comparer тоже не взломанный, а акционный, с легальным бесплатным ключом. А все равно они не находят того, что находит бесплатный AntiDupl.
20:21 29-09-2014
Цитата:
людям почему-то не нравится, когда их платные продукты взламывают, и они сознательно встраивают ухудшение алгоритма при нарушении целостности программы
Эта версия не годится.
Чисто как пример - автору ImageDupeless точно не нравится, что его продукт взламывают, потому все взломанные версии так или иначе глючат. Там полкода, наверное, всякие проверки. А потому ImageDupeless не взломанный, а зарегенный оригинальным ключом. Image Comparer тоже не взломанный, а акционный, с легальным бесплатным ключом. А все равно они не находят того, что находит бесплатный AntiDupl.
для одинаковых картинок хеши одинаковы. Обратное неверно
Поэтому могут быть ложные срабатывания, но одинаковые картинки должен определять любой алгоритм на хешах.
Значит, там нейронные сети или что-то другое из ИИ, либо сознательные закладки.
Поэтому могут быть ложные срабатывания, но одинаковые картинки должен определять любой алгоритм на хешах.
Значит, там нейронные сети или что-то другое из ИИ, либо сознательные закладки.
WatsonRus
Я удивлен, что никто не попросил пару картинок для примера - которые не признает ImageDupeless, но признает AntiDupl, при примерно одинаковом пороге определения "схожести". Ну дык, я прошу
Если что - AntiDupl очень уважаю. До его появления юзал ImageDupeless и Dup Detector
Я удивлен, что никто не попросил пару картинок для примера - которые не признает ImageDupeless, но признает AntiDupl, при примерно одинаковом пороге определения "схожести". Ну дык, я прошу
Если что - AntiDupl очень уважаю. До его появления юзал ImageDupeless и Dup Detector
laprad
поддерживаю
давайте потестируем, возможно, проблема в разных настройках
поддерживаю
давайте потестируем, возможно, проблема в разных настройках
laprad 22:58 29-09-2014
Цитата:
XPerformer 23:04 29-09-2014
Цитата:
Ну и откуда я их теперь возьму, по-вашему, когда AntiDupl уже давным-давно удалил эти дубли? Когда в следующий раз попадутся такие, будет и пример.
Но можете поверить на слово - в ImageDupeless таких картинок вообще в списке дубликатов не было. Если бы я не прогнал потом по коллекции AntiDupl, я бы и не подозревал о существовании этих дублей.
Добавлено:
Неужели вы думаете, что я вспомню, на каких именно изображениях были эти совпадения? Это было больше года, а то и полтора, назад. AntiDupl, по-моему, даже еще не последний использовался.
Впрочем, ImageDupeless и Image Comparer были те же, проекты, похоже, давно умерли.
Цитата:
Я удивлен, что никто не попросил пару картинок для примера
XPerformer 23:04 29-09-2014
Цитата:
поддерживаю
Ну и откуда я их теперь возьму, по-вашему, когда AntiDupl уже давным-давно удалил эти дубли? Когда в следующий раз попадутся такие, будет и пример.
Но можете поверить на слово - в ImageDupeless таких картинок вообще в списке дубликатов не было. Если бы я не прогнал потом по коллекции AntiDupl, я бы и не подозревал о существовании этих дублей.
Добавлено:
Неужели вы думаете, что я вспомню, на каких именно изображениях были эти совпадения? Это было больше года, а то и полтора, назад. AntiDupl, по-моему, даже еще не последний использовался.
Впрочем, ImageDupeless и Image Comparer были те же, проекты, похоже, давно умерли.
WatsonRus
если это было один раз то и говорить не о чем
если это было один раз то и говорить не о чем
На скорую руку - 4 пары картинок, побитовые копии (CloneSpy определяет как копии, и MD5 одинаковые, только названия разные) При сравнении с разницей 0%, AntiDupl их находит, а ImageDupeless - нет, хотя при 1% он эти картинки находит.
P. S.Всего было 2730 аналогичных картинок (в основном - котоматрица и демотиваторы по теме), побитовые копии - только эти. ImageDupeless при разнице 1% нашёл 61 группу похожих, AntiDupl при 2% и отнормированном размере 16 на 16 - 46 пар.
P. P. S. ImageDupeless v 1.6.3 rus, ломаный, AntiDuplNet v 2.3.1.83
P. S.Всего было 2730 аналогичных картинок (в основном - котоматрица и демотиваторы по теме), побитовые копии - только эти. ImageDupeless при разнице 1% нашёл 61 группу похожих, AntiDupl при 2% и отнормированном размере 16 на 16 - 46 пар.
P. P. S. ImageDupeless v 1.6.3 rus, ломаный, AntiDuplNet v 2.3.1.83
Andarin
картинки считаются одинаковыми если отклонение меньше порогового
меньше нуля оно быть не может
AntiDupl вероятно отрабатывает по схеме меньше либо равно
вот и весь сказ
картинки считаются одинаковыми если отклонение меньше порогового
меньше нуля оно быть не может
AntiDupl вероятно отрабатывает по схеме меньше либо равно
вот и весь сказ
XPerformer
То есть полное согласие в том, что дубликаты ImageDupeless не находит, так? Примерно с этого и начался разговор.
То есть полное согласие в том, что дубликаты ImageDupeless не находит, так? Примерно с этого и начался разговор.
Andarin
Цитата:
Я ни разу не опровергал этот факт. Как и не подтверждал, поскольку не использую эту программу.
WatsonRus
Цитата:
Я отвечал на этот вопрос - как такое может быть
Цитата:
То есть полное согласие в том, что дубликаты ImageDupeless не находит, так? Примерно с этого и начался разговор.
Я ни разу не опровергал этот факт. Как и не подтверждал, поскольку не использую эту программу.
WatsonRus
Цитата:
Вот не могу я понять, как такое может быть - как можно было так написать алгоритм сравнения, что проги не видят 100% одинаковые изображения.
Я отвечал на этот вопрос - как такое может быть
Кстати, маленькая проверка - взял файл, скопировал его под другим именем и уже в копии изменил 16 байт в области изображения (больше не стал, так, ради интереса). Соответственно, получилось две копии не побатовой идентичности, ImageDupeless их при пороге сравнения 0% всё равно не находит.
Andarin
у него значение порога = 0 вообще рабочее? он хоть что-то находит при нуле?
у него значение порога = 0 вообще рабочее? он хоть что-то находит при нуле?
XPerformer
В справке написано
Цитата:
В справке написано
Цитата:
основной критерий сравнения (в процентах; 0% - это очень похожие картинки с точки зрения программы). Рекомендуемый предел значений: [0-15]%. Опытным путем установлено, что наиболее оптимальным является значение 11% (установлено по умолчанию). Не рекомендую отходить от него слишком далеко. Как результат задания слишком больших значений (более 20%) программа может посчитать похожими все изображения в галерее.Но я что-то не уверен, что 0% рабочее значение, я этой программой мало пользуюсь, да и аналогами - редко, от случая к случаю. Скорее всего, надо начинать от 1%. Но тогда туда войдут и 100% дубликаты и очень похожие. А при 11% - из упомянутых мной выше 2730 картинок нашла 186 групп похожих (ну, там надписи разные и в разных местах) и 6 пар картинок, которые даже при взгляде на превьюшку похожими не назовёшь. AntiDupl вообще - 379 пар и более 80 из них малопохожих. Но для этой проги, я думаю, надо не более 7-8% ставить. Но в обоих случаях нашлись и интересные находки при таких процентах - например, два разных фото одного котёнка в разных позах (и фон не одинаковый).
Andarin
напишите разработчикам - пусть переименуют программу, поскольку она ищет не дубли а похожие картинки
напишите разработчикам - пусть переименуют программу, поскольку она ищет не дубли а похожие картинки
XPerformer 11:33 30-09-2014
Цитата:
Один раз проверял AntiDupl после других прог. А ImageDupeless и Image Comparer гонял не один раз. Процент отличий в основном был стандартный (11% для ImageDupeless и не помню уже какой стандартный для IC), и при этом ImageDupeless все же находил часть 100% дублей с различием 0%. Значит, он все-таки может работать со значением 0%. Но после них AntiDupl нашел еще порядка 200-300 100% дублей.
Как показывают и эксперименты Andarin, AntiDupl все же находит куда больше как дублей, так и похожих изображений (впрочем, и ложняков куча).
Выходит, AntiDupl работает все же точнее, скорее всего потому как он позволяет задавать кроме % схожести еще и отнормированный размер превьюшек, по которым он вычисляет похожесть (я выставил 64х64, т.е. вдвое больше умолчального - максимальный для той версии, что я использовал - сейчас есть еще и 128х128). В других программах таких настроек нет.
Andarin
Для разных программ и процент похожести разный. Но я говорил про использование с процентом по умолчанию (авторы ведь не случайно именно его предлагают).
Цитата:
если это было один раз то и говорить не о чем
Один раз проверял AntiDupl после других прог. А ImageDupeless и Image Comparer гонял не один раз. Процент отличий в основном был стандартный (11% для ImageDupeless и не помню уже какой стандартный для IC), и при этом ImageDupeless все же находил часть 100% дублей с различием 0%. Значит, он все-таки может работать со значением 0%. Но после них AntiDupl нашел еще порядка 200-300 100% дублей.
Как показывают и эксперименты Andarin, AntiDupl все же находит куда больше как дублей, так и похожих изображений (впрочем, и ложняков куча).
Выходит, AntiDupl работает все же точнее, скорее всего потому как он позволяет задавать кроме % схожести еще и отнормированный размер превьюшек, по которым он вычисляет похожесть (я выставил 64х64, т.е. вдвое больше умолчального - максимальный для той версии, что я использовал - сейчас есть еще и 128х128). В других программах таких настроек нет.
Andarin
Для разных программ и процент похожести разный. Но я говорил про использование с процентом по умолчанию (авторы ведь не случайно именно его предлагают).
Имхо, разраб ImageDupeless накосячил, интуитивно конечно хотелось бы чтобы при 0% различий программа искала бинарные дубликаты, но она этого не делает.
В защиту ID - при нажатии на "глазик" между картинками появляется окно сравнения с кнопками действий, так вот на побайтовых дубликатах видим значок равенства, при наведении на который появляется всплывашка "Binary equal images".
Пару дубликатов, которые Imagedupeless определял бы при 0% различий (выставленных в настройках перед поиском дубликатов!), найти не смог...
В защиту ID - при нажатии на "глазик" между картинками появляется окно сравнения с кнопками действий, так вот на побайтовых дубликатах видим значок равенства, при наведении на который появляется всплывашка "Binary equal images".
Пару дубликатов, которые Imagedupeless определял бы при 0% различий (выставленных в настройках перед поиском дубликатов!), найти не смог...
laprad 22:09 30-09-2014
Цитата:
У автора весь пар ушел в проверки целостности и создание бяк использующим крякнутые версии.
22:09 30-09-2014
Цитата:
Вот никогда не замечал, что там всплывает... но все равно кривизна сплошная - одни видит, другие нет. С этой странности и возник мой первоначальный вопрос.
Цитата:
Имхо, разраб ImageDupeless накосячил
У автора весь пар ушел в проверки целостности и создание бяк использующим крякнутые версии.
22:09 30-09-2014
Цитата:
на побайтовых дубликатах видим значок равенства, при наведении на который появляется всплывашка "Binary equal images"
Вот никогда не замечал, что там всплывает... но все равно кривизна сплошная - одни видит, другие нет. С этой странности и возник мой первоначальный вопрос.
Никто не замечал проблем с удалением в корзину? Начал вчера разгребать одну коллекцию, нечаяно лажал, удаляя не то, пытался вытащить и заметил раза четыре: в корзину попало не всё.
Дважды замечал - как-то странно удалялись файлы, как будто не сразу, а набирая очередь, и только потом разом пачку.
Win7x64, крайняя версия сабжа.
Дважды замечал - как-то странно удалялись файлы, как будто не сразу, а набирая очередь, и только потом разом пачку.
Win7x64, крайняя версия сабжа.
WatsonRus
Цитата:
выложите пожалуйста две бинарно равные картинки которые ID определяет при пороге 0%
Цитата:
Вот никогда не замечал, что там всплывает... но все равно кривизна сплошная - одни видит, другие нет. С этой странности и возник мой первоначальный вопрос.
выложите пожалуйста две бинарно равные картинки которые ID определяет при пороге 0%
XPerformer 12:57 01-10-2014
Цитата:
Он их находил при стандартном пороге 11%. Прилежно ставя 0% отличий со значком равенства. А другие бинарно равные не видел в упор. Почему - .
Цитата:
которые ID определяет при пороге 0%
Он их находил при стандартном пороге 11%. Прилежно ставя 0% отличий со значком равенства. А другие бинарно равные не видел в упор. Почему - .
Skif_off
Цитата:
Зависит от настройки "Размер очереди отмены". Если поставить 0, программа сразу будет выполнять все действия. В противном случае, указанное число операций будет сохраняться в памяти и только после его превышения, начнет выполнять действия.
Цитата:
Дважды замечал - как-то странно удалялись файлы, как будто не сразу, а набирая очередь, и только потом разом пачку.
Зависит от настройки "Размер очереди отмены". Если поставить 0, программа сразу будет выполнять все действия. В противном случае, указанное число операций будет сохраняться в памяти и только после его превышения, начнет выполнять действия.
Предыдущая тема: Google Earth vs NASA World Wind vs Eingana
Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.