Кто-нить может ответить на сей вопрос с точки зрения сего алгоритма?
Возможно ли совпадение CRC у 2-х разных фалов одинаковой длинны?
Возможно ли совпадение CRC у 2-х разных фалов одинаковой длинны?
Поэтому я беру из середины файла 50 метров и считаю по ним CRC и хэш.. чтобы потом другие люди могли проделать тоже самое и получить из общей базы идентификацию файла..
По моему не очень хороший способ идентификации. А ну как видеоматериал один и тот же, но сжато разными кодеками и с разным разрешением. Битики то разные будут, а материал один и тот же.
Возможно ли совпадение CRC у 2-х разных фалов одинаковой длинны?так что ЦРЦ вполне может совпасть и я не вижу причины, почему он не может, а вот хэш это совсем другое дело, вот он по своей сути не должен совпадать, так как принцип формирования хэш (его алгоритм) и само определение хэш-функции исключают эту возможность. При этом 50 метров это ИМХО много.
у меня где-то валяютца 2 файла, на которых md5 дает одинаковый hash
Что такое хэш-функция (hash, hash-function)?
Это преобразование, получающее из данных произвольной длины некое значение (свертку) фиксированной длины. Простейшими примерами являются контрольные суммы (например, crc32).
...
аргумент может быть строкой бит произвольной длины;
значение должно быть строкой бит фиксированной длины;
...
Поскольку из свойств следует, что множество определения хэш-функции значительно шире множества значений, то одинаковые значения функции для различных данных существуют.
A hash function is a function that converts an input from a (typically) large domain into an output in a (typically) smaller range (the hash value, often a subset of the integers). Hash functions vary in the domain of their inputs and the range of their outputs and in how patterns and similarities of input data affect output data. Hash functions are used in hash tables, cryptography and data processing. A good hash function is one that experiences few hash collisions in the expected domain of strings it will have to deal with; i.e. it would be possible to uniquely identify most of these strings using this hash.
Поэтому я беру из середины файла 50 метров и считаю по ним CRC и хэш.. чтобы потом другие люди могли проделать тоже самое и получить из общей базы идентификацию файла..тое сть согласовать длину участка файла и длину хэша, то можно добиться уникальных значений. То есть сделать длину хэша побольше
обстна я еще и MD5 использую.. если предположить что вероятность совпадения MD5 один на миллион, то уже можно использовать этот алгоритм для идентификации.. я прав?
Кстати 50Мб действительно дохрена... таким образом вероятность одинакового CRC только возрастает.
Кстати 50Мб действительно дохрена... таким образом вероятность одинакового CRC только возрастает.
В такой логике при уменьшении размера этого куска вероятность бы падала и становилась бы минимальной для одного байта.
Предыдущая тема: Delphi 7, RX, TDirectoryEdit.