Ru-Board.club
← Вернуться в раздел «Программы»

» Архиваторы. Сравнение сжатия

Автор: arsvrn
Дата сообщения: 30.01.2006 12:19
Enotus

Цитата:
Дурилка, PAQ8 ("всего" в 2 раза медленней WinUDA), EPM

Добавляю.
Wildsoft.ru (затареный):
wildsoft.dur: 89272
wildsoft.paq: 110512
Кеш форума (затареный):
board.paq: 2279666
board.dur: 2447839
Дурилка использовалась с ключем -t2, PAQ8a с методом -7 (больше у меня память не позволяет).
Автор: egor23
Дата сообщения: 01.02.2006 18:26
Выборка в 50Мб сайта wildsoft.ru, оказалась маленькой, было проведена дополнительно упаковка большей выборки html, сайта wildsoft.ru.
Исходные данные:
WinXP SP2rus, NTFS, средняя скорость чтения на лог.диске 40Мб\с,
процессор Sempron64 2500+(2.1Ггц), 512Мб опер.памяти PC3200(468МГц).
Папка wildsoft (57931 файл html) 1.84Гб (1 985 002 358)
Заtarеная папка wildsoft 1.88Гб (2 030 005 248)
Во время упаковки папки wildsoft, выявилось еще одна особенность:
UHARC тратил 15мин (может варьироваться) на Поиск и анализ файлов и всего 8мин на упаковку, те на распаковку должно в теории уходить тоже 8мин или +\-.
7z тратил 2мин 36сек на "поиск файлов".
Winrar - 2мин 36сек на "поиск файлов".
По сути слабым звеном (скорости упаковки) становиться дисковая подсистема: скорость винчестера, фрагментация файлов, файловая система, возможно еще и операционная система.

папка wildsoft:
UHARC(PPM,32Мбсловарь,мультимедия отключена) - 9,34Мб (9 798 395) 23мин
7z(макс,LZMA,32Мбсловарь,273слово) - 8,92Мб (9 358 252) 1ч 6мин
7z(макс,PPMd,384Мбсловарь,32слово) - 23,6Мб (24 831 832) 27мин 49сек
Winrar(макс, solid, 4Мбсловарь) - 17,5Мб (18 416 748) 27мин 46сек

папка wildsoft заtarеная:
UHARC(PPM,32Мбсловарь,мультимедия отключена) - 6,87Мб (7 211 436) 4мин 49сек
7z(макс,LZMA,32Мбсловарь,273слово) - 8,12Мб (8 523 596) 47мин 8сек
7z(макс,PPMd,384Мбсловарь,32слово) - 23,5Мб (24 707 832) 4мин 11сек
Winrar(макс, solid, 4Мбсловарь) - 13,2Мб (13 908 367) 5мин 50сек
Автор: arsvrn
Дата сообщения: 01.02.2006 21:26
egor23
Интересно, почему же так проваливается 7zip с PPMd - ведь он вроде должен отлично обрабатывать текстовые данные?
Автор: Serkin70
Дата сообщения: 02.02.2006 00:16

Цитата:
UHARC тратил 15мин (может варьироваться) на Поиск и анализ файлов и всего 8мин на упаковку, те на распаковку должно в теории уходить тоже 8мин или +\-.
7z тратил 2мин 36сек на "поиск файлов".
Winrar - 2мин 36сек на "поиск файлов".
По сути слабым звеном (скорости упаковки) становиться дисковая подсистема: скорость винчестера, фрагментация файлов, файловая система, возможно еще и операционная система.

Не опечатка с WinRAR?
Хочу еще отметить, что для открытия этой папки требуется около 5 минут (чтобы просто посмотреть внутренности) в проводнике или в ТС.
Автор: egor23
Дата сообщения: 02.02.2006 00:22
arsvrn

Цитата:
Интересно, почему же так проваливается 7zip с PPMd - ведь он вроде должен отлично обрабатывать текстовые данные?

Думаю model order for PPMd, которая максимум 32, недостаточно.
Попробывал PPMonstr (Monstrous PPMII compressor based on PPMd var.I, Apr 30 2002)
PPMONSTR.EXE e -m384 -o32 wildsoft.ru.tar
(o32, o64, o128)
wildsoft.ru.tar это первая выборка в 50Мб
o32 399,2кб (408 781)
o64 141,8кб (145 281)
o128 113,7кб (116 477)
7z(макс,PPMd,384Мбсловарь,32слово) - 594,3кб (608 626)

Добавлено:
Serkin70

Цитата:
Winrar - 2мин 36сек

Нет не опечатка, первый раз когда упаковывал вообще было пару секунд, закэшировал где-то. У меня чуть больше 2 минут открывает папку в TC, посмотрю после перезагрузки, чтоб наверняка знать.

Добавлено:
Для тех кому нужна wildsoft.ru вторая выборка можно взять [more=здесь..]#[/more]
Автор: arsvrn
Дата сообщения: 02.02.2006 06:55
egor23

Цитата:
Попробывал PPMonstr

Следовательно, на первой выборке с wildsoft.ru пока что лидер - дурилка с 89272 байт.
Автор: Panzer
Дата сообщения: 02.02.2006 21:51
arsvrn
egor23
Господа, вы обратили внимание когда я говорил о языке? В uharc судя по всему встроен хороший анализатор английского. На русском тексте он проседает весьма сильно. Все никак не соберусь выложить цифры.
Автор: TCPIP
Дата сообщения: 03.02.2006 02:07
Panzer
22:51 02-02-2006
Цитата:
В uharc судя по всему встроен хороший анализатор английского.

Угу. Еще один вариант, проседающий на неанглицких текстах --- RK (по крайней мере, так было раньше).
Автор: egor23
Дата сообщения: 03.02.2006 03:41
Panzer

Цитата:
Господа, вы обратили внимание когда я говорил о языке

обратили, было проведено архивирование, сегодня еще добавил Индивидульный подход.
[more=Смотрим сюда..]
Новое оформление тестов, + новые тесты (18.07.06)

Началось всё на 22-ой странице 16:19 26-01-2006
Так что, на сегодня, смотрите комментарии к результатам в топике.

Железо,Софт
WinXP SP2rus, TC 6.53, Easy CD-DA Extractor 9.0.1build2
Sempron64 2500+(2.1ГГц), 512Мб опер.памяти PC3200(468МГц) 2.5-3-3-7-1T (1T с 04.04.06),
CD-RW _NEC-9100a, DVD-ROM Sony DDU-1622.

Архиваторы
WinUHA 2.0rc1(UHARC 0.6a) (в скобках указано время потраченое на поиск и анализ файлов)
7z 4.32 (в скобках указано время потраченое на поиск файлов)
Winrar 3.51 (в скобках указано время потраченое на поиск файлов)
WinRK303, WinRK 3.0 build 3 beta (в скобках указано время потраченое на анализ файлов)
WinRK3, WinRK 3.0 build 2 beta (в скобках указано время потраченое на анализ файлов)
WinRK2, WinRK 2.16 (в скобках указано время потраченое на анализ файлов)
WinZip, WinZip 10.0(6685) (в скобках указано время потраченое на поиск файлов)
PPMVC v1.0 (Jul 27 2003) - Fast PPMII+VC compressor
PPMd_J, Fast PPMII compressor for textual data, variant J, Feb 16 2006
PPMonstr_J, Monstrous PPMII compressor based on PPMd var.J, Feb 16 2006
PPMonstr, Monstrous PPMII compressor based on PPMd var.I, Apr 30 2002
DURILCA05 - dirty useless really illusory compressor/archiver, v.0.5(non-public) (C) 1 Apr 2006
DURILCA - dirty useless really illusory compressor/archiver, v.0.4b(non-public) (C) 23 Sep 2004
Slim!, PPMII based archiver version: 0.23, 21 Sep 2004
paq8a compressor/archiver (C) 2006, Matt Mahoney, 27 января 2006
Monkey's Audio 4.01 beta 1 (January 8, 2006)
WAVPACK Hybrid Lossless Audio Compressor Win32 Version 4.31 2005-12-10
Lossless Audio Compressor Version 0.4b, copyright Michael Bevin 2002-2004
OptimFROG Lossless Audio Compressor (Win32), v4.510 [2005.07.17]
FLAC - Command-line FLAC encoder/decoder version 1.1.2

Последние версии архиваторов
WinZip 10.0(6698)
paq8h compressor/archiver (C) 2006, Matt Mahoney, Mart 22 2006
Monkey's Audio 4.01 beta 2 (February 17, 2006)
OptimFROG Lossless Audio Compressor (Win32), v4.520b [2006.03.02]

Профили WinRK3
123456789012345678901234567890123456789012345
ROLZ2(ROLZ2_0)\ROLZ3(ROLZ3_0)
Compression method: ROLZ2\ROLZ3
Model size: 192Мб
Largest optimised match: 512(0)
Audio model order: 64
Bit-stream model order: 20
Use text dictionary: on
Fast Analysis: on
Fast executable code compression: on
Use PPMd for text files: off PPMd
Compression method: PPMd
Model size: 384Мб
Largest optimised match: 512
Audio model order: 64
Bit-stream model order: 20
Use text dictionary: on
Fast Analysis: on
6789012345678901234567890 PPMz
Compression method: PPMz
Model size: 384Мб
Largest optimised match: 512
Audio model order: 64
Bit-stream model order: 20
Use text dictionary: on
Fast Analysis: on
1234567890123456789012345
Автор: Panzer
Дата сообщения: 03.02.2006 14:00
egor23

Цитата:
обратили, было проведено архивирование, сегодня еще добавил Индивидульный подход.

Спасибо, результаты ожидаемые и сходны с тем, что я делал когда-то. Держу пари, что durilca http://www.compression.ru/ds/durilca.rar на таких "нормальных" текстах побьет остальных в хлам (русский текст надо взять в ASCII).
Обратите внимание, что у нас фактически открытый чемпионат алгоритмов Дмитрия Шкарина.
Автор: arsvrn
Дата сообщения: 03.02.2006 14:02
Panzer

Цитата:
Держу пари, что durilca http://www.compression.ru/ds/durilca.rar на таких "нормальных" текстах побьет остальных в хлам

Добавим сюда еще Slim - тогда проверка будет более полной. PPMonstr - не лучший представитель PPMd, имхо, конечно.
Автор: Enotus
Дата сообщения: 04.02.2006 14:07

Цитата:
Держу пари, что durilca http://www.compression.ru/ds/durilca.rar на таких "нормальных" текстах побьет остальных в хлам (русский текст надо взять в ASCII).
Судя по личным наблюдениям и Squeeze Chart 2006 Вы проиграете пари.
Ставлю на PAQ8 и WinRK PWCM.
Автор: TCPIP
Дата сообщения: 05.02.2006 03:18
Enotus
15:07 04-02-2006
Цитата:
WinRK PWCM

Вы уверены, что у RK появился нормальный парсинг русской лексики?
Автор: egor23
Дата сообщения: 07.02.2006 02:47
Добавил архиваторы DURILCA, Slim!, PAQ8A; wildsoft.ru 50Мб, затраченое время.
http://forum.ru-board.com/topic.cgi?forum=5&topic=8076&start=459&limit=1&m=1#1

Serkin70

Цитата:
Не опечатка с WinRAR?

в TC папка открывается 2мин38сек
Автор: Panzer
Дата сообщения: 07.02.2006 16:49
egor23

Цитата:
Индивидульный подход:
Энциклопедический словарь Ф.А.Брокгауз,И.А.Ефрон (три кодировки)
...
DURILCA(DURILCA.exe e -m384 -o32) ANSI - 6,01Мб (6 310 997) 1мин 55сек
DURILCA(DURILCA.exe e -m384 -o32) ASCII - 6,01Мб (6 312 773) 1мин 47сек
DURILCA(DURILCA.exe e -m384 -o32) KOI8 - 6,01Мб (6 310 902) 1мин 45сек

Вот это вызывает сомнения. Думаю, у тебя DURILCA не смогла найти и подключить файл препроцессинга !Mdl-Lib.mdl. Проверь как следует. На "чистых" русских текстах в кодировке ASCII (DOS) железно должен быть лучший результат среди других кодировок.
Автор: egor23
Дата сообщения: 07.02.2006 18:32
Panzer

Цитата:
!Mdl-Lib.mdl

А с кокого испуга DURILCA будет искать этот файл, для этого параметр t2 хотя бы надо.
Добавил c t2 DURILCA(DURILCA.exe e -m384 -o32 -t2)
http://forum.ru-board.com/topic.cgi?forum=5&topic=8076&start=459&limit=1&m=1#1
Автор: Panzer
Дата сообщения: 07.02.2006 19:18
egor23

Цитата:
А с кокого испуга DURILCA будет искать этот файл, для этого параметр t2 хотя бы надо.
Добавил c t2 DURILCA(DURILCA.exe e -m384 -o32 -t2)

Так мы тестируем "почти оптимальные" установки, а не по умолчанию.
Автор: Viewgg
Дата сообщения: 07.02.2006 20:49
Прошу прощения, что пока не могу потестировать сам, но кто нибудь пробовал WinRK 2,16, например, с методами PPMD и PPMZ? Последний особенно интересен, поскольку это вроде лучший представитель этого семейства алгоритмов. Кроме того, он не такой тормознутый, как PAQ, WinRK PWCM и прочие, хотя и не слишком шустр.
Автор: Serkin70
Дата сообщения: 08.02.2006 01:19
Увидел нигде не упоминавшийся в этой теме ранее Brazip v9.0
Кто пооперативнее и поопытнее не хотите опробовать для сравнения с другими? (уже зарекомедовавшими себя архиваторами)
Автор: egor23
Дата сообщения: 08.02.2006 02:00
Serkin70

Цитата:
Brazip v9.0

Обычный архиватор без собственного метода сжатия, базовый zip (zip, bh, cab, lha, jar)
Особенность есть своя разновидность метода шифорвания zip 2.0 (неучтойчив перед plain-text атакой)
Проводить сравнение по сути не имеет смысла.
Автор: Serkin70
Дата сообщения: 08.02.2006 02:11

Цитата:
Обычный архиватор без собственного метода сжатия, базовый zip (zip, bh, cab, lha, jar)

Я тоже уже увидел это. (думал качать буду полночи). Странно, что еще и платный ко всем чертым.
Автор: Panzer
Дата сообщения: 08.02.2006 18:10
egor23
Что-то мне совсем не нравятся твои тесты. Ты провел целое исследование, но результаты далеки от оптимальных, легко подбираемые опции не использованы. Более того, с теми же параметрами для Slim!, PPMonstr, paq8a я получаю другие результаты. Либо у тебя создался какой-то неудачный tar, либо я уж не знаю что. Вот на доступном всем wildsoft:
У тебя (отсортировал по размеру):
заtarеная папка wildsoft.ru.tar 49.9Мб (52 387 328)

DURILCA(DURILCA.exe e -m384 -o128) - 95,3кб (97 595) 5мин 30сек
PPMonstr(PPMONSTR.EXE e -m384 -o128) - 113.7кб (116 477) 4мин 24сек
Slim!(slim23d.exe a -o128 -m384) - 116,6кб (119 407) 8мин 1сек
PAQ8A(paq8a.exe -5) - 116.6кб (119 458) 8мин 53сек
UHARC(PPM,32Мбсловарь,мультимедия отключена) - 141,9кб (145 322) 7.3сек
------------------------------------
У меня:
заtarеная папка wildsoft.ru.tar 49.9Мб (52 387 328) - совпадает!

wildsoft-txt.dur 89 369
wildsoft.sl 107 627
wildsoft.pmm 108 181
wildsoft-5.pq8 110 426
wildsoft.uha 129 954

Вызовы архиваторов:

DURILCA.exe e -t2 -m384 -o128 -fwildsoft.dur wildsoft.ru.tar
slim23d.exe a -o128 -m384 wildsoft.sl wildsoft.ru.tar
ppmonstr-I.exe e -m384 -o128 -fwildsoft.pmm wildsoft.ru.tar
PAQ8a.exe -5 wildsoft-5.pq8 wildsoft.ru.tar
UHARC.exe a -d0 -mx -md32768 -pr -r+ wildsoft.uha wildsoft.ru.tar

Автор: arsvrn
Дата сообщения: 08.02.2006 20:37
Panzer
egor23

Цитата:
с теми же параметрами для Slim!, PPMonstr, paq8a я получаю другие результаты.

У меня результаты с вашими тоже не совпадают. Размер заtarенного архива такой же. Делал встроенным Total Commander'a, вид сортировки в ТС не влияет - проверил (когда не пользуешься Ctrl-B). Архивировал с командами из поста Panzer. Результаты:

wildsoft.ru.tar 52 387 328
wildsoft.dur 88 350
wildsoft.sl 107 463
wildsoft-5.pq8 111 501
wildsoft.uha 130 367

Версии архиваторов:

Durilka 0.4b (137216 байт, 23.09.2004)
Slim 0.23d (70656 байт, 21.09.2004)
PAQ8a (31744 байт)
Uharc 0.6a (111104 байт, 06.02.2005).

Вопрос - в чем разница.
Автор: Serkin70
Дата сообщения: 09.02.2006 00:22
All
Я внимательно читаю ваши исследования ( и даже подкинул wildsoft.ru для тестов )
Но не всё еще схватываю (не вдаюсь в подробности).
Посему вопрос в данный момент самый актуальный: Что такое "затареный" (видел нечто подобное в плагине к ТС, но не уверен зачем дело стало и в о чём именно речь).
ПЫС: кстати, никто не думал, что на конечный размер архива будут влиять файловая система на исходнике (размер кластера и прочие тонкости)? Для небольших архивов вряд ли, но для больших наверное должно. (на время влияет скорость машины)
Автор: TCPIP
Дата сообщения: 09.02.2006 03:53
Serkin70
01:22 09-02-2006
Цитата:
Что такое "затареный"

TAR --- TApeArchiver (кажется от IBM, использовалась для архивации данных на бабины, кассеты стримеров); программа склеивающая набор файлов в один файл, как это делает функция сплошного архивирования в WinRAR или 7-Zip. Так как не все архиваторы ее поддерживают, а некоторые и вовсе могут принимать на обработку только по одному файлу, единственный вариант улучшить сжатие (увеличение набора данных увеличивает избыточность) и заархивировать набор файлов за один раз --- предварительно склеить этот набор, "упаковав" его в TAR.
Автор: egor23
Дата сообщения: 09.02.2006 04:51
Добавил WinRK 2.16 PPMd, PPMz
http://forum.ru-board.com/topic.cgi?forum=5&topic=8076&start=459&limit=1&m=1#1

Panzer

Цитата:
Так мы тестируем "почти оптимальные" установки, а не по умолчанию.

Моё тестирование практическое, в данном случае в самой DURILCA есть токо упоминание про -tN - set trick number, а отдетально это описано в READ_ME.TXT, а в сети не всегда встречается полная сборка с READ_ME и !Mdl-Lib.mdl.

Panzer
arsvrn
Для определенности wildsoft.ru.tar DURILCA(DURILCA.exe e -m384 -o128 -t2) 94,8кб (97 116)
Ну объяснение есть достаточно простое: на разных машинах разные результаты, косяк падает на разные процессоры, но это так сказать гипотеза. То что архивы получаются разные это факт давнишний (архиватор, параметры: однинаковые, а результаты разные, на разных машинах, но не на всех машинах, или это выборочно происходит на данной машине, данный архиватор так прикалывается...).
Не могли б отписаться о своём железе, что за процессор в подробностях.
Для определенности вот tar создавался в TC, а то может у нас действительно разные tar-ы, сравните по содержимому, если отличаются выложите свой.
http://rapidshare.de/files/12849920/wildsoft.ru_tar.uha.html

Serkin70

Цитата:
Что такое "затареный"

Консольные архиваторы не все могут обрабатывать субдиректории для этого и заtarеваем.

Цитата:
никто не думал, что на конечный размер архива будут влиять файловая система на исходнике

На размер архива, да и любого файла это не влияет, влияет это на занимаемое место на винчестере.
Автор: egor23
Дата сообщения: 09.02.2006 23:10
Добавил полностью DURILCA с -t2
http://forum.ru-board.com/topic.cgi?forum=5&topic=8076&start=459&limit=1&m=1#1
Автор: Panzer
Дата сообщения: 10.02.2006 15:48
egor23

Цитата:
Моё тестирование практическое, в данном случае в самой DURILCA есть токо упоминание про -tN - set trick number, а отдетально это описано в READ_ME.TXT, а в сети не всегда встречается полная сборка с READ_ME и !Mdl-Lib.mdl.

Ну зачем же пользоваться какими-то кривыми сборками, когда на сайте автора лежит нормальная!

Цитата:
Для определенности вот tar создавался в TC, а то может у нас действительно разные tar-ы, сравните по содержимому, если отличаются выложите свой.

Действительно tar-ы разные, и у тебя неудачный какой-то. Надо разобраться, почему. Для твоего tar воспроизводятся твои результаты.

Цитата:
Ну объяснение есть достаточно простое: на разных машинах разные результаты, косяк падает на разные процессоры, но это так сказать гипотеза. То что архивы получаются разные это факт давнишний (архиватор, параметры: однинаковые, а результаты разные, на разных машинах, но не на всех машинах, или это выборочно происходит на данной машине, данный архиватор так прикалывается...).

Я в эту мистику не верю. Если на входе одинаковые файлы, то и на выходе архиватора будут архивы одного размера. Иначе плохой, негодный архиватор. С tar выясним. У тебя ТС какой версии? Файлы как были отсортированы (name, ext, ...)?
Автор: egor23
Дата сообщения: 10.02.2006 18:19
Panzer

Цитата:
Действительно tar-ы разные, и у тебя неудачный какой-то. Надо разобраться, почему. Для твоего tar воспроизводятся твои результаты.

А распаковать tar и сравнить с ваши распакованым , может какого файлика нет.
tar создавался в TC 6.53 tarилась папка.
Мистика тут не причем, но косяк такой бывает, позже конкретные данные приведу.

Добавлено:
Файлик из HL2, вот такой есть косяк, задокументированный (более детально пока нет возможности проверить)
source models.gcf - 471.109.428 байт
source models.uha - 112.099.703 (WinUHA,ALZ-3,32Мбсловарь) (AthlonXP 2500+ Barton@3200+)
source models.uha - 111.816.900 (WinUHA,ALZ-3,32Мбсловарь) (Intel класса P4)
source models.uha - 111.816.900 (WinUHA,ALZ-3,32Мбсловарь) (Sempron64 2500+ 2.1ГГц)

Так как это не очень часто встечается, кто нить может просветить почему так получается.

Добавлено:
Решил добавить тест на сжатие *.log файлов, тоже должны быть интересные результаты.
Кусочек отрезал от _ftp://ftp.ni.com/outgoing/WebTrends/ng.0119.zip 184Мб (2022Мб)
Результаты будут позже.
Автор: Panzer
Дата сообщения: 11.02.2006 14:58
egor23

Цитата:
source models.uha - 112.099.703 (WinUHA,ALZ-3,32Мбсловарь) (AthlonXP 2500+ Barton@3200+)
source models.uha - 111.816.900 (WinUHA,ALZ-3,32Мбсловарь) (Intel класса P4)
source models.uha - 111.816.900 (WinUHA,ALZ-3,32Мбсловарь) (Sempron64 2500+ 2.1ГГц)

Так как это не очень часто встечается, кто нить может просветить почему так получается.

Либо глюк WinUHA, либо глюк системы, либо что-то было не одинаковым (настройки или исходный файл). Четвертого не дано.

Страницы: 12345678910111213141516171819202122232425262728293031

Предыдущая тема: canopus pro coder


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.