Автор: cuneiform
Дата сообщения: 23.01.2008 02:40
Хочу спросить: есть библиотека электронная книжная, около 100 Гб, форматы разные --- TIFF Group4 (fax format b/w), jpeg, djvu, txt, html -- сотни тысяч страниц книг.
Естественно, все по разделам, темам... но грубо --- графика к графике, текстовые файлы --- к текстовым. Поэтому мне понятно, что универсальный архиватор вроде как не очень рационален будет. Просто можно архивировать 7zip' ом или RAR'ом.
Но хотелось бы разделить мух и котлет - текстовые и графические архиваторы - для получения более эффективного сжатия, то есть сильного и быстрого О Д Н О В Р Е М Е Н Н О .
Например, на дискету я сжимаю WinUDA, но он медленный для архивирования объемов 100 Мб - 100 Гб. В среднем текстовая книга (txt, html) имеет объем до 1-3 Мб до архивирования. Таких книг тысячи. В графике книг меньше, зато одна энциклопедия может иметь 10000-20000-50000 страниц в jpg, djvu, tiffG4 (каждый том примерно по 1000 стр.=файлов), один словарь -1000 до 3000 страниц-файлов). При этом, один том = 1 архив.
Вероятно tiffG4, djvu вообще не следует сжимать.
И удобство работы с десятками тысяч файлов надо учитывать (работа со списками файлов и архивов желательнее, чем манрипуляции с интерфейсом GUI напрямую).
Кто и что может посоветовать конкретное по организации работы. Хотя бы адекватные типы архиваторов на указанные форматы. Воспользоваться готовыми таблицами результатов нельзя, потому что мои конкретные задачи сильно отличаются от абстрактных условий тестов и экспериментов. Можно строить только гипотезы. - ТНХ.
ПС. По работе мне приходится давать людям задания с литературой, этакий "подарочек" каждый раз делать... Флэшки не надаришься... А вот дискету - пожалста. Между прочим, на стандартную дискету 1,44 Мб входят 30-35 обычных нормальных книг, распознанных и в текстовом формате... Правда, если их сжимать WinUDA. Туда же и архиватор 18 Кб уходит. ЭТА ИНФА ДЛЯ ТЕХ, КТО ПРЕЗИРАЕТ АРХИВАТОРЫ.