Автор: vlad_sarov
Дата сообщения: 13.03.2015 17:08
tomset
Традиционно производители указывают параметр MTBF – среднее время между отказами.
Вычисление AFR из MTBF – очень простой шаг. Вот формула:
Формула для RAID
AFR = 1-e^(OT/MTBF)
где OT – время работы диска в течении года. Мы исследуем надежность RAID – массивов, и предполагаем, что массив работает круглосуточно, то есть OT=24*365=8760 (число часов в году).
Типичные MTBF для жестких дисков в сотни раз больше, чем 8760. Поэтому формулу для вычисления AFR можно упростить, пользуясь разложением степенной функции в ряд Тейлора.
AFR=8760/MTBF – этой формулой мы и будем пользоваться для вычислений.
Например, для диска WD Caviar Blue указан параметр MTBF=650 000 часов. Довольно большой срок, но это не значит, что среднее время работы диска составит 74 года. Это статистический параметр и в практических целях проще использовать вероятность отказа, которая связана с MTBF.
Для диска WD Caviar Blue, AFR для него равна 1,3%. Это можно трактовать так: если в организации 100 дисков, то раз в год один придется менять.
Пользуясь теорией вероятности, вычислим AFR(RAID) – годовую вероятность отказа для RAID массивов исходя из AFR одного диска, которую и обозначим как AFR:
AFR0 = AFR (RAID0) = 2*(1-AFR)*AFR+AFR^2 = 2*AFR-AFR^2
AFR1 =AFR (RAID1) = AFR^2
AFR (RAID10) = AFR0(AFR1) = 2*AFR^2 – AFR^4 =~ 2*AFR^2
AFR5 = AFR (RAID5) = 1 — (N*AFR*(1-AFR)^(N-1) + (1-AFR)^N) =~=~ 1/2*N*(N-1)*AFR^2 — 1/3*N*(N-1)*(N-2)*AFR^3 ,где N – число дисков в массиве (от 3 до 16)
AFR (RAID50) = 2*AFR5 – AFR5^2 =~ N*(N-1)*AFR^2
Для примера с WD Caviar Blue вычислим вероятность того, что массив выйдет из строя и все данные будут утеряны:
AFR(RAID0) = 2.7%
AFR(RAID1) = 0.02%
AFR(RAID10) = 0.04%
AFR(RAID5 из 3х дисков) = 0.05%
AFR(RAID5 из 5и дисков) = 0.18%
AFR(RAID5 из 8и дисков) = 0.48%
Ради интереса, AFR(RAID5 из 16и дисков) = 1.9% — что выше, чем у исходного диска.
На практике оказывается, что число заменяемых дисков (по результатам сервисных журналов) больше, чем показатель AFR. Этот показатель называется ARR – среднегодовой показатель возвратов. Основываясь на исследованиях дата-центров можно полагать, что на практике AFR может оказаться в 2 раза выше, чем полученная из MTBF.
Некоторые производители идут на маркетинговый ход – подразумевая, что диск некорпоративного уровня используется 8 часов в сутки, они указывают AFR, который получается в 3 раза меньший, по сравнению с расчетом из формулы AFR=8760/MTBF
После года использования AFR дисков увеличивается приблизительно в 3 раза
Есть еще один показатель отказоустойчивости диска UER – уровень невосстановимых ошибок. Диски для домашнего применения имеют UER=10^-14, это значит, что ожидается один ошибочный бит на 10^14 бит = 11,6 Tb. Для корпоративных дисков UER = 10^-16..10^-15. Этот показатель следует принимать во внимание при оценке надежности восстановления данных в RAID5. По некоторым данным, вероятность сбоя при восстановлении RAID5 из 8и дисков по 2Tb составит более 50%, если использовать диски с UER=10^-14. Это, впрочем, не означает, что все данные будут потеряны. Ошибочным в этом случае получится только один блок, что может в некоторых случаях оказаться критичным.
RAID5 может перестраиваться довольно долгое время. Например, восстановление массива из дисков по 2TB может занимать до двух дней при использовании RAID контроллера. Если RAID «софтверный», то скорость восстановления может оказаться еще в два раза ниже. И если за это время произойдет сбой хотя бы одного диска, данные окажутся потеряны.
В период восстановления AFR системы RAID5 из 8 дисков = 1-(1-AFR)^8=10.3% – то есть в период восстановления RAID5 особо уязвим.