Ru-Board.club
← Вернуться в раздел «В помощь системному администратору»

» Разваливается хардварный массив HP после ребилда!

Автор: lamobot1
Дата сообщения: 17.08.2015 20:56
Всем доброго времени суток!
Имеется HP Proliant 380P Gen8, в нём стоит HP Smart Array P420i 1Gb.

Ситуация такая:
Его купили с 8ю хардами - в него запихали 4 харда и поставили ось и он встал на боевое дежурство. Уже после этого в него запихали еще 4 чтоб проверить их работоспособность, все ок, все живые. Ось на 8ми не грузили. После просмотра в HP Array Configurator вырубили сервак и вынули 4харда и положили в зип.
После этих действий массив начал гадить в ilo евенты мол потеряны 4е харда. Но, никто этому не придал значения все нормально работало.
Теперь, спустя почти 2а года, один из работающих в сервере харда помахал ручкой, ну и ок - у нас есть зип!!!
Глушим сервак, заменяем хард из зипа и... А не тут-то было! Массив не найден! Шок! Паника!
Снова глушим и вынимаем хард из зипа из сервера и о чудо! Массив найден - ось статанула на 3х хардах!
Ок! Стартанула ось - делаем хот свап, подтыкаем хард из зипа и о чудо!
HP Smart Storage Administrator пишет нам ребилдинг и стока-то процентов сделано! Радости не было предела пока не перезагрузили!
Перезагрузка, дело доходит до инициализации рейда и снова массив не найден! Снова глушим и вынимаем хард из зипа из сервера и о чудо! Снова массив найден и стартует система!

Может это скажет Вам больше чем мне

[more]Controller Hardware Information
Controller Smart Array P420i
Slot 0
Hardware Revision B
Controller Serial Number 5001438021782410
Firmware Version 3.42
Number of Ports 2 (Internal only)
Total Cache Size 1024 MiB
Battery/Capacitor Pack Count 1

Controller Settings
Transformation Priority Medium
Rebuild Priority Medium
Surface Scan Analysis Priority Idle
Surface Scan Delay 15 sec
Physical Drive Write Cache State Enabled
Spare Activation Mode Activate on Physical Drive Failure (default)

Advanced Controller Settings
RAID 5/6/50/60 Degraded Mode Performance Optimization Disabled
Physical Drive Request Elevator Sort Enabled
RAID 6/60 Alternate Inconsistency Repair Policy Disabled
Maximum Drive Request Queue Depth Automatic
Monitor and Performance Analysis Delay 60 min

Controller Configuration Summary
Number of Arrays 1
Number of SmartCache Arrays 0
Number of Logical Drives 1
Number of Data Logical Drives 1
Number of SmartCache for Logical Drives 0
Number of Physical Drives 4
Number of Data Drives 4
Number of Spare Drives 4
Number of Unassigned Drives 0

Controller Status
Controller Status OK
Cache Status OK
Battery/Capacitor Status OK

Temperature Sensors
Controller Temperature 88°C
Cache Module Temperature 52°C
Capacitor Temperature 29°C

Storage Enclosures
Internal Drive Cage at Port 1I : Box 2
Internal Drive Cage at Port 2I : Box 0

Status Messages
5201

Critical Status Message(s)
274 0 GB SAS HDD at Port 2I : Bay 5 is bad or missing. To correct this problem, check the data and power connections to the physical drive. For more information, generate a diagnostics report.
274 0 GB SAS HDD at Port 2I : Bay 6 is bad or missing. To correct this problem, check the data and power connections to the physical drive. For more information, generate a diagnostics report.
274 0 GB SAS HDD at Port 2I : Bay 7 is bad or missing. To correct this problem, check the data and power connections to the physical drive. For more information, generate a diagnostics report.
274 0 GB SAS HDD at Port 2I : Bay 8 is bad or missing. To correct this problem, check the data and power connections to the physical drive. For more information, generate a diagnostics report.
298 Array A with Spare - 1 Logical Drive(s) contains a failed physical drive. To correct this problem, check the data and power connections to the physical drives or replace the failed drive. For more information, generate a diagnostics report.

Warning(s)
342 The array controller is rebuilding 600 GB SAS HDD at Port 1I : Box 2 : Bay 2.

Configuration changes to logical drives in the array are not allowed until rebuilding is complete. Also, configuration changes to any other array that is waiting for expansion or rebuild are not possible until this process completes. If unused space exists, additional logical drives can be created. Otherwise, most configuration changes are not allowed until this process is complete.
778 The array controller is rebuilding Logical Drive 1.

Configuration changes to logical drives in the array are not allowed until rebuilding is complete. Also, configuration changes to any other array that is waiting for expansion or rebuild are not possible until this process completes. If unused space exists, additional logical drives can be created. Otherwise, most configuration changes are not allowed until this process is complete.

Active Task(s)
1 Logical Drive 1 is rebuilding fault tolerance data. Progress: 30.45%[/more]

Вопрос: Как сделать ребилд вечным и выкосить из массива не существующие диски!?

ПС Гуру строго не судите за вопрос, с такими серьезными машинами никогда не работал.
Автор: vlary
Дата сообщения: 17.08.2015 23:39
lamobot1
Цитата:
Разваливается хардварный массив...
Все о железячном RAID.
Автор: ipmanyak
Дата сообщения: 18.08.2015 06:54
lamobot1 Number of Spare Drives 4
У вас 4 диска назначены в SPARE, как вы их тестировали? В SPARE сразу все не надо было назначать.
Надо их вставить , дождаться окончания ребилда и затем убрать из SPARE, переведя диски в JBOD или Unsigned и изъять, но 1 диск лучше оставить в SPARE, думаю сам знаешь почему.
298 Array A with Spare - 1 Logical Drive(s) contains a failed physical drive.
Также возможно, что один из дисков в райд массиве уже типа сдох, надо посмотреть его SMART.
Короче сейчас надо вставить все диски, далее уже смотреть что и как.
Автор: lamobot1
Дата сообщения: 18.08.2015 08:19

Цитата:
В SPARE сразу все не надо было назначать.

Во время тестирования они автоматом добавились в массив и ни кого не спрашивали.


Цитата:
Надо их вставить , дождаться окончания ребилда и затем убрать из SPARE

Как? Вставить все не получится, тк один уже сдох, а харды из зипа не знаю как стояли.


Цитата:
но 1 диск лучше оставить в SPARE, думаю сам знаешь почему.  

Если честно - нет.


Цитата:
Также возможно, что один из дисков в райд массиве уже типа сдох, надо посмотреть его SMART.

Сдохший и пытаюсь менять.
Автор: ipmanyak
Дата сообщения: 18.08.2015 09:45
lamobot1 смотри в HP - шной утилите управления райдом, какие диски сейчас в массиве, там должны быть указаны отсеки ( BAY), в которых они стоят (нумерация отсеков может идти с нуля, а не с единицы, это сам увидишь). Далее думать. Те которые не задействованы вывести из SPARE, потом добавить 1 диск в SPARE. SPARE - это динамический резерв, когда сдыхает 1 диск в массиве, то контроллер автоматом назначает вместо сдохшего этот диск из SPARE и делает ребилд массива. Ребилд - операция длительная.
Если сам не справишься, показывай скриншоты.
P.S.
обсуждение лучше перенести в профильную ветку - Все о железячном RAID. [?], которую дал VLARY
Автор: lamobot1
Дата сообщения: 18.08.2015 17:53
Эксперименты проводить отваживаюсь только в выходные, иначе меня четвертуют если серв не будет работать утром!
Соответственно, если есть хоть маленько желания - заходи в сб, часов в 9-10(мск) или 12-13(нск), т.к. делать усиленно последние бэкапы будет оооочень долго серв, смогу приступить не раньше указанного времени, а советы гуру этого дела мне очень пригодятся!

ПЫСЫ! Спасибо за участие и посильную помощь!
Автор: utenvk
Дата сообщения: 19.08.2015 00:04
Похоже контроллер все еще надеется увидеть пропавшие диски в слотах 5,6,7, и 8.
Они вообще отображаются в ACU?
Автор: ipmanyak
Дата сообщения: 19.08.2015 15:55
lamobot1 Бэкап сделай.
Автор: lamobot1
Дата сообщения: 20.08.2015 16:32
В общем, пришел к выводу развалить то, что есть и построить все заново.
Чем порекомендуете сделать бэкап чтоб потом по сети можно было его стянуть и развернуть?
В сети есть нас туда и поедут бэкапы.
Автор: utenvk
Дата сообщения: 20.08.2015 20:06
Например WinPE + Symantec Ghost
(Нужно будет по F6 при загрузке подсунуть драйвер для RAID контроллера)

Прежде чем разваливать, рекомендую попробовать одно средство:
-Сделать бекап.
-Выключить сервер
-Вставить все 4 бывших HotSpare диска в слоты 5-8 в произвольном порядке.
-Включить сервер
С большой верояностью котнроллер подтянет из метадаты дисков нормальный конфиг.


Вот, кстати, еще решение:http://h30499.www3.hp.com/t5/ProLiant-Servers-ML-DL-SL/No-disk-drives-detected-on-DL380-G6/td-p/4632056

Цитата:
Run ADU (Array Diagnostic Utility) if previous positions are unknown. Then, turn the system power off and move the drives to their original positions.

Автор: lamobot1
Дата сообщения: 21.08.2015 09:44

Цитата:
move the drives to their original positions.

Вот с этим будут проблемы. Тк где как остальные стояли я хз.
Автор: utenvk
Дата сообщения: 21.08.2015 13:02
Собственно HP как-бы обещает, что HP Array Diagnostic Utility укажет правильное расположение дисков.

Страницы: 1

Предыдущая тема: не запускается HP Pro 3520


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.