Ru-Board.club
← Вернуться в раздел «В помощь системному администратору»

» Программы для мониторинга RAID-массивов.

Автор: Diabolik
Дата сообщения: 14.09.2011 10:07
У меня имеется 2 сервака с RAID 10 (0+1) и поднятом терминал-сервере для работы с базой 1С 7.7 через MS SQL 2k. Работали вообще без нареканий и не выключаясь около 4 лет. Вроде пока SMART не жалуется, но начались подвисания, чего раньше никогда небыло. Хотелось бы найти какую-нибудь универсальную прогу, типа мониторинга за сбойными секторами. А то если данные грохнутся, раньше чем я обнаружу проблему - мне голову оторвут... хотя это и так понятно, что до такого доводить не нужно. Кто сталкивался с такими ситуациями - подскажите!
Автор: bga83
Дата сообщения: 14.09.2011 10:26

Цитата:
Хотелось бы найти какую-нибудь универсальную прогу

не факт, что универсальные есть, у каждого вендора свое ПО, так что лезь на сайт производителя твоего контролеера
Автор: Diabolik
Дата сообщения: 14.09.2011 13:39
bga83
Ну скорее всего универсальные средства мониторинга массивов есть, может не такие точные как фирменные, но достаточные чтобы обнаружить бэды. Надо поискать будет.

У меня мамка Intel Sapello S5000VSA, контроллер встроенный Intel® Embedded Server RAID Technology II, обозначенный дисковым накопителем Intel MegaSR SCSI Disk Device (Не понял при чем тут SCSI? Там обычные SATA'шные винты). На все на это, установлена Windows Server 2003 Enterprise SP2 32-bit. В комплекте с дравами, вроде шла какая-то приблуда (Raid Web Console 2), но пользы я от нее не добился.

Согласитесь, как-то не шибко информативно?
Автор: Diabolik
Дата сообщения: 02.04.2013 21:12
Подскажите прогу с помощью которой можно получать данные S.M.A.R.T. из RAID'а ESRT2. Я так понял нужно копать в строну сайта разработчков чипа. Эм... LSI?
Автор: vlary
Дата сообщения: 02.04.2013 22:25
Вот интересно, почему идет полный игнор темы Все о железячном RAID, да и вообще раздела Магнитные носители информации?
Автор: Diabolik
Дата сообщения: 03.04.2013 09:02
vlary
1. Потому что тема была создана давно, а сейчас просто нашел ее опять по своему же запросу.
2. С RAID'ом все в порядке, интересует только ПО для мониторинга S.M.A.R.T.
3. И туда тоже доберусь...
Автор: DeMaC
Дата сообщения: 03.04.2013 10:23
[more] Diabolik, Вы указали что у Вас есть Intel RAID Web Console, но я не совсем понял используете ли Вы её... Т.к. на скриншоте лишь окно входа на сервера для дальнейшей работы...

Выбрав нужный сервер, активируется кнопка (в левом нижнем углу) "Login" - для авторизации программы на сервере (при удаленном подключении по RDP к серверу и запуске данной программы я использую лог/пасс администратора сервера). После авторизации откроется окно настройки и управления контроллера данного сервера, там же есть информация об общем состоянии (обычно вендорные умные контроллеры имеют свой алгоритм, либо настраиваемый, либо работающий принудительно, проверки контроллера/массивов/дисков и в случае обнаружения проблем выдает логи в ПО). В данном случае эти логи доступны ниже окна управления в окне программы и по-умолчанию (а в некоторых случаях можно настраивать виды сообщений) дублирует сообщения в журнал ОС относительно проблем в том или ином виде со ссылкой на источник.

Ну как минимум в моей практике, что Intel, что HP это делали...

P.S. У HP в фирменном ПО есть принудительный диагностический отчет, в котором есть информация о состоянии, она в специфичном виде, но проблему дисков увидеть можно "невооруженным взглядом". Не сталкивался с подобным у Intel, но и не использовал при этом "Intel(R) Active System Console", в которой тоже есть "много интересного".... [/more]
Автор: Diabolik
Дата сообщения: 03.04.2013 12:49
DeMaC
Ну разумеется я могу зайти внутрь и посмотреть состав RAID'a. Но никакой опции данных о состоянии целостности диска я там не нашел. Во-вторых, что значит использовать? Т.е. допустим у меня посыпался один из дисков. Мне что нужно каждый день/час заходить в состав каждого RAID'а на 3 серваках и смотреть не поползло ли там чего? Даже если данная ситуация будет расписана где-то в логах, по любому нужна какая-то система оповещения (ну SMS на телефон это было бы идеально), хотя бы окно с предупреждением на рабочем столе. А ведь RAID10 может и по диагонали развалиться (был такой случай), а там огромная база 1C за много лет, поэтому мне это так критично.

Добавлено:
Нашел систему оповещения на почтовый ящик (не понятно только что он конкретно оповещать собирается). Ну хоть что-то...
Автор: DeMaC
Дата сообщения: 05.04.2013 05:24
Если я не ошибаюсь, то оповещение должно быть в "Intel(R) Active System Console"...
Автор: Diabolik
Дата сообщения: 05.04.2013 12:40
DeMaC
В консоли заходишь в Tools - Configure Alerts. Там выставляешь на что реагировать и в какие логи писать. Есть выборочная настройка, по самым мелким реакциям (S.M.A.R.T. тока мне так на глаза и не попался) Там же настраиваешь на какой ящик и в случае какого сбоя отправлять оповещение.
Автор: DeMaC
Дата сообщения: 05.04.2013 12:57
...так и я об этом, или Вам не достаточно этого функционала и нужно что-то более конкретное?!

Имхо, "конкретное" необходимо производить выборочно при получении "удобного предупреждения" или при появлении проблем, производить просмотр логов и т.п. Или я не понимаю поставленной задачи...)))

На современных контроллерах небольшое количество сбойных секторов может уйти в переназначение почти не заметно и без участия. Но как-то это должно отражаться в логах. Например, у меня на HP замене двух HDD в 10-ке предшествовало то, что в логах периодически появлялось отваливание диска с последующим ребилдом. Детальный диагностический отчет показал наличие ошибок чтения/записи на двух дисках - заменили, а потом проверили отдельно замененные диски: были переназначенные сектора, а рабочие сектора не выдали ошибок.
Автор: Ivan_Fedorovv
Дата сообщения: 06.04.2013 18:39
Diabolik
Если мать " Intel Sapello S5000VSA, контроллер встроенный Intel® Embedded Server RAID Technology II, обозначенный дисковым накопителем Intel MegaSR SCSI Disk Device " .
Нужно запустить Everest и просмотреть список всего железа.
Если используется действительно только встроенный контроллер, то это, скорее всего LSI 1068x.
Есть 2 варианта мониторинга:
Вариант A. Cкачиваешь с LSI его софтину управления с поддержкой командной строки-
MegaRAID Storage Manager .
После этого смотришь мануал и пишешь команды которые выводят тебе нужные параметры.
Я обычно использую 2 команды:
1. Статус массива.
2. Состояние дисков.

Выполняешь эти команды, выводишь результат в файл sample.txt.

После этого, пишешь скрипт из 3 частей.
1. Выполняются эти команды, вывод уже в файл test.txt.
2. Сравнивается содержимое файлов test.txt и sample.txt.
3. Если содержимое изменилось, тогда тебе отправляется сообщения.
Если нет, значит все в порядке. Файл test.txt можно удалить.

Скрипт помещается в автозагрузку и при сбое ты получаешь сообщение.

Вариант B.
Если покапаться в настройках софтины MegaRAID Storage Manager в графическом режиме, то можно найти опции мониторинга и отправки сообщений.


P.S. Все это в теории. На Виндовзе я такое не делал, на Linux написание и настройка нужного скрипта (LSI MegaCLI) заняли 30 минут.
Все работает.

Автор: Diabolik
Дата сообщения: 06.04.2013 18:58
Ivan_Fedorovv
Так, а можно поподробней? Ну запустил я AIDA64 (бывший Everest) - где и чего там нужно найти? Во вторых я так понял, версия MegaRAID Storage Manager должна быть именно к тому чипу, который укажет тестилка? А уж со скриптами... обязательно так заморачиваться (что-то там писать/дописывать), что бы тупо отслеживать S.M.A.R.T. утилитой которая для этого и предназначена? Мне казалось что решение должно быть более простым, это не ни какая-то там сверхзадача.
Автор: Ivan_Fedorovv
Дата сообщения: 07.04.2013 18:55
1. AIDA64 или Everest нужны только для того, чтобы на 100% подтвердить тип контроллера. Где это в них искать,- ХЗ. В винде я таким уже лет 5 не занимался.

2. Не совсем, MegaRAID Storage Manager подходит для большого списка оборудования.
Я думаю, что есть 2 подходящих варианта:
http://www.lsi.com/downloads/Public/Host%20Bus%20Adapters/Host%20Bus%20Adapters%20Common%20Files/SAS_SATA_3G_P21/LSImpt_sas_Windows_Server_2003_P21.zip
или
http://www.lsi.com/downloads/Public/Host%20Bus%20Adapters/Host%20Bus%20Adapters%20Common%20Files/LSImpt_sas_Windows_Server_2003_P20.zip

3. Полазь по настройкам в графической утилите, там такое может быть.
Но в командной строке ты точно знаешь как отработают команды. А в графике, сработает/не сработает,-ХЗ.
В Linux такой скрипт занимает меньше страницы и работает больше 2 лет.
Автор: Diabolik
Дата сообщения: 06.05.2013 15:13
Ivan_Fedorovv
Все что удалось нарыть тестилкой:
Аппаратный ID: PCI\VEN_8086&DEV_2682&SUBSYS_34858086&REV_09
Поставщик драйвера: LSI Logic, Corp 7.15.209.2007
PCI-устройство (Надеюсь это чип?): Intel 631xESB/6321ESB - SATA RAID Controller
Автор: redson
Дата сообщения: 06.05.2013 22:32
по опыту скажу, для мониторинга серверных райд надо использовать родной софт производителя, универсальных не существует. есть одина универсальная утилита smartmontools, но для одиночных дисокв без райд
Автор: Diabolik
Дата сообщения: 07.05.2013 18:13
redson
Так я вот и ищу родной софт именно для своего конфига.
Автор: wwladimir
Дата сообщения: 07.05.2013 20:48
Diabolik
Это не достаточно родное ? -
http://www.intel.com/p/ru_RU/support/highlights/server/s5000vsa
откуда идет ссылка на web-консоль, скриншот которой Вы приводили -
https://downloadcenter.intel.com/Detail_Desc.aspx?ProductID=2487&DwnldID=22407&lang=rus&iid=dc_rss
Дальше нужно кликнуть по IP адресу машины, массивом которой Вы собираетесь
управлять, затем доказать консоли, что Вы админ... И все у Вас будет.
И удалить, и ребилдить, и состояние физических и логических дисков, и помигать нужным
диском...и настроить алерты по почте и их уровень. Не пойму - чего вам не хватант?
Инструкция (в картинках) там же - http://download.intel.com/support/motherboards/server/sb/d29305020_raid_swug_r20_0.pdf

Если и этого мало ( и любителям командной строки) -используйте cmdtool2
Очень подробно здесь - http://download.intel.com/support/motherboards/server/sb/e36092004_intelraidcontrollercommandlinetool2_user.pdf

Автор: Diabolik
Дата сообщения: 08.05.2013 21:43
wwladimir
Это родное для матери.
А нужно для чипа, т.е. софт от LSI конкретно для моего набора, шоб извлекать данные S.M.A.R.T. (нужно конкретно это) из всех дисков в составе RAID10 и сигналить вовремя.
Автор: wwladimir
Дата сообщения: 11.05.2013 22:41
Diabolik
Вот диск один сбойнул, ждет замены.
Сообщил сразу по почте, результаты S.M.A.R.T. на панели справа. Какого функционала не хватает...
Да и кроме "железной" реализации RAID контроллеры имеют и еще свой BIOS на борту и он тоже может быть от разных разработчиков.
К примеру на многих серверных МБ от INTEL в "биосе" материнки можно переключить режим встроенного контроллера LSI <-->INTEL . Какой софт будете считать родным ?




В документе
http://download.intel.com/support/motherboards/server/sb/d29305020_raid_swug_r20_0.pdf
сделайте ctrl-f и там smart ...

Непосредственно Ваш "набор" описан на стр. 14 руководства к Вашей же материнке -
http://download.intel.com/support/motherboards/server/s5000vsa/sb/d36978010_s5000vsa_tps_r1_9.pdf
и он таки "Intel Embedded RAID" (как и на моем сервере со скриншота) и аппаратно выполнен на ESB2-E ICH6 (микросхемка скорее всего промаркирована как 6321ESB ).
Еще он умеет RAID-5, но требует "аппаратный ключ активации" купить.
Автор: redson
Дата сообщения: 12.05.2013 13:55
Diabolik

скорее всего ваш драйвер все события пишет в журнал windows, для отслеживания нехороших событий нужно написать скрипт, который будет проверять журнал
Автор: Diabolik
Дата сообщения: 12.05.2013 20:49
wwladimir
Сбой я вижу на картинке, а вот что именно винт "посыпался" (появились сбойные сектора) не вижу. Может я куда не туда смотрю? Я ж за целостность данных переживаю, а не за железку.
Автор: wwladimir
Дата сообщения: 12.05.2013 22:34
Diabolik
А какая теперь разница, что с ним, раз контроллер с ним работать не хочет...
В логе запись- нет доступа к физическому диску: "Controller ID: 0 Unable to access device PD 0"
Все равно вынимать, менять.
Потом можно и потестить, но я обычно их уже не возвращаю. По причине потери моего доверия и замены новым.
Если есть уверенность, что Вы правы, а контроллер нет (ну там шнурок поменяли, разьем
доткнули или спиртом и тонким слоем )- то правой кнопкой на диске и "мейк онлайн"...
А забота о целостности данных требует другого контроллера (не встроенного) , с диском/дисками горячего резерва и "холодного" резерва на физической полке офисной мебели.
У меня так -
Автор: Diabolik
Дата сообщения: 13.05.2013 00:40
wwladimir
Разница есть. У меня был печальный опыт разваливания RAID10 по диагонали. И если отказал контроллер или механика - да и ладно, всему свое время. А вот если винтики посыпятся, данные вытаскивать будет очень геморройно и не дешево.
Автор: wwladimir
Дата сообщения: 13.05.2013 15:41
Diabolik
Так и я Вам о чем-ставьте RAID6, вынимайте на ходу 2 диска и все будет в сохранности.
Автоматом подключатся два диска из "хотсвап" и после ребилда массива можете еще на ходу два диска вытянуть. Итого при потере 4 дисков данные без искажений... При выходе из строя самого контроллера - есть софт для программного сбора массива.

Автор: Diabolik
Дата сообщения: 25.09.2013 10:34
Ну вот у меня уже 2 раза вываливался BSOD с кодом:
0x0000007a (0xc07b98e0, 0xc000000e, 0xf731ced6, 0x1357a860)
Но Raid Web Console 2 предательски продолжает показывать что с массивом все хорошо и все жесткие диски целы. Или это не диски? Что тогда (Google вразумительного ответа не дал)?
Автор: golychev
Дата сообщения: 30.09.2013 03:07
Diabolik
была у меня похожая проблема... поставил батарейку на флэш.. и она исчезла.
Автор: Diabolik
Дата сообщения: 02.10.2013 12:11
golychev
Чаво? Это типа батарейка на матери сбоит? А код проблемы был таким же?
Автор: namlung
Дата сообщения: 16.10.2013 06:42
а кто объъяснит как почту в intel raid web console 2 настроить ?
Захожу в mail server
Вбиваю там все данные почтовика куда слать логи . т.е почтовик куда слать, пароль, SMTP.
А в разделе mail что указывать ?
Жму тест ничего не проходит . Пишет что не смог отправить проверьте маил сервер . Все данные верны
Автор: angel176
Дата сообщения: 24.10.2013 12:19
Возникла проблема со входом в саму консоль RAID Web Console 2 перестало пускать под доменным админом как локально так и удалённо пишет не верный пароль.
Недели 2 назад была смена Админских паролей .

Страницы: 12

Предыдущая тема: Видео через RDP Windows Server 2008 R2


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.