Имеем следующее железо:
RAID контроллер Intel 82801 GR/GH, 4 SATA канала на которых висит:
два винта по 320Гб в RAID1 назовем его DATA0, и два винта по 400Гб в RAID1 назовем его DATA1.
ОС: Win 2003 Server + SP2
ОПИСАНИЕ ПРОБЛЕМЫ.
Периодически на томе DATA1 появляются ошибки, вот запись из логов:
Сначала появляется вот это:
---------------
Event Type: Error
Event Source: Ntfs
Event Category: Disk
Event ID: 55
Date: 22.10.2007
Time: 10:52:55
User: N/A
Computer: SERVER
Description:
The file system structure on the disk is corrupt and unusable. Please run the chkdsk utility on the volume DATA1.
---------------
Потом начинают сыпаться вот такие, с каждым файлом, к которому попытались сделать обращение на чтение-запись:
---------------
Type: Information
Event Source: Application Popup
Event Category: None
Event ID: 26
Date: 15.10.2007
Time: 17:53:33
User: N/A
Computer: SERVER
Description:
Application popup: Windows - Corrupt File : The file or directory F:\<путь к файлу>\file.xls is corrupt and unreadable. Please run the Chkdsk utility.
---------------
Запуск chkdsk выдает следующее:
---------------
chkdsk /f /x
The type of the file system is NTFS.
Cannot lock current drive.
Volume dismounted. All opened handles to this volume are now invalid.
Volume label is OFFICE.
CHKDSK is verifying files (stage 1 of 3)...
552400 file records processed.
File verification completed.
25 large file records processed.
0 bad file records processed.
0 EA records processed.
0 reparse records processed.
CHKDSK is verifying indexes (stage 2 of 3)...
Deleting an index entry from index $O of file 25.
Deleting an index entry from index $O of file 25.
Deleting an index entry from index $O of file 25.
Deleting an index entry from index $O of file 25.
Deleting an index entry from index $O of file 25.
Deleting an index entry from index $O of file 25.
Deleting an index entry from index $O of file 25.
Deleting an index entry from index $O of file 25.
Deleting an index entry from index $O of file 25.
Deleting an index entry from index $O of file 25.
Deleting an index entry from index $O of file 25.
Deleting an index entry from index $O of file 25.
Deleting index entry dir0001.chk in index $I30 of file 32.
Deleting index entry (-77D8~1 in index $I30 of file 33647.
Deleting index entry __22_1~1.DOC in index $I30 of file 33818.
Deleting index entry CONS#5_333012.USR in index $I30 of file 34458.
Deleting index entry CONS#5~1.USR in index $I30 of file 34458.
Deleting index entry DOCS#DD1009#0000.ANS in index $I30 of file 34458.
Deleting index entry DOCS#D~1.ANS in index $I30 of file 34458.
Deleting index entry POS.rar in index $I30 of file 66735.
Deleting index entry 0019~1.CDR in index $I30 of file 334853.
Deleting index entry 4B0F~1.CDR in index $I30 of file 334853.
Deleting index entry Df22611.CFG in index $I30 of file 461846.
1428034 index entries processed.
Index verification completed.
CHKDSK is recovering lost files.
25 unindexed files processed.
25 unindexed files processed.
CHKDSK is verifying security descriptors (stage 3 of 3)...
552400 security descriptors processed.
Security descriptor verification completed.
11035 data files processed.
Correcting errors in the master file table's (MFT) BITMAP attribute.
CHKDSK discovered free space marked as allocated in the volume bitmap.
Windows has made corrections to the file system.
268430052 KB total disk space.
108550092 KB in 163118 files.
56092 KB in 11040 indexes.
0 KB in bad sectors.
626636 KB in use by the system.
65536 KB occupied by the log file.
159197232 KB available on disk.
4096 bytes in each allocation unit.
67107513 total allocation units on disk.
39799308 allocation units available on disk.
---------------
После этого удаляются все эти файлы, которые chkdsk нашел.
Это, как правило, те файлы, которые пользователи открывали на чтение-запись после первой ошибки.
Если это была папка, то она не удаляется, а попадает в found.000
ДЕЙСТВИЯ ПО ДИАГНОСТИКЕ И УСТРАНЕНИЮ.
1. Заменены SATA кабели у обоих винчестеров массива DATA1.
Проблема осталась. Не глюк кабеля.
2. Массивы DATA0 и DATA1 менялись местами на портах RAID контроллера.
Проблема не устранилась - не глюк портов контроллера
3. Массив DATA1 расформирован, один из дисков подключен в виде non-RAID диска.
Проблема осталась - не глюк контроллера с двумя массивами.
4. Оба диска, составляющие массив DATA1 проверены на другой машине с помощью MHDD и Victoria.
На винтах проблем не выявлено, SMART впорядке. Глюк не в винтах.
5. Содержимое массива проверено на вирусы. Не обнаружено. Проблема не в вирусах.
6. На сервер был установлен дополнительный блок питания 350Вт, от которого были запитаны только диски массивов DATA0 и DATA1.
Проблема не решилась - причина не в недостатке питания.
7. Установлено дополнительно охлаждение винчестеров, RAID-контроллера, процессора.
Проблема не решилась. Причина не в перегреве.
8. Был установлен SP2. Проблема осталась. Причина не в обновлениях.
9. DATA0 отключен, диски сняты. На его место подключены диски массива DATA1 (чтобы висели на заведомо рабочих портах контроллера)
на место DATA1 подцеплен другой винт, на который по сети заливается около 30Гб, для проверки работы RAID контроллера на этих портах.
Новый винт - без ошибок, DATA1 - сыпется.
Проблема не в портах контроллера.
Родилось предположение, что контроллер хреново работает с большими дисками (диски в DATA1 больше чем в DATA0)
10. Установлен еще один RAID контроллер Tekram TR-824, DATA1 перевешен на него.
Проблема не решилась. Глюк не в RAID контроллере.
11. Массив DATA1 разбит на два диска - 256Гб и 116Гб
Проблема осталась на диске размером 256Гб (хотя к диску 116Гб доступа нет - с ним никто не работает)
Похоже проблема не аппаратная, а програмная (логическая).
Смотрим что на диске записано.
Всего около 500 тыс. файлов объемом ~150Гб
Из них встречаются файлы с длиной пути больше 255 символов (как они их делают, если винда даже зайти в такую папку не может?)
12. Все(?) длинные пути укорочены (папки заархивированы).
Проблема стала появлятья реже(?), но не устранена.
Вроде бы все описал...
На support.microsoft.com нашел только вот это:
---------------
Аннотация
В данной статье рассматривается процесс проверки выделения дискового пространства в файловой системе NTFS для определения вызывающих неполадки файлов и папок или обнаружения повреждений тома на компьютерах с Windows Server 2003.
Файловая система NTFS поддерживает ряд функций уровня дисков и файлов, которые могут стать причиной потерь и неправильного определения свободного пространства на диске. Например, том NTFS может неожиданно переполняться без видимой причины, а администратору при этом может быть сложно обнаружить причину или найти вызывающие неполадки файлы и папки. Эта проблема может возникнуть, если произошло злонамеренное или несанкционированное вторжение в том NTFS, на который тайно копируются несколько очень больших или очень много маленьких файлов. После этого разрешения NTFS этих файлов были удалены или ограничены. Эта неполадка также может возникнуть в случае повреждения тома в результате неполадок в компьютере или отключения питания.
Ошибки в данных о распределении дискового пространства тома NTFS могут возникать по указанным ниже причинам.
• Размер кластера тома NTFS слишком велик для среднего размера хранящихся на нем файлов.
• Атрибуты файлов или разрешения NTFS не позволяют отобразить файлы и папки или получить к ним доступ через Проводник или командную строку Windows.
• Длина пути к папке превышает 255 знаков.
• Папки или файлы имеют неправильные или зарезервированные имена.
• Метафайлы NTFS (такие как основная таблица файлов [MFT]) увеличились в объеме и не могут быть освобождены.
• Файлы или папки содержат альтернативные потоки данных.
• Повреждение NTFS является причиной определения свободного пространства как используемого.
• Другие особенности NTFS могут стать причиной неправильного выделения пространства под файлы.
---------------
Однако тут проблема не с неправильным распределением свободного места, а вообще глюки ntfs, в результате которых теряется информация.
Что это такое? Какие будут идеи? Что еще можно попробовать?
Уменьшить размер кластера (сейчас 4Кб)?
А что такое "Папки или файлы имеют неправильные имена"?
З.Ы. Спасибо тем, кто дочитал до конца
RAID контроллер Intel 82801 GR/GH, 4 SATA канала на которых висит:
два винта по 320Гб в RAID1 назовем его DATA0, и два винта по 400Гб в RAID1 назовем его DATA1.
ОС: Win 2003 Server + SP2
ОПИСАНИЕ ПРОБЛЕМЫ.
Периодически на томе DATA1 появляются ошибки, вот запись из логов:
Сначала появляется вот это:
---------------
Event Type: Error
Event Source: Ntfs
Event Category: Disk
Event ID: 55
Date: 22.10.2007
Time: 10:52:55
User: N/A
Computer: SERVER
Description:
The file system structure on the disk is corrupt and unusable. Please run the chkdsk utility on the volume DATA1.
---------------
Потом начинают сыпаться вот такие, с каждым файлом, к которому попытались сделать обращение на чтение-запись:
---------------
Type: Information
Event Source: Application Popup
Event Category: None
Event ID: 26
Date: 15.10.2007
Time: 17:53:33
User: N/A
Computer: SERVER
Description:
Application popup: Windows - Corrupt File : The file or directory F:\<путь к файлу>\file.xls is corrupt and unreadable. Please run the Chkdsk utility.
---------------
Запуск chkdsk выдает следующее:
---------------
chkdsk /f /x
The type of the file system is NTFS.
Cannot lock current drive.
Volume dismounted. All opened handles to this volume are now invalid.
Volume label is OFFICE.
CHKDSK is verifying files (stage 1 of 3)...
552400 file records processed.
File verification completed.
25 large file records processed.
0 bad file records processed.
0 EA records processed.
0 reparse records processed.
CHKDSK is verifying indexes (stage 2 of 3)...
Deleting an index entry from index $O of file 25.
Deleting an index entry from index $O of file 25.
Deleting an index entry from index $O of file 25.
Deleting an index entry from index $O of file 25.
Deleting an index entry from index $O of file 25.
Deleting an index entry from index $O of file 25.
Deleting an index entry from index $O of file 25.
Deleting an index entry from index $O of file 25.
Deleting an index entry from index $O of file 25.
Deleting an index entry from index $O of file 25.
Deleting an index entry from index $O of file 25.
Deleting an index entry from index $O of file 25.
Deleting index entry dir0001.chk in index $I30 of file 32.
Deleting index entry (-77D8~1 in index $I30 of file 33647.
Deleting index entry __22_1~1.DOC in index $I30 of file 33818.
Deleting index entry CONS#5_333012.USR in index $I30 of file 34458.
Deleting index entry CONS#5~1.USR in index $I30 of file 34458.
Deleting index entry DOCS#DD1009#0000.ANS in index $I30 of file 34458.
Deleting index entry DOCS#D~1.ANS in index $I30 of file 34458.
Deleting index entry POS.rar in index $I30 of file 66735.
Deleting index entry 0019~1.CDR in index $I30 of file 334853.
Deleting index entry 4B0F~1.CDR in index $I30 of file 334853.
Deleting index entry Df22611.CFG in index $I30 of file 461846.
1428034 index entries processed.
Index verification completed.
CHKDSK is recovering lost files.
25 unindexed files processed.
25 unindexed files processed.
CHKDSK is verifying security descriptors (stage 3 of 3)...
552400 security descriptors processed.
Security descriptor verification completed.
11035 data files processed.
Correcting errors in the master file table's (MFT) BITMAP attribute.
CHKDSK discovered free space marked as allocated in the volume bitmap.
Windows has made corrections to the file system.
268430052 KB total disk space.
108550092 KB in 163118 files.
56092 KB in 11040 indexes.
0 KB in bad sectors.
626636 KB in use by the system.
65536 KB occupied by the log file.
159197232 KB available on disk.
4096 bytes in each allocation unit.
67107513 total allocation units on disk.
39799308 allocation units available on disk.
---------------
После этого удаляются все эти файлы, которые chkdsk нашел.
Это, как правило, те файлы, которые пользователи открывали на чтение-запись после первой ошибки.
Если это была папка, то она не удаляется, а попадает в found.000
ДЕЙСТВИЯ ПО ДИАГНОСТИКЕ И УСТРАНЕНИЮ.
1. Заменены SATA кабели у обоих винчестеров массива DATA1.
Проблема осталась. Не глюк кабеля.
2. Массивы DATA0 и DATA1 менялись местами на портах RAID контроллера.
Проблема не устранилась - не глюк портов контроллера
3. Массив DATA1 расформирован, один из дисков подключен в виде non-RAID диска.
Проблема осталась - не глюк контроллера с двумя массивами.
4. Оба диска, составляющие массив DATA1 проверены на другой машине с помощью MHDD и Victoria.
На винтах проблем не выявлено, SMART впорядке. Глюк не в винтах.
5. Содержимое массива проверено на вирусы. Не обнаружено. Проблема не в вирусах.
6. На сервер был установлен дополнительный блок питания 350Вт, от которого были запитаны только диски массивов DATA0 и DATA1.
Проблема не решилась - причина не в недостатке питания.
7. Установлено дополнительно охлаждение винчестеров, RAID-контроллера, процессора.
Проблема не решилась. Причина не в перегреве.
8. Был установлен SP2. Проблема осталась. Причина не в обновлениях.
9. DATA0 отключен, диски сняты. На его место подключены диски массива DATA1 (чтобы висели на заведомо рабочих портах контроллера)
на место DATA1 подцеплен другой винт, на который по сети заливается около 30Гб, для проверки работы RAID контроллера на этих портах.
Новый винт - без ошибок, DATA1 - сыпется.
Проблема не в портах контроллера.
Родилось предположение, что контроллер хреново работает с большими дисками (диски в DATA1 больше чем в DATA0)
10. Установлен еще один RAID контроллер Tekram TR-824, DATA1 перевешен на него.
Проблема не решилась. Глюк не в RAID контроллере.
11. Массив DATA1 разбит на два диска - 256Гб и 116Гб
Проблема осталась на диске размером 256Гб (хотя к диску 116Гб доступа нет - с ним никто не работает)
Похоже проблема не аппаратная, а програмная (логическая).
Смотрим что на диске записано.
Всего около 500 тыс. файлов объемом ~150Гб
Из них встречаются файлы с длиной пути больше 255 символов (как они их делают, если винда даже зайти в такую папку не может?)
12. Все(?) длинные пути укорочены (папки заархивированы).
Проблема стала появлятья реже(?), но не устранена.
Вроде бы все описал...
На support.microsoft.com нашел только вот это:
---------------
Аннотация
В данной статье рассматривается процесс проверки выделения дискового пространства в файловой системе NTFS для определения вызывающих неполадки файлов и папок или обнаружения повреждений тома на компьютерах с Windows Server 2003.
Файловая система NTFS поддерживает ряд функций уровня дисков и файлов, которые могут стать причиной потерь и неправильного определения свободного пространства на диске. Например, том NTFS может неожиданно переполняться без видимой причины, а администратору при этом может быть сложно обнаружить причину или найти вызывающие неполадки файлы и папки. Эта проблема может возникнуть, если произошло злонамеренное или несанкционированное вторжение в том NTFS, на который тайно копируются несколько очень больших или очень много маленьких файлов. После этого разрешения NTFS этих файлов были удалены или ограничены. Эта неполадка также может возникнуть в случае повреждения тома в результате неполадок в компьютере или отключения питания.
Ошибки в данных о распределении дискового пространства тома NTFS могут возникать по указанным ниже причинам.
• Размер кластера тома NTFS слишком велик для среднего размера хранящихся на нем файлов.
• Атрибуты файлов или разрешения NTFS не позволяют отобразить файлы и папки или получить к ним доступ через Проводник или командную строку Windows.
• Длина пути к папке превышает 255 знаков.
• Папки или файлы имеют неправильные или зарезервированные имена.
• Метафайлы NTFS (такие как основная таблица файлов [MFT]) увеличились в объеме и не могут быть освобождены.
• Файлы или папки содержат альтернативные потоки данных.
• Повреждение NTFS является причиной определения свободного пространства как используемого.
• Другие особенности NTFS могут стать причиной неправильного выделения пространства под файлы.
---------------
Однако тут проблема не с неправильным распределением свободного места, а вообще глюки ntfs, в результате которых теряется информация.
Что это такое? Какие будут идеи? Что еще можно попробовать?
Уменьшить размер кластера (сейчас 4Кб)?
А что такое "Папки или файлы имеют неправильные имена"?
З.Ы. Спасибо тем, кто дочитал до конца