Не совсем обычный дисковый массив поступил для восстановления данных из города Ош

Не совсем обычный дисковый массив поступил для восстановления данных из города Ош. Сам массив вполне обычный – RAID-0 из 4 дисков SAS по 480 Гбайт. Но вот неисправность весьма своеобразная, и ее возникновение можно объяснить халатностью сразу трех человек: системного администратора, строителей и заведующего IT-инфраструктурой организации.

RAID-0 из 4 дисков SAS
Массив приехал в составе сервера, и уже беглого взгляда на устройство хватило, чтобы понять: стоял серверный компьютер в отнюдь не тепличных условиях. Открытый сервер производил еще более удручающее впечатление: на всех компонентах внутри – толстый слой штукатурки, пыли и грязи. Как оказалось, в помещении, где был установлен аппарат, производился ремонт. При этом устройство решили не только не выносить в другое помещение, но даже и не выключать (вот вам и халатность заведующего IT-инфраструктурой). Как итог, активная теплозащита сервера (различные вентиляторы) – на то она и активная – активно насосала внутрь столько пыли, сухой взвеси штукатурки и прочих строительных прелестей, сколько смогла. Извлеченным из сервера строительным материалом можно уверенно сделать ремонт в небольшой комнате вроде туалета или ванной =). Видимо, сервер вообще никак не защищали от воздействия строительного мусора (и вот вам халатность строителей).

диски SAS
Вернемся к массиву. Массив RAID-0 из 4 дисков (и это уже халатность сисадмина – на 4 дисках такой емкости вполне можно было собрать отказоустойчивый массив RAID-5, а не рисковать и не делать RAID-0, у которого вообще нет защиты от аппаратных сбоев), три из которых – исправны, а вот один – нет. При диагностике оказалось, что неисправный диск имеет заклиненный шпиндельный двигатель, а головки покрыты тем же самым мусором, что находится внутри корпуса сервера. Детальный анализ гермоблока выявил проблему: силиконовая прокладка между корпусом гермоблока и его крышкой оказалась в двух местах повреждена, и через эти повреждения в диск поступала грязь. Естественно, кроме грязи на головках, грязь осела и на пластинах.

Ситуация осложнялась тем, что заказ был срочный – в понедельник (т.е. сегодня) кровь из носа требовалось запустить базы данных, хранившиеся на сервере, так как без этих баз крупная государственная структура города Ош оказывалась парализованной. Приступили к работам.

Диск был полностью очищен от пыли снаружи (продут, а затем протерт специальными салфетками). Затем были очищены от грязи магнитные пластины (замечу, что для этой работы используются высокотоксичные вещества высокого уровня очистки, поэтому все работы проводятся под вытяжкой и с обязательным использованием средств защиты органов дыхания) и гермоблок, ну и под конец – произведена замена блока магнитных головок. Процедура замены БМГ для таких дисков отнюдь не банальна, так как в дисках используется большое количество аэродинамических направляющих (ведь скорость вращения шпинделя 15000 оборотов), положение которых ни в коем случае нельзя менять; кроме того, в дисках используются очень мощные магниты. К сожалению, первая замена головок привела лишь к частичному результату: были вычитаны базы данных, но вспомогательные данные оставались недоступны. Поэтому была проведена еще одна замена БМГ, в результате которой мы получили все необходимые заказчику данные.

Эта история не без морали. Мораль первая – никогда не доверяйте важные данные аппаратным средствам, в которых не предусмотрено их дублирование или устойчивость к аппаратным сбоям. Имеется масса решений для того, чтобы избежать фатальных потерь данных, начиная от использования отказоустойчивых массивов (RAID-5, RAID-6) и заканчивая использованием специализированных систем резервирования данных. И мораль вторая – если уж задумали сделать ремонт в серверной, перенесите сервер в другое место – не гоже серверу работать в строительном мусоре, да и случайно могут перфоратором дырок в нем наделать =).

-5%