История о том, как НЕ стоит подходить к восстановлению данных c RAID-массива

История о том, как НЕ стоит подходить к восстановлению данных c RAID-массива

На фото можете увидеть RAID-5 массив

             Бишкек небольшой город, но тем не менее, регулярно к нам приносят на восстановление данных  дисковые массивы RAID. Для тех, кто не знает, что такое  RAID-массив краткий ликбез: RAID  массив — это некоторое количество дисков(не  менее 2х) собранных воедино, для обеспечения надежности хранения данных, реже для  скорости и увеличения объема носителей. В домашних конфигурациях чаще всего используется RAID-1, т.е зеркало, в этом случае два накопителя зеркалируют друг-друга, то есть являются идентичными по содержанию. Очевидно, что в таком случае мы теряем половину возможной ёмкости, но  взамен получаем надежность. Одной из самых распространённых конфигурации для предприятия является RAID-5. Количество дисков в таком массиве минимально равняется трем. В таком случае, массив немного теряет в скорости, а суммарная ёмкость массива рассчитывается, как сумма объема всех накопителей минус объём одного участника массива. Такой массив может продолжит работу и при выходе из строя одного из дисков. Поэтому обычно используется не менее 4-5 дисков. Стереотипно, рядовой пользователь непоколебимо верит в сверх-надежность RAID-массива, более того, некоторые системные администраторы придерживаются того же.  К сожалению, это не так! И наш недавний случай, как раз тому подтверждение! RAID-массив вроде  работает,но бекапов нет. К счастью, чаще всего, данные с RAID-массива можно восстановить! Конечно же,  при желании некоторые умельцы делают так, что восстановить данные нельзя =). Так что же делать, если возникли проблемы с массивом собранным в RAID-5? Для начала  не паниковать, восстановить дыхание, а потом немедленно  обратиться за помощью к профессионалам =))

А если серьёзно, то действовать в таком случае нужно  четко и продумано, ведь массивы как горы — ошибок не прощают! Каждое действие должно быть заранее обдумано. Ведь ситуация осложнена тем, что в массиве используются не обычные диски SATA, а диски с интерфейсом SAS. Небольшое отступление по поводу SAS накопителей, SAS диски априори были разработаны для серверных систем, обладают большей надёжностью и имеют интерфейс несовместимый с традиционным  SATA. Никаких переходников с SATA на SAS не существует, т.к. SAS использует свой набор команд отличный от SATA. Однако же, диски SATA будут работать на SAS контроллере.На фото видно отличие.

История о том, как НЕ стоит подходить к восстановлению данных c RAID-массива

Некоторые  специалисты начинают восстановление  массива с полного клонирования дисков-участников в образы, т.к. зачастую не имеют оборудования для работы с SAS накопителями в технологическом режиме,  а тем более в режиме RAID-массива. Такое оборудование стоит достаточно дорого, и позволить его себе могут не все лаборатории. Поэтому, не имея специального оборудования, для того чтобы собрать массив необходимо клонировать диски полностью, т.к. работать напрямую с дисками заказчика не принято, да и сборка RAIDа “наживую” может попросту завесить компьютер, есть вариант подключить диски в режиме “только чтение” но и для этого нужен комплекс для работы с SAS дисками.

В лучшем случае в таких “лабораториях” есть плата PCI-контроллер для SAS дисков, которая позволяет просто монтировать диски SAS в операционную систему Windows, без возможности обработки таймингов и ошибок накопителя, без возможности подачи программного и аппаратного сброса, а также режима игнорирования записи.  Образы с аварийных дисков считываются при помощи программ вроде WinHex, а потом при помощи программ для восстановления данных уже собирается сам массив. Такой метод конечно тоже иногда работает, причём значительно дешевле, но и возможностей тонкой работы с массивом у него нет.  Ведь в случае если на одном из накопителей есть проблемы, то с созданием образа могут быть сложности.

К примеру, если у одного из дисков массива наблюдается деградация головок(головка плохо читает), то максимум, что могут сделать такие спецы — исключить сбойный накопитель и попробовать собрать рейд без него. В случаях с raid-5 это возможно, если вышел из строя только один накопитель, а как быть если: один диск вышел из строя давно и массив некоторое время работал без избыточности,а позже вышел из строя ещё один накопитель  из массива? Тут то и начинаются проблемы, начинают придумывать для заказчика разные отмазки, например, что без платы из самого сервера нельзя ничего восстановить, т.к массив зашифрован RAID- контроллером.

Нижеописанная ситуация произошла с нашим клиентом.

Клиент с массивом RAID-5 из 4х дисков, обратился за восстановлением данных в один из сервисных центров нашего города. Все манипуляции проводили прямо на сервере заказчика!  В процессе диагностики система указала на один из накопителей, который вышел из строя. Выбывший накопитель заменили на новый, после чего был запущен ребилд массива. И о чудо, по завершению ребилда массив заработал,  и даже продолжал нормально функционировать в течении нескольких часов, но данные с сервера почему-то решили не копировать, оно и понятно, ведь сервер то заработал =). Однако, следует учитывать, что ребилд — это большой стресс для накопителей и они вполне могут его не пережить. Радость была недолгой, спустя несколько часов вышел из строя второй накопитель. Но и на этом этапе у специалистов не возникает ни тени сомнения,  в правильности своих действий, и принимается решение заменить и второй накопитель из массива на новый. Диск заменили, и поставили массив снова на реконструкцию, и так как время было уже позднее, оставили это дело на всю ночь.

Чтобы было на утро — точно не известно,  но ребилд завершился с ошибкой, массив не был восстановлен. Идеи закончились, да и массив больше не просил заменить диски, и не пытался сделать ребилд, он просто выпал в состояние  ошибки. Массив поехал дальше)

 

История о том, как НЕ стоит подходить к восстановлению данных c RAID-массива

Сейчас все 6 накопителей находятся в нашей лаборатории, массивом занимаются специалисты лаборатории КомпМастер.  В данном случае, ввиду того, что часть блоков оказалась рассинхронизирована после ребилдов, т.е находится не на своих местах, предстоит немало ручного труда, а именно определение нахождения актуальных блоков из 6 накопителей участвовавших в работе массива.  Сделать это для всего массива крайне утомительный и длительный процесс, поэтому было принято решение восстановить блоки только для необходимых файлов, которые находятся на виртуальных машинах, так как размер файлов виртуальных машин достаточно большой, т.к. по сути файл виртуальной машины — есть образ диска с операционной системой, программами и тд. Нам же нужны только базы данных, которые находятся внутри “виртуалки”, размер которых не превышает 1Гб, когда размер виртуальной машины более 200Гб.  Благо, что наш метод позволяет соотнести карту секторов расположения файлов на виртуальной машине, с логическим номером сектора на каждом физическом накопителе участнике RAID, т.е мы будем вычитывать точечно, и только то, что нужно.

Прогноз благоприятный, большую часть данных сможем восстановить.

Какой вывод из всего этого? Обращайтесь к профессионалам, просите показать оборудование на котором они работают, просите предоставить четко намеченный план работ, а не так:   “вскроем накопитель, посмотрим, что там можно сделать”. В конце концов поговорите со специалистом, если он вам не внушил доверия и не дает конкретики -задумайтесь, потом может быть уже поздно!

История о том, как НЕ стоит подходить к восстановлению данных c RAID-массива

 

 

-5%