Восстановление данных RAID 5 после севшей батарейки контроллера

Многие raid контроллеры содержат на своём борту элемент питания повышающий надежность работы массива, но иногда это может сыграть злую шутку. Именно такая ситуация произошла с сервером нашего клиента. В один из дней после отключения электричества в бизнес-центре, где располагался офис нашего клиента, перестал запускаться сервер из 6 жестких дисков, собранных в аппаратный raid 5. При старте контроллер выдавал состояние raid degraded. 

RAID контроллеры

Далее были подключены штатные системные администраторы, которые немного, «почесав репу», приняли решение пересобрать рейд массив. Они «по памяти» установили настройки развалившегося массива, но чуда не произошло. Сервер, как ни странно, не запускался, а после каждой перезагрузки настройки слетали. Такую операцию они проводили несколько раз, тем самым усложняя нам работу, а бизнесу нашего клиента жизнь. Так прошло несколько дней в попытках оживить сервер, после чего все же решили обратиться к нам.

При проведении диагностики raid массивов наши мастера сначала проводят диагностику дисков по-отдельности, а уже после этого приступают к сборке массива программными методами. В процессе диагностики выявился диск с битыми секторами и повреждённым SMART. Но поскольку raid 5 позволяет работу при выпадении одного из дисков, мы понимали, что шансы на восстановление весьма высоки. Но, углубившись в анализ сборки, стало ясно, что у рейда повреждена файловая система. После определения последовательности дисков и размера блока мы начали работу над файловой системой. После сканирования отобразилось дерево каталогов, но некоторые файлы за последние 4 месяца были повреждёнными. Поскольку массив мы собирали без одного диска, мы решили углубиться в эту сторону.  Тем самым удалось выяснить, что диск с битыми секторами продолжал быть полноценным участником массива и получить все данные без него не удастся. Пришлось вычитывать полный клон диска, но это не улучшило ситуацию, данные продолжали оставаться повреждёнными. Пришлось путём перебора исключать каждый диск из массива, чтобы выявить выпавший диск. Как выяснилось позднее, системный администратор знал, что один из дисков выпал, но он спутал порт и заменил исправный диск на исправный, а поврежденный продолжал работать. После определения выпавшего диска и очередного сканирования, файлы стали открываться. На все вышеперечисленные процессы ушло больше 7 суток: 1. тестирование дисков, 2. определение параметров raid 3. вычитывание диска с битыми секторами. 4. сканирование файловой системы.  Всего этого можно было избежать, создав своевременные бэкапы и заменяя вышедшие из строя диски. 

Позвоните нашим специалистам для бесплатной консультации по телефону 8(800)350-94-46
Или заполните форму обратной связи