Компьютерный форум OSzone.net  

Компьютерный форум OSzone.net (http://forum.oszone.net/index.php)
-   Накопители (SSD, HDD, USB Flash) (http://forum.oszone.net/forumdisplay.php?f=53)
-   -   [решено] RAID-5. Падение винта в Fail. (http://forum.oszone.net/showthread.php?t=135813)

w0mbat 25-03-2009 13:14 1074259

RAID-5. Падение винта в Fail.
 
Доброго времени суток!
Имеется сервер на котором установлен SATA RAID контроллер Intel SRCS16 и HOT SWAP корзина. Собран RAID Level 5 из 5-ти дисков WD5000YS (WD Caviar RE2).
В один прекрасный день на втором порту винт падает в Fail. В логах ни чего нет, т.е. Media Error: 0, Non-Media Error: 0. Странно. Ну может время ему пришло. Изымаю винт и заменяю новым. Все чудненько. RAID винт принял и начал Rebuild. Перед сном глянул на прогресс-бар - 24%. Типа, дело идет. Утром песня та же. Теперь уже новый винт в Fail.
В это время изъятый винт ставлю на тестирование. Для тестирования использую WD Data Lifeguard Diagnostic for DOS. Полный тест ошибок не выявил!!!
Решаю вернуть винт на место. Песня повторяется: начинается восстановление и затем падение в fail.
Сейчас пытаюсь найти еще одни новый винт, но пока остаются вопросы
Что делать?
Куды копать?
Что можно попробовать предпринять?
В общем нужен совет, т.к. надолго оставлять 5-й рейд в аварийном режиме не очень хочется.

volk1234 25-03-2009 14:57 1074354

Какой винт ставите на замену??
Вот известная проблема, похожая на вашу - правда у вас Rebuild начинается:
Цитата:

Intel® RAID Controller SRCS16
Fail to start a rebuild automatically with some hard drive models

Intel® RAID Controller SRCS16 may fail to start a rebuild automatically with some drive models following a hot plug replacement.

The Intel® RAID Controller SRCS16 is designed for compatibility with the SATA 1.0 specification and does not support SATA 2.0 specification extensions. Some hard drives that support SATA 2.0 extensions may not be detected after a hot-plug resulting in failure for a rebuild to start automatically. This is due to a limitation of the SATA 1.0 technology upon which the Intel® RAID Controller SRCS16 is based. If a failure to rebuild occurs following a hot plug replacement of a hard drive, please reboot the server. After reboot the new drive will be detected and you will be able to start rebuild manually using RAID BIOS Console or RAID Web Console. You can also avoid the issue by using a hot spare drive.
я переведу - Перезагрузите сервер (с вставленным новым винтом) и запустите rebuild через RAID BIOS Console вручную.

А вообще, fail 5го raid страшный сон, страшнее только fail стрипа или сервер вообще без raid :)

w0mbat 25-03-2009 15:06 1074363

Цитата:

Цитата volk1234
Какой винт ставите на замену?? »

Аналогичный. Все винты покупались в одно время специально с излишком.

Спасибо за информацию. Ночью попробую.

Ment69 25-03-2009 16:02 1074419

w0mbat, Вероятно проблема в backplane корзины, в свое время было несколько случаев подобных на платформах Intel. Ошибка выглядела так: Горел fail на произвольном HDD и массив в аут уходил при замене HDD происходил ребилд и ситуация повторялась на другом HDD, ставим HDD снятый ранее :) все выравнивалось до следующего случая. После замены backplane я забыл где живут клиенты :)

w0mbat 04-04-2009 09:28 1083754

Доброго времени суток!
Проблема разрешилась. Все оказалось гораздо проще, но и в тоже время гораздо страшнее. Ошибки возникали на двух дисках. Контроллер вывел из рейда один из них, который, по его мнению, был более неисправен (кстати, при повторном тестировании диск благополучно умер), а так как оставался еще один сбойный диск, то контроллер не давал восстановить рейд даже при замене выведенного диска.
Что бы не заниматься подъемом системы из бэкапов и не потерять не критичную информацию, которая не бэкапится, попробовал Акронисом слить инфу диск в диск. Операция прошла успешно. Так что, будем жить!
Осталась только одна проблема, с которой буду разбираться: почему в логах ничего не было.
Спасибо всем.
Удачи.

TERMINAL 07-07-2009 18:31 1161280

Вопросик по RAID 5, а если пройдёт 3 года, 5 лет......и на замене к тому времени таких винтов небудет...Что тогда делать?

Ment69 07-07-2009 19:06 1161327

Цитата:

Цитата TERMINAL
Что тогда делать? »

Если нет бэкапа и заграничного паспорта, только вешаться! А если серьезно, пять лет предел, после которого нужно менять сервер. Хотя они за три года обычно окупаются.

w0mbat 09-07-2009 22:12 1163334

Доброго времени суток!
Цитата:

Цитата TERMINAL
Что тогда делать? »

Когда заканчиваются резервные винты, мигрировать на новый набор винтов. Если это файл-сервер.
А если это сервер приложений, то, как сказал Ment69, сервер к этому времени устарел.
Удачи.


Время: 06:30.

Время: 06:30.
© OSzone.net 2001-