Периодические перезагрузки сервера, без BSOD'ов
Доброе время суток. Имеется машина работающая как сервер.
Материнка Gigabyte B360DH3PML-CF Процессор Intel Core I9 9900K Оператива DDR4, 128 GB Диски 2* NVME Samsung MZVLB1T0HBLR 1 TB 1*SATA SSD Micron MTFDDAK1T9TBY, 1.92 TB 1*SATA SSD Toshiba THNSN8960PCSE, 960 GB Сетевые карты встроенная в материнку сетевуха Intel дополнительная 10Gbit/sec сетевуха с 2-мя портами для связи с другими серверами в сети Intel 520-2 Хостовая ОС - Windows Server 2019 Standard, в Hyper-V поднята такая же виртуальная ОС. Сервер используется как сервер СУБД (MS SQL Express 2019 ) для большого кол-ва маленьких баз ( 150+ объемом 1-2 GB в среднем). Основные диски для виртуальной ОС подключены как сквозные. Ни в хостовой, ни в виртуальной ОС антивирусов нет, доступ из интернета открыт для очень небольшого кол-ва портов, для нескольких IP-адресов. Проблема: сервер периодически перезагружается, без BSOD'ов, в самое различное время. По журналам системы понятно что сбой идет в хостовой ОС и затем как следствие в виртуальной. Что было сделано, и не дало результата. 1. Заменены процессор, материнка, память на идентичные 2. Обновлена прошивка дисков до последней 3. Обновлена BIOS материнки до последней 4. Неоднократно установлены все обновления Windows 5. Неоднократно проверены SMART и состояние дисков - проблем нет. 6. После замены оперативы новая оператива проверена memtest86+ ( проверка шла 9 часов) - проблем нет. 7. Есть мнение что сервер может перезагружаться потому что оборудование не выдерживает нагрузку. Под проверкой, но скорее всего нет, т.к. перезагрузка бывает в самые разные периоды, в т.ч. в "тихие". Так же, если смотреть на журналы монитора производительности, то постоянной сильной нагрузки на железо нет. 8. Теория с перегревом железа. В разное время запускал Aid'у, в общем температур на мамке и проце выше 80 не наблюдал. При этом непосредственно перед перезагрузками не знаю какая была температура. Но, в моменты, скажем, личных проверок, перегревов не видел. Что может быть причиной перезагрузок, что еще проверить ? Софтовую причину отметаю т.к. нет BSOD'ов. Может я ошибаюсь, не знаю. Какие идеи ? |
Цитата:
|
Цитата:
|
"журналам системы понятно что сбой идет в хостовой ОС"
а что за ошибки-то предшествуют сбою? |
Цитата:
Цитата:
Получается на данный момент, единственное что не менялось в сервере, это диски и дополнительная сетевая карта. Но могут ли они быть причиной непредвиденных перезагрузок, без BSOD'ов ? Я такого просто еще не встречал. |
а в сторону софтовых проблем не смотрели?
там, напр, утекание памяти? мож тупо файл виртуальной оси разрастается, пока не займет весь рам, и хостовой негде свое хранить, она падает.. нет возможности запустить виртуалку в окне так, чтоб на экране имелась и хостовая, с каким-нить хоть примитивным индикатором занимаемых ресурсов? |
Цитата:
Цитата:
Цитата:
А так, БП вполне мог уйти в защиту. Во всех остальных вариантах должен быть бсод и запись в журнал событий. |
Цитата:
Цитата:
Блок питания какой поставили - сервер у хостера, поэтому этот момент не прояснить. Не будут они отвечать на такое. Сказали что заменили. |
сервер у хостера?
а как вы уверены, что рассказы про замены железа не туфта? а как можно быть уверенным даже в том, что уборщица, включая пылесос, не вынула из розетки мешающую железяку? (условно) |
Цитата:
Цитата:
Цитата:
Цитата:
|
Наверное, не совсем в тему, но напишу... Поставил новый сервер (с БП по 800 заявленных Ватт) на старый UPS, который раньше питал старый сервер с БП по 700Ватт, и началась такая петрушка... Сам время от времени перезагружается, удалось скореллировать со временем отключения питания, точнее, с моментом, когда включается основное питание, и УПС с батарей переходит на него. Что самое странное, если вручную выдернуть вилку из сети, или общим рубильником отключить питание всем серверам, то всё ОК. Если вернуть питание, тоже всё ОК, проблема именно в момент перехода с генератора на "город". Пока что хз, как это устранить - есть три одинаковых модели УПСов, у самого сервера два БП, всё перепробовал, эффекта нет. Упсы на 1500ВА, мониторинг показывает загрузку 15-18%. Может, и у вас что-то подобное в стойке происходит?
|
Цитата:
Даже не заикаясь, что держать сервер на десктопном железе без мониторинга и резервирования это хороший шанс влететь в непонятки. |
Цитата:
обычно лимитируют в сколько-то мс.. |
Цитата:
|
Цитата:
Мож тупо через кондеры, которые должны подавать питание, пока отрабатывает релюшка, а кондеры ссохлись.. Мож еще как, но мыслю именно в длину провала при автомате. Если есть осциллограф с подключением к компу, можно промерять время провала, наверно.. |
Цитата:
Цитата:
|
Здравствуйте. Опять была перезагрузка, без BSOD'ов.
Осталось методом тыка поменять дополнительную сетевую карту и диски. На моем опыте ни то ни то не было причиной перезагрузок, без BSOD'ов. Был ли у кого-то другой опыт ? |
Цитата:
|
Цитата:
Цитата:
|
Цитата:
Цитата:
|
Цитата:
Цитата:
|
Цитата:
|
Цитата:
|
Cereal Keeler, я в курсе. "прошивка" всё-таки больше "софт", чем "железо", но могут вылезти глюки от обоих, что бывает отловить достаточно трудно. Так что пусть для начала поотключает всё, а потом посмотрим.
А, PS. можно какой-нибудь zabbix вкарячить, может, повезет и удастся скореллировать перезагрузку с чем-то. |
Цитата:
|
Цитата:
|
Цитата:
|
Время: 19:09. |
Время: 19:09.
© OSzone.net 2001-