March 27th, 2016

sign

Неделя проблемных серверов HP

Не успели разобраться с проблемой камрада ironlamer, как очередная поделка компании HP вздумала поиметь меня в мозг.
Как я мельком упомянул в посте по ссылке, не далее как неделю назад мне приехал младший сервер HP DL20 Gen9, дабы служить верой и правдой под не сильно нагруженными задачами. Приехал он с опозданием на пару недель, потому что первый экземпляр, якобы, не прошел предпродажное тестирование у поставщика, выявились "проблемы с памятью".

Ну так вот, дела я с этими HPшками раньше не имел, поэтому просто собрал рейд-1, загрузился через PXE и поставил туда WinSrv2012 R2 с WDS.
В этот понедельник я накатил драйвера, развернул пару ролей, поставил два-три сервиса и начал потихоньку тестировать и настраивать все это дело. Во вторник днем, после 30 часов аптайма я внезапно обнаружил, что сервер висит. Перезагрузился, посмотрел логи (никакого криминала). Еще через день, придя утром, опять не застал пациента в сознании. Симптомы такие - iLO работает, питание подано, но винда не отвечает ни одним из сервисов, монитор в стэнд-бае, на Ctrl-Alt-Del реакции нет. Не реагирует также на Graceful Shutdown и даже на Reset из iLO. Реагирует только на Force Power Off.
В ночь на пятницу я запустил на 14 часов полное тестирование из встроенного Intelligent Provisioning. Все тесты прошли (и не по одному разу) без ошибок.
В пятницу же скачал HPSUM и обновил все, что можно. В субботу он еще был жив. Сейчас вечер воскресенья и он опять не отзывается.

В сервис поставщика звонил еще на неделе, они предложили попробовать поставить винду не через WDS, как я сделал, а через Intelligent Provisioning, но я не уверен, что будет какая-то разница (кроме того, что апдейты будут не установлены). Ну, разве что винду можно будет погонять чистую и голую, без всего, что я в нее устанавливал. Также предлагают запустить встроенные тесты на 3-4 дня подряд. Я понимаю, что им не хочется еще раз забирать сервер, но мне тоже совершенно не улыбается потом огрести с ним проблем. Какие будут советы, коллеги?

P.S. Еще раз внимательно посмотрел в интерфейс iLO - вижу в System information статус у памяти "Other", а не "OK". В подробностях вижу 1 планку в третьем почему-то сокете со статусом "Other - Unknown". Можно ли считать, что у меня паранойя, если я предположу, что это тот самый не замененный проблемный первый сервер, у которого просто планку памяти переставили из первого сокета в третий? Или это нормально, что ее на заводе в Socket-3 ставят? UPDATE: похоже, ее и положено в третий сокет ставить, если планка единственная. А в первый ставится ей в пару во второй канал, если две.