Кейс
Обратился клиент с проблемами на гипервизорах. Проблемы выглядели как периодические зависания виртуальных машин и замедление их работы, а также труднодиагностируемые единичные сбои, однако целесообразность модернизации была под вопросом. Основной специалист компании уволился и переехал в другой город, не оставив подробной документации на инфраструктуру.
Что сделано:
Выполнили аудит гипервизоров и виртуальных машин, собрали метрики для SSD накопителей и жестких дисков, выявили, что несколько накопителей SSD находятся на грани истощения ресурса, а на жестких дисках обнаружили сбои с подключением. Также выявили, что на некоторых гипервизорах виртуальные машины конкурируют за процессорные и сетевые ресурсы из-за нехватки ядер, что приводит к росту метрики steal cpu
. Подготовили схему и подобрали спецификацию по модернизации гипервизоров, написали инструкции по добавлению и замене SSD накопителей и жестких дисков, а также разработали процедуру миграции виртуальных машин. После этого на двух новых гипервизорах подготовили и отладили весь процесс миграции, и задокументировали схему серверной и подключений.
Результат:
Новый младший инженер смог самостоятельно заменить всё проблемное оборудование, провести обслуживание серверов, заменить вентиляторы, термопасту, и жесткие диски. Причем ему удалось провести все миграции в live режиме не отключая пользователей и не блокируя работу систем и сервисов. После этого ему удалось разбалансировать виртуальные машины по гипервизорам таким образом, чтобы метрика steal cpu была менее 1%, что в корне решило проблемы с жалобами на замедление работы сервисов. В течение квартала он самостоятельно расширил парк гипервизоров и по рекомендациям обеспечил геораспределенность инфраструктуры, мигрировав часть гипервизоров в отдельную серверную, находящуюся в другом здании.
Стек
Supermicro, Dell, IBM, Grafana, InfluxDB, Telegraf, S.M.A.R.T.
Стоимость
120 000
₽, работы проведены за 1 месяц.