05 февраля 2019 года в 22:04 один из узлов гипервизоров Cloud2 перестал отвечать. В процессе выяснения обстоятельств мы обнаружили, что произошла ошибка ядра ОС Linux, что и вызвало зависание. В процессе устранения аварии мы столкнулись с тем, что хост не загружался автономно и выполнили исправление данной ошибки, а так же распространили исправление на другие серверы Cloud2 Compute. В процессе аварии виртуальные машины пользователей не пострадали.
Исправления:
- установлен недостающий пакет ПО, который препятствовал автономной загрузке;
- исправление применено на других узлах Cloud2 Compute.
Инцидент в числах:
- до отказа время непрерывной работы данного узла составляло 270 дней;
- другие узлы Cloud2 Compute имеют похожие времена непрерывной работы;
- время восстановления составило 1 час 30 минут, в будущем, для аналогичной проблемы, время восстановления работоспособности узла должно составлять до 10 минут после обнаружения.
SLA 99.7%:
- прогнозное время недоступности для услуги в феврале 2019 составляет не более чем [28 x 24 x 60 x 0,3% = 120 минут];
- время восстановления заняло 1 час 30 минут, время доступности нарушено не было.
Будем рады ответить на ваши дополнительные вопросы. Приносим извинения за доставленные неудобства.