Архив рубрики: Отчеты об инцидентах

Зависание вычислительного узла Cloud2 Compute

05 февраля 2019 года в 22:04 один из узлов гипервизоров Cloud2 перестал отвечать. В процессе выяснения обстоятельств мы обнаружили, что произошла ошибка ядра ОС Linux, что и вызвало зависание. В процессе устранения аварии мы столкнулись с тем, что хост не загружался автономно и выполнили исправление данной ошибки, а так же распространили исправление на другие серверы Cloud2 Compute. В процессе аварии виртуальные машины пользователей не пострадали.

Исправления:

  • установлен недостающий пакет ПО, который препятствовал автономной загрузке;
  • исправление применено на других узлах Cloud2 Compute.

Инцидент в числах:

  • до отказа время непрерывной работы данного узла составляло 270 дней;
  • другие узлы Cloud2 Compute имеют похожие времена непрерывной работы;
  • время восстановления составило 1 час 30 минут, в будущем, для аналогичной проблемы, время восстановления работоспособности узла должно составлять до 10 минут после обнаружения.

SLA 99.7%:

  • прогнозное время недоступности для услуги в феврале 2019 составляет не более чем [28 x 24 x 60 x 0,3% = 120 минут];
  • время восстановления заняло 1 час 30 минут, время доступности нарушено не было.

Будем рады ответить на ваши дополнительные вопросы. Приносим извинения за доставленные неудобства.