Памятка для приобретателей услуги «Аренда сервера» — часть 1

Итак, Вы являетесь приобретателем услуги «Аренда аппаратного сервера». В первой части статьи мы рассказываем о важных мероприятиях, которые Вы должны производить на регулярной основе на своем сервере.
Мы хотим напомнить Вам, что для данной услуги ряд профилактических и регулярных мероприятий являются критически-важными. Далее, мы опишем эти мероприятия,
просим настоятельно донести содержимое данного письма до своих администраторов или обратиться к нам за выполнением данных мероприятий.

Мониторинг программных RAID-массивов

Мониторинг состояния RAID-массивов — одна из самых важных процедур, которая должна проводиться на постоянной основе, при неисправности диска следует незамедлительно обращаться в службу технической поддержки для замены или диагностики диска.

Коротко

  • RAID-массив отметил какой-то из дисков как сбойный — обращаемся в ТП с целью выполнения мероприятий по замене диска.
  • RAID-массив рассыпался, но диски не отмечены как сбойные — необходима пересборка массива, возможно обращение в ТП с целью диагностики дисков по одному в запланированном режиме.

Чем грозит игнорирование?

Потеря или порча всех или части данных без возможности восстановления.

Дополнительные меры

Ежедневное резервное копирование с долгим сроком (2 недели и дольше).

Описание мероприятия

Вы должны самостоятельно осуществлять мониторинг целостности RAID-массивов и осуществлять регулярную процедуру проверки. Техническая поддержка не имеет никакой возможности определить, что в сервере, который Вы арендуете что-то не так с дисками или массивы «рассыпались».

Для мониторинга состояния RAID в ОС GNU/Linux Вы можете использовать автоматическое уведомление по электронной почте с помощью соответствующей настройки демона mdadm (/etc/mdadm/mdadm.conf). В этом случае, если RAID-массив перейдет в некорректное состояние, то Вам на e-mail будет отправлено письмо с уведомлением.

Если же вы хотите настроить интеграцию со своей системой мониторинга, то рекомендуем использовать вывод следующих команд

# cat /proc/mdstat
# mdadm --detail /dev/mdXXX

Документация

man mdadm
man mdadm.conf

Наша служба технической поддержки с удовольствием поможет выполнить данные мероприятия в режиме аутсорсинга.

Для мониторинга состояния программных RAID-массивов в других ОС (MS Windows, FreeBSD, и пр.) воспользуйтесь рекомендуемыми способами для данных ОС.

Мониторинг аппаратных RAID-массивов

Смотри сначала «Мониторинг программных RAID-массивов». В большинстве серверов, которые мы сдаем в аренду используются RAID-массивы PMC Adaptec, LSI, HP, Dell PERC.

  • Для массивов Adaptec необходимо установить утилиту PCM Adaptec Arcconf и связать ее со своей системой мониторинга состояния сервера (например, Zabbix).
  • Для массивов LSI необходимо установить утилиту LSI MegaCli и связать ее со своей системой мониторинга состояния сервера (например, Zabbix).
  • Для массивов HP — hpacucli и связать ее со своей системой мониторинга состояния сервера (например, Zabbix).
  • Для массивов Dell PERC — omreport  и связать ее со своей системой мониторинга состояния сервера (например, Zabbix).

Если Вам необходимо настроить резервное копирование для сервера, обратитесь в нашу техническую поддержку для настройки в режиме аутсорсинга.

Мониторинг износа SSD-накопителей

SSD накопители подвержены износу, что может негативно сказаться на целостности ваших RAID-массивов. Если SSD-накопитель износился на 100%, то он переходит в режим «только-чтение» и дальнейшая запись на него невозможна.

Для мониторинга износа SSD-накопителей используется утилита аудита S.M.A.R.T. В GNU/Linux необходимо использовать утилиту smartctl, которая входит в пакет smartmontools. Необходимо анализировать значения параметров «*Wear*», полные имена которых могут отличаться от поставщика к поставщику:

root@c1-nfs2:~# smartctl -a /dev/sdf | grep Wear
233 Media_Wearout_Indicator 0x0032 096 096 000 Old_age Always - 0

Так же (для любых дисков стоит обратить внимание на изменение параметра (рост количества перемещенных секторов). Само по себе некоторое количество не является показателем проблемы, но рост количества может свидетельствовать о потенциальной проблеме.

Reallocated_Sector_Ct

Вот как в нашем Zabbix отображается Wearout для SSD-накопителей одного из наших дисковых хранилищ:

wearout-graph

У нас много SSD накопителей в данном сервер (больше 40 шт) и мы отображаем максимальный износ. Как видно износ не превышает 13% (текущее значение — 87%, начальное — 100%). На графике отмечены триггеры, которые для нас имеют определяющее значение для планирования закупок новых накопителей.

Если Вам необходимо настроить мониторинг износа SSD для сервера, обратитесь в нашу техническую поддержку для настройки в режиме аутсорсинга.

Резервное копирование данных

Без резервного копирования данных в пределе на продолжительном периоде времени Вы гарантированно потеряете данные. Потеря может быть как в результате отказа диска, сбоя дискового контроллера, ошибки администратора или вторжения злоумышленника.

Описание мероприятия

Существует множество способов резервного копирования для различных операционных систем. Мы предпочитаем использовать Duplicity для GNU/Linux и Duplicati для MS Windows, так же отличные результаты дает Bacula, но ее целесообразно использовать для больших парков серверов.

Если Вам необходимо настроить резервное копирование для сервера, обратитесь в нашу техническую поддержку для настройки в режиме аутсорсинга.

Защита доступа к серверу по SSH

Все серверы, чьи IP публично доступны в интернет, постоянно перебираются на предмет подбора пароля. Если Вы установите пароль qwerty для пользователя root, со 100% уверенностью можно заявить, что без использования дополнительных средств защиты, сервер будет взломан в течение нескольких суток.

Описание мероприятия

Для защиты доступа по SSH мы рекомендуем выполнить следующие мероприятия:

  • запретить доступ root к системе по SSH вообще или ограничить его через sshd_config режимом without_password, который активирует доступ только по ключу без ввода пароля.
  • перенос порта SSH со стандартного 22 на другой, к примеру, 11322, что не позволит роботам, перебирающим в автоматическом режиме, обнаружить службу.
  • установку и настройку службы fail2ban.

Если Вам необходимо настроить защиту SSH для сервера, обратитесь в нашу техническую поддержку для настройки в режиме аутсорсинга.