Поддержка сайтов и порталов на битрикс

Мониторинг серверов и проектов на базе Битрикс и Битрикс24

Мы не просто компания, которая поддерживает ваш сайт или портал Битрикс24. Мы более чем продвинутый интегратор, который не ждет, когда вы позвоните и скажете, что что-то не работает, а сделает все, чтобы предупредить о таких инцидентах.

Для предупреждения  поломок, сбоев, падений ваших проектов - мы обязательно подключаем ваш проект к нашей глобальной системе мониторинга и снимаем более 100 различных метрик, отслеживаем их отклонения от нормы, выявляем тренды, которые могут сказать о скором наступлении проблемы .

Что и как мониторим

У нас развернуто 2 системы мониторинга в разных дата-центрах. Системы снимают базовый и расширенный набор показателей-метрик (подробности ниже). Помимо мониторинга клиентских проектов - системы отслеживают собственную работоспособность.

Базовая схема выглядит так:

Мониторинг клиентских проектов
В случае, если у клиента более сложная архитектура проекта (кластер), мы также пересматриваем систему мониторинга.

Базовые метрики операционной системы и служб:

Веб-сервер на доступность и ответ (внешняя проверка)

По умолчанию отслеживается 80 порт, за который обычно отвечает Nginx, но в случае падения Apache мониторинг сообщит об ошибке, так как Nginx тоже будет отдавать эту ошибку в ответах на запросы

Свободное место на дисковых разделах и состояние дисков

Все существующие разделы диска в системе мониторятся на свободное место (например / и /boot)

Предупреждение, если на диске только 50% свободного места
 и критическое предупреждение, если его только 30%

Также отслеживаются другие метрики, например температура, показатели S.M.A.R.T. и другие доступные

Swap раздел

Предупреждение, если осталось только 50% свободного места, если осталось 30% и менее - критическое предупреждение


Загрузка процессора (CPU Load)

Отслеживается загрузка процессора на промежутках времени: 1, 5, 15 минут

Предупреждение о загрузке для 1 минуты - 100%, 5-90%,15-80%
Критическое предупреждение о загрузке для 1 минуты - 110%, 5-100%,15-90%

RAM (оперативная память)

Предупреждение, если используется на 50%, если используется 70% и более оперативной памяти - критическое предупреждение


Сервер баз данных (MySQL)

В первую очередь следим за доступностью сервера, но также отслеживаем такие показатели как: количество медленных запросов, uptime, количество запросов в секунду и многое другое 

Внешние проверки доступности служб

проверки извне на доступность служб, например: SSH и FTP сервера

Внутренние проверки доступности служб

локальные проверки на доступность сопутствующих служб, например: Memcached и Sphinx сервера
 

Текущие авторизованные пользователи в консоли сервера

по-умолчанию при наличии хотя бы одного авторизованного  пользователя с правами администратора, генерируется предупреждение 

Сеть

Мы постоянно проверяем соединение с вашим проектом (ping) и замеряем количество потерянных пакетов

При потере 25% - предупреждение
, при потере 50% и более - критическое предупреждение

Кроме того, отслеживается такой показатель, как RTA (Round-Trip Average) - это время, в миллисекундах, за которое пакет добрался до наблюдаемого сервера и вернулся назад к серверу-мониторингу. Предупреждение при значении в 200критическое предупреждение при 250

Почта

Помимо штатных проверок на доступность почтового сервиса мы также отслеживаем почтовую очередь на предмет количества писем и можем делать выводы о средней скорости отправки писем. 

Например, резкие и неестественные всплески количества отправляемых писем могут говорить о взломе клиентского ящика или ftp аккаунта, что может повлечь рассылку спама

Безопасность и стабильность

Мы постоянно отслеживаем текущую версию ядра операционной системы и свежие обновления пакетов, исправляющие критичные ошибки, связанные с безопасностью  

Резервное копирование

Мы отслеживаем корректность и своевременность создания резервных копий. В рамках вашего тарифного плана периодически производятся тестовые восстановления.

Метрики на уровне продукта

Как и кого уведомляем

Обычные уведомления приходят на email всем инженерам, которые подключены к проекту. Критичные уведомления приходят старшим инженерам в виде смс. При необходимости, в систему уведомления добавляются представители клиента.

Рассмотрим более подробно алгоритм проверки на примере:
  1. Каждый сервис проверяется каждые 4 минуты, в случае изменения обнаружения изменения состояния (например упал ftp) 
  2. Через 2 минуты проводится дополнительная проверка
  3. Если 2(1+2=3) дополнительные проверки дали тот же результат - высылается уведомление
  4. Повторное уведомление придёт через час
Итого - уведомление с нашего сервиса мониторинга приходит за 4 - 8 минут

В данном описании мы привели лишь базовую часть метрик, которые мы отслеживаем в наших системах мониторинга клиентских проектов. Все проекты уникальны и мы стараемся настроить мониторинг таким образом, чтобы у вас не было и минуты простоя в работе магазина или портала, которая может стоить вам очень дорого.