Мониторинг доступности: NGENIX запустил сервис Active Health Check
В современном цифровом мире стабильная работа веб-ресурсов имеет решающее значение для бизнеса, а обеспечение доступности веб-ресурсов становится критически важной задачей. Мы в NGENIX разработали сервис Active Health Check, который помогает отслеживать состояние серверов и доступность публичных веб-ресурсов. Он полезен и тем у кого небольшая инфраструктура, и тем у кого сложная большая инфраструктура или дорогое время простоя.
Сегодня расскажем:
➡️ что такое мониторинг доступности;
➡️ какой бывает мониторинг доступности;
➡️ какие технологии лежат в основе сервиса Active Health Check;
➡️ кому нужен сервис Active Health Check и как он работает;
➡️ как настроить мониторинг доступности.
Что такое мониторинг доступности
Интернет представляет собой сеть взаимосвязанных автономных систем, которые обмениваются маршрутной информацией и обеспечивают IP-связность. За счет этого IP-пакеты достигают конечных адресатов или проходят транзитом в соседнюю автономную систему.
Когда пользователь обращается к веб-приложению, некоторые сегменты интернета могут оказаться недоступными из-за проблем в сети или неисправностей оборудования, что делает невозможным получение запрошенных данных. Также возможен сбой в работе самого веб-ресурса из-за DDoS-атаки, бага в программном обеспечении и других критичных проблем.
Мониторинг доступности — это непрерывный процесс проверки состояния серверов, веб-приложений и других элементов IT-инфраструктуры.
Его основная цель — определить, доступны ли веб-приложения для пользователей. Благодаря мониторингу можно оперативно выявлять сбои в работе веб-ресурсов и быстро реагировать на возникающие инциденты.
Какой бывает мониторинг доступности
Мы выделяем два типа мониторинга доступности:
➡️ Пассивный мониторинг доступности — это тип мониторинга, при котором доступность веб-приложения определяется на основе запросов пользователей к веб-ресурсу.
➡️ Активный распределенный мониторинг доступности — это тип мониторинга, при котором система регулярно отправляет запросы к веб-приложению, проверяя его доступность в сети из нескольких локаций. Такой подход дает возможность оценить доступность веб-ресурса для людей из разных регионов, а также выявить проблемы до того, как их заметят пользователи, и быстро среагировать на инциденты.
На платформе NGENIX реализован, как пассивный мониторинг, так и распределенный, активный — в зависимости от потребностей клиента. Для повышения UX предпочтительнее активный мониторинг доступности, потому что проблему удается найти раньше, чем это сделают пользователи.
Для того, чтобы было понятно, как устроен активный распределенный мониторинг доступности, ниже расскажем, как обслуживаются пользовательские запросы на платформе NGENIX и какие технологии лежат в основе нашего сервиса Active Health Check.
Как обслуживается пользовательский запрос на платформе NGENIX
Когда запрос поступает в точку присутствия NGENIX (место, где расположено оборудование), в действие вступают балансировщики нагрузки. Они распределяют трафик между серверами, чтобы обеспечить максимальную скорость и доступность.

Мы применяем различные методы балансировки нагрузки, такие как:
➡️ Anycast BGP;
➡️ DNS-балансировка;
➡️ HTTP-балансировка.
Используя эти и другие алгоритмы, мы выбираем оптимальную локацию для обработки запроса пользователя, обеспечивая быструю и стабильную работу веб-ресурсов. После выбора локации запрос проходит через цепочку серверов обработки запросов, которые обеспечивают ряд функциональных возможностей, включая фильтрацию запросов и кэширование.
Однако важно выбрать не только оптимальную локацию, но и ту, которая в данный момент доступна для обработки запроса.
У NGENIX высокая степень сетевой связности в России и странах СНГ. Однако оценка уровня доступности остается непростой задачей. Достаточно трудно контролировать прохождение IP-пакетов дальше партнерской сети оператора связи.
Для решения этой задачи мы разработали систему под названием Content Routing Engine. Она состоит из ряда компонентов, которые обеспечивают эффективную балансировку запросов пользователей. Один из компонентов — Healthchecker, который реализует распределенный контроль доступности.

Для сбора данных мы используем сеть пробников, расположенных в различных сегментах интернета. Наши алгоритмы позволяют получить точную оценку доступности каждого эндпоинта и на основе этих измерений строить сложную цепочку логических правил, описывающих состояние ресурса.
В этих правилах учитываются такие показатели, как загруженность каналов, уровень потерь и другие важные метрики. Наша система обрабатывает более 200 тысяч метрик каждую минуту и применяет их в 17 тысячах правил для принятия решений.
Актуальные правила загружаются в наши балансировщики нагрузки, которые на лету применяют изменения и перенаправляют пользовательские запросы на доступные и выгодные точки присутствия NGENIX. Это позволяет платформе автоматически восстанавливаться при нарушении сетевой связности или отказе оборудования.

Зачем нужен сервис Active Health Check и как он работает
При разработке сервиса Active Health Check мы использовали нашу систему Content Routing Engine Health Checker, описанную выше. Однако упростили некоторые технические аспекты, чтобы наши клиенты могли легко настроить мониторинг доступности своих веб-ресурсов.
Наш сервис распределенного мониторинга доступности Active Health Check ориентирован на заказчиков, которым необходимо регулярно проверять доступность веб-приложений из разных сегментов интернета. Более 30 распределенных серверов опрашивают веб-ресурсы и определяют их доступность на основе ответов. Это позволяет быстро выявлять сбои и реагировать на инциденты. Кроме того, на основе независимой оценки доступности можно оптимизировать внутренние процессы реагирования на инциденты или провести анализ состояния сети и инфраструктуры.

Так с помощью Active Health Check можно более эффективно отслеживать состояние веб-ресурса. В будущем мы планируем также предоставить возможность получать уведомления о доступности или недоступности веб-ресурса.
Как настроить мониторинг доступности
Посмотреть, как работать с сервисом Active Health Check на платформе NGENIX, можно здесь — переходите по ссылке на Rutube и запускайте видео с 4-ой минуты. Тимлид команды эксплуатации Александр Шумилин покажет, как настроить сервис в NGENIX Multidesk.
🧑💻 Больше о мониторинге доступности и сервисе Active Health Check читайте:
➡️ на странице «Распределенный мониторинг доступности»;
➡️ в пользовательской документации NGENIX.