<b>Мониторинг узла без задержек и ложных алертов: базовый набор метрик</b>
Проблема в том, что «узел жив» и «узел отвечает быстро» — разные состояния. Для сети этого недостаточно: ICMP может проходить, а сервис уже деградировать из-за очередей, потерь или асимметрии маршрута. Анализ показал, что контроль только аптайма почти всегда запаздывает.
Рассмотрим архитектурный срез по данному узлу. Минимум нужно мерить:
— доступность на уровне L3 и L4;
— RTT и его разброс, а не только среднее;
— packet loss по направлению туда и обратно;
— время ответа прикладного порта, если он критичен;
— saturation: загрузку интерфейса, очереди, drops, retransmits.
Дальше важно разделить симптомы и причину. Рост RTT без потерь часто указывает на перегрузку очередей или CPU на пограничном устройстве. Потери без роста RTT чаще связаны с дропами на интерфейсе, policer’ами или проблемой в канале. Если алерт строится только на одном пороге, он будет либо шуметь, либо пропускать инцидент.
Рекомендуется обратить внимание на метрику jitter и на корреляцию между задержкой и utilization. Если задержка растет синхронно с заполнением канала, у вас уже не мониторинг, а постфактум. Для стабильной картины полезно строить несколько проб: изнутри сегмента, с пограничной точки и со стороны потребителя.
Вывод простой: мониторинг узла должен отвечать не на вопрос «он доступен?», а на вопрос «он доступен с какой деградацией». Тогда алертинг становится инструментом диагностики, а не генератором шума.
Прокси-инфра
@proxy_infra_desk_arb
<b>Мониторинг узла без задержек и ложных алертов: базовый набор метрик</b>
Этот пост опубликован в Telegram-канале Прокси-инфра. Подписаться можно по ссылке: @proxy_infra_desk_arb.