<b>Мониторинг без алертов — это просто дорогая коллекция графиков</b>
Мониторинг инфраструктуры имеет смысл только тогда, когда по нему можно принять действие. Если метрика не отвечает на вопрос «что сломалось и что делать дальше», она полезна лишь для отчёта перед самим собой.
Базовый набор — это не «всё подряд», а три слоя:
— доступность: жив ли сервис и отвечает ли критичный путь;
— симптомы: рост ошибок, задержек, очередей, saturation ресурсов;
— причины: CPU, память, диск, сеть, лимиты, зависшие процессы.
Алертинг должен быть коротким и операционным. Один алерт — одна причина, один владелец, одно ожидаемое действие. Если уведомление требует гадания, оно уже перегружено. Много шума = люди начинают игнорировать канал, а потом внезапно «не заметили» реальный инцидент.
Пороговые значения лучше строить от поведения системы, а не от желания «ловить всё». Сначала исключите редкие, но нормальные пики, потом задайте дедупликацию, окна подавления и группировку. И да, алерт на заполнение диска после его полного отказа — классика продакшена, но лучше без этого театра.
Мониторинг должен быть проактивным, а не реактивным. Если по алерту нельзя понять приоритет, зону ответственности и первый шаг, это не сигнал, а шум.
Трекер: конфиги
@tracker_configs_arb
<b>Мониторинг без алертов — это просто дорогая коллекция графиков</b>
Этот пост опубликован в Telegram-канале Трекер: конфиги. Подписаться можно по ссылке: @tracker_configs_arb.