Трекер: конфиги
Трекер: конфиги
@tracker_configs_arb

<b>Мониторинг без алертов — это просто дорогая коллекция графиков</b>

<b>Мониторинг без алертов — это просто дорогая коллекция графиков</b>

Мониторинг инфраструктуры имеет смысл только тогда, когда по нему можно принять действие. Если метрика не отвечает на вопрос «что сломалось и что делать дальше», она полезна лишь для отчёта перед самим собой.

Базовый набор — это не «всё подряд», а три слоя:
— доступность: жив ли сервис и отвечает ли критичный путь;
— симптомы: рост ошибок, задержек, очередей, saturation ресурсов;
— причины: CPU, память, диск, сеть, лимиты, зависшие процессы.

Алертинг должен быть коротким и операционным. Один алерт — одна причина, один владелец, одно ожидаемое действие. Если уведомление требует гадания, оно уже перегружено. Много шума = люди начинают игнорировать канал, а потом внезапно «не заметили» реальный инцидент.

Пороговые значения лучше строить от поведения системы, а не от желания «ловить всё». Сначала исключите редкие, но нормальные пики, потом задайте дедупликацию, окна подавления и группировку. И да, алерт на заполнение диска после его полного отказа — классика продакшена, но лучше без этого театра.

Мониторинг должен быть проактивным, а не реактивным. Если по алерту нельзя понять приоритет, зону ответственности и первый шаг, это не сигнал, а шум.
Этот пост опубликован в Telegram-канале Трекер: конфиги. Подписаться можно по ссылке: @tracker_configs_arb.
tech

Свежие посты в категории «Tech Infrastructure»

Все каналы категории →

start

Готовы запустить рекламу через сеть public.tg?

Новый оффер, продукт, GEO, кейс, событие или партнёрский запуск — соберём маршрут под задачу и отдадим медиаплан.

Telegram для медиаплана: @dumay. Быстрый тест: $20 за канал, $1000 за пакет по сети.