95% проблем с сайтом на инфраструктуре заметны не «по ощущениям», а по метрикам. Если мониторить только аптайм, можно пропустить деградацию до момента, когда пользователи уже жалуются.
Что реально стоит держать на контроле:
— TTFB: рост с 200–300 мс до 800+ мс часто первым показывает перегрузку.
— p95/p99 latency: среднее значение может быть нормальным, а 1% запросов уже «тормозит» весь опыт.
— Error rate: даже 0,5–1% 5xx на высокой нагрузке — это сигнал разбираться сразу.
— CPU / RAM / I/O wait: если I/O wait стабильно выше 10–15%, сервер упирается в диск, а не в процессор.
— Диск: свободное место ниже 15% и резкий рост inode usage — частая причина внезапных сбоев.
Хороший мониторинг — это не просто «сервер жив». Это понимание, когда он ещё жив, но уже работает на грани ⚙️
Мониторинг Сайтов
@site_monitoring_ru_n1k
95% проблем с сайтом на инфраструктуре заметны не «по ощущениям», а по метрикам. Если мониторить только аптайм
Этот пост опубликован в Telegram-канале Мониторинг Сайтов. Подписаться можно по ссылке: @site_monitoring_ru_n1k.