Однажды мы ловили «плавающий» даунтайм у сервера: жалобы приходили раз в несколько дней, а в мониторинге — тишина. Нагрузка стабильная, диски живые, сеть без потерь. Виновник нашёлся неожиданно: резервное копирование запускалось в одно и то же окно с тяжёлыми ночными задачами, и пик I/O просто душил веб-стек.
Что сработало:
— разнесли бэкап и batch-процессы по времени;
— ограничили IOPS для резервных задач;
— вынесли критичные сервисы на отдельный том;
— добавили алерт не только на падение, но и на рост latency.
Вывод простой: сервер редко «ломается» громко. Чаще он медленно задыхается от правильных, но одновременно запущенных процессов. ⚙️
Иногда лучший апгрейд — не новый CPU, а более умный график задач.
—
Для любителей веб хостинг, серверы, инфраструктура — @hosting_review_ru_n1k
Резервные Копии
@backup_strategy_ru_n1k
Однажды мы ловили «плавающий» даунтайм у сервера: жалобы приходили раз в несколько дней, а в мониторинге — тиш
Этот пост опубликован в Telegram-канале Резервные Копии. Подписаться можно по ссылке: @backup_strategy_ru_n1k.