Один из самых дорогих провалов в инфраструктуре начинается не с пожара в ДЦ, а с фразы: «Да и так сойдёт».
Команда вывела новый релиз на один сервер, без health-check’ов, без резервного пула и без отката, потому что «нагрузка пока небольшая». Через 15 минут вырос трафик, база упёрлась в лимиты, приложение начало отвечать медленно, а потом и вовсе легло. Автоскейлинг не помог — он был настроен, но не протестирован под реальный сценарий. Бэкапы были, но с задержкой в несколько часов. В итоге простой растянулся на полдня, а восстановление заняло больше времени, чем разработка самого сервиса.
Главный урок здесь простой: надёжность не возникает от наличия серверов. Она появляется, когда есть запас по мощности, проверенный rollback, мониторинг, тесты отказоустойчивости и понятный план, что делать, если всё пошло не по сценарию. Инфраструктура прощает многое, но не самоуверенность 🚨
CDN и Скорость
@cdn_speed_pro_n1k
Один из самых дорогих провалов в инфраструктуре начинается не с пожара в ДЦ, а с фразы: «Да и так сойдёт».
Этот пост опубликован в Telegram-канале CDN и Скорость. Подписаться можно по ссылке: @cdn_speed_pro_n1k.