<b>Почему сетевая инфраструктура отказывает: 7 причин, которые видно в логах и метриках</b>
Отказы сети редко связаны с одной точкой. Анализ показал, что чаще всего проблема собирается из нескольких слоёв: физика, L2/L3, контрольные протоколы, политика доступа и перегрузка. Если смотреть только на симптом — «нет связи» — можно долго лечить не тот узел.
— Потеря линка или деградация канала: ошибки на порту, flapping, рост CRC и dropped frames.
— Петля на L2: широковещательный шторм, скачок нагрузки на коммутаторы, нестабильный STP.
— Конфликт маршрутизации: неверная анонсация, асимметрия путей, исчезновение next hop.
— Переполнение очередей: latency растёт раньше, чем начинается явный packet loss.
— Ошибки ACL/NAT/Firewall: трафик проходит частично, а часть потоков молча режется.
— Сбой в контролирующем сервисе: DNS, DHCP, AAA, SDN-контроллер или мониторинг могут быть причиной каскада.
Рассмотрим архитектурный срез по данному узлу. Ищите не только факт отказа, но и предвестники: рост ошибок интерфейса, изменение топологии, всплеск retransmits, разрыв соседства, падение доступности сервисов по пути. Корреляция метрик обычно точнее, чем единичный алерт.
Практика простая: фиксируйте таймлайн, снимайте counters на каждом слое и отделяйте первопричину от каскадных симптомов. Когда есть порядок проверки, сеть чинится быстрее и без лишних замен железа.
Прокси-инфра
@proxy_infra_desk_arb
<b>Почему сетевая инфраструктура отказывает: 7 причин, которые видно в логах и метриках</b>
Этот пост опубликован в Telegram-канале Прокси-инфра. Подписаться можно по ссылке: @proxy_infra_desk_arb.