<b>Argo не спасает от плохого кластера: 5 проверок до первого workflow</b>
Argo часто ставят как «удобный оркестратор», а потом ловят странные падения не в самом workflow, а вокруг него. Перед первым запуском проверь базу: namespace для артов и логов, права service account, доступ к registry и хранилищу, лимиты на pod'ы и quotas. Если эти вещи не зафиксированы, любой красивый pipeline превращается в ручной разбор полётов.
Дальше смотри на механику исполнения:
— templates должны быть идемпотентны, иначе ретраи создают мусор;
— все шаги, пишущие в shared volume, лучше изолировать;
— зависимости между задачами фиксируй явно, не полагайся на порядок запуска;
— для долгих job'ов сразу закладывай timeout и retry policy;
— secrets передавай через Kubernetes-механизмы, а не через env в лоб.
Отдельная зона риска — observability. Без нормальных логов и меток по workflow невозможно понять, где именно сломался ci_cd: в сети, в образе, в рантайме контейнера или в правах доступа. Полезно сразу договориться о naming convention для workflow, чтобы искать их в monitoring было проще, чем читать YAML вручную.
Если Argo ведёт себя «нестабильно», чаще всего виноват не сам движок, а инфраструктурный контур вокруг него. Сначала вычисти права, storage и лимиты, потом уже оптимизируй сами шаблоны — так k8s и devops перестают спорить, кто именно сломал запуск.
SEO Radar
@SEORadarRU
<b>Argo не спасает от плохого кластера: 5 проверок до первого workflow</b>
Этот пост опубликован в Telegram-канале SEO Radar. Подписаться можно по ссылке: @SEORadarRU.