Главный SRE-инженер

МоскваГибридОт 5 лет

О компании

Альфа-Банк — один из крупнейших банков в России, предоставляющий широкий спектр финансовых услуг. Банк активно интегрирует современные технологии в свою работу, чтобы улучшить клиентский опыт и оптимизировать внутренние процессы. Альфа-Банк занимает значительную позицию на рынке и постоянно развивает инновационные решения в сфере банковских услуг.

Ключевые факты:

Один из лидеров на российском банковском рынке
Широкий спектр финансовых услуг
Инновационная интеграция технологий

О вакансии

Команда SRE в Альфа-Банке сосредоточена на обеспечении надежности и производительности всех систем банка. Как главный SRE-инженер, вы будете участвовать в развитии SRE-направления и внедрении лучших практик для достижения высоких стандартов надежности. Ваша работа будет включать настройку и сопровождение контейнерных платформ, а также разработку и сопровождение инфраструктуры.

Вы будете участвовать в построении и развитии процессов CI/CD, а также в организации систем мониторинга и логирования. В дополнение к этому, вы будете заниматься анализом инцидентов, оптимизацией инфраструктуры, а также контролем SLO и Error Budget.

Чем предстоит заниматься:

Развивать SRE-направление и внедрять практики надежности
Настраивать и сопровождать контейнерные платформы на основе Docker и Kubernetes
Разрабатывать инфраструктуру с использованием Terraform, Ansible и Helm
Построить и развивать CI/CD процессы на базе GitLab CI
Организовывать системы мониторинга и логирования с VictoriaMetrics, Grafana и ELK
Участвовать в расследовании инцидентов и снижать MTTR
Внедрять и контролировать SLO, управлять Error Budget
Оптимизировать инфраструктуру для повышения производительности и снижения затрат
Обеспечивать стабильность и отказоустойчивость систем
Настраивать процессы резервного копирования и аварийного восстановления
Внедрять практики тестирования устойчивости (Chaos Engineering)
Автоматизировать операции и разрабатывать механизмы самовосстановления

Что мы предлагаем:

Гибридный формат работы
Возможности для профессионального роста и развития

Навыки

DockerKubernetesTerraformAnsibleHelmGitLab CIVictoriaMetricsGrafanaELKLinuxPostgreSQLMongoDBKafkaYandex Cloud

Обязанности

Развивать SRE-направление и внедрять практики надежности
Настраивать и сопровождать контейнерные платформы на базе Docker и Kubernetes
Разрабатывать инфраструктуру с использованием Terraform, Ansible и Helm
Построить и развивать CI/CD процессы на базе GitLab CI
Организовывать системы мониторинга и логирования с VictoriaMetrics, Grafana и ELK
Участвовать в расследовании инцидентов и снижать MTTR
Внедрять и контролировать SLO, управлять Error Budget
Оптимизировать инфраструктуру по производительности и стоимости
Обеспечивать стабильность и отказоустойчивость систем
Настраивать процессы резервного копирования и аварийного восстановления

Требования

Опыт работы в роли SRE не менее 5 лет
Знание Linux, диагностика и диагностика узких мест
Понимание контейнеризации и оркестрации (Docker, Kubernetes)
Опыт эксплуатации PostgreSQL, MongoDB, Kafka
Понимание архитектурных принципов высокой доступности
Опыт построения CI/CD на GitLab CI
Навыки мониторинга и логирования (Prometheus, VictoriaMetrics, Grafana, ELK)
Опыт работы с Infrastructure as Code (Terraform, Ansible, Helm)
Знание концепций Observability, SRE, Performance Tuning
Опыт работы с Yandex Cloud или другой облачной платформой
Опыт эксплуатации высоконагруженных систем
Опыт реагирования на инциденты и устранения первопричин

Условия

Гибридный формат работы