Главный SRE-инженер
Компания: Альфа-Банк
Локация: Москва
О компании
Альфа-Банк — это один из крупнейших кредитных учреждений в России, активно развивающий свои технологические решения. Банк предлагает разнообразные финансовые услуги и использует современные технологии для обеспечения высокой надежности своих систем и удовлетворения потребностей клиентов.
Сильная команда специалистов работает над разработкой и поддержкой высоконагруженных сервисов, использующих передовые IT-технологии. Банк активно внедряет новые решения в области обеспечения безопасности и автоматизации процессов.
О вакансии
В команде SRE Альфа-Банка вы будете отвечать за развитие и поддержку надежной системы наблюдения (observability), включая сбор метрик и управление логированием. Вашими основными задачами станут анализ инцидентов, автоматизация процессов и обеспечение высокой доступности инфраструктуры.
Вы будете взаимодействовать с DevOps и инженерами инфраструктуры для настройки и поддержки Kubernetes-кластеров, а также разработки и автоматизации скриптов на Python и Go. Ваша работа будет напрямую влиять на надежность платформы и эффективность эксплуатационных процессов.
Чем предстоит заниматься:
- Развивать и поддерживать систему observability: сбор метрик, логов и алертов
- Анализировать инциденты и проводить post-mortem для повышения надежности
- Обеспечивать высокую доступность и отказоустойчивость инфраструктуры
- Автоматизировать рутинные операции с использованием Infrastructure as Code
- Настраивать и поддерживать Kubernetes-кластеры и сопутствующие сервисы
- Взаимодействовать с командой DevOps и инженеров
- Участвовать в планировании и внедрении новых сервисов и компонентов
Что мы предлагаем:
- Участие в масштабных проектах в одной из крупнейших банковских организаций
- Возможность работать с передовыми технологиями и инструментами
- Дружелюбная и профессиональная команда
Обязанности
- Развитие и поддержка системы собранной информации о работоспособности систем, включая метрики и логи
- Анализ инцидентов с последующим проведением пост-мортемы для повышения надежности платформы
- Обеспечение высокой доступности и устойчивости инфраструктуры
- Автоматизация эксплуатационных процессов и рутинных операций с использованием Infrastructure as Code
- Настройка и поддержка кластеров Kubernetes и сопутствующих сервисов
- Поддержка Linux-серверов и системного ПО
- Взаимодействие с командой DevOps и инженерной группой
- Разработка скриптов и их автоматизация с использованием Python и Go
- Участие в планировании и внедрении новых компонентов и сервисов
- Совершенствование процессов мониторинга и алертинга
Требования
- Опыт работы SRE / Platform / Infrastructure Engineer от 5 лет
- Опыт эксплуатации Kubernetes в production
- Работа с Linux-серверами и системным ПО
- Опыт работы с системами мониторинга и логирования
- Автоматизация инфраструктуры (Infrastructure as Code, Ansible, Terraform)
- Навыки программирования на Python, знание Go — преимущество
- Анализ инцидентов и проведение post-mortem
- Понимание микросервисной архитектуры
- Высшее техническое образование