Главный SRE-инженер

Компания: Альфа-Банк

Локация: Москва

О компании

Альфа-Банк — это один из крупнейших кредитных учреждений в России, активно развивающий свои технологические решения. Банк предлагает разнообразные финансовые услуги и использует современные технологии для обеспечения высокой надежности своих систем и удовлетворения потребностей клиентов.

Сильная команда специалистов работает над разработкой и поддержкой высоконагруженных сервисов, использующих передовые IT-технологии. Банк активно внедряет новые решения в области обеспечения безопасности и автоматизации процессов.

О вакансии

В команде SRE Альфа-Банка вы будете отвечать за развитие и поддержку надежной системы наблюдения (observability), включая сбор метрик и управление логированием. Вашими основными задачами станут анализ инцидентов, автоматизация процессов и обеспечение высокой доступности инфраструктуры.

Вы будете взаимодействовать с DevOps и инженерами инфраструктуры для настройки и поддержки Kubernetes-кластеров, а также разработки и автоматизации скриптов на Python и Go. Ваша работа будет напрямую влиять на надежность платформы и эффективность эксплуатационных процессов.

Чем предстоит заниматься:

Развивать и поддерживать систему observability: сбор метрик, логов и алертов
Анализировать инциденты и проводить post-mortem для повышения надежности
Обеспечивать высокую доступность и отказоустойчивость инфраструктуры
Автоматизировать рутинные операции с использованием Infrastructure as Code
Настраивать и поддерживать Kubernetes-кластеры и сопутствующие сервисы
Взаимодействовать с командой DevOps и инженеров
Участвовать в планировании и внедрении новых сервисов и компонентов

Что мы предлагаем:

Участие в масштабных проектах в одной из крупнейших банковских организаций
Возможность работать с передовыми технологиями и инструментами
Дружелюбная и профессиональная команда

Обязанности

Развитие и поддержка системы собранной информации о работоспособности систем, включая метрики и логи
Анализ инцидентов с последующим проведением пост-мортемы для повышения надежности платформы
Обеспечение высокой доступности и устойчивости инфраструктуры
Автоматизация эксплуатационных процессов и рутинных операций с использованием Infrastructure as Code
Настройка и поддержка кластеров Kubernetes и сопутствующих сервисов
Поддержка Linux-серверов и системного ПО
Взаимодействие с командой DevOps и инженерной группой
Разработка скриптов и их автоматизация с использованием Python и Go
Участие в планировании и внедрении новых компонентов и сервисов
Совершенствование процессов мониторинга и алертинга

Требования

Опыт работы SRE / Platform / Infrastructure Engineer от 5 лет
Опыт эксплуатации Kubernetes в production
Работа с Linux-серверами и системным ПО
Опыт работы с системами мониторинга и логирования
Автоматизация инфраструктуры (Infrastructure as Code, Ansible, Terraform)
Навыки программирования на Python, знание Go — преимущество
Анализ инцидентов и проведение post-mortem
Понимание микросервисной архитектуры
Высшее техническое образование

Главный SRE-инженер

О компании

О вакансии

Обязанности

Требования

Похожие вакансии