SRE менеджер
Компания: Альфа-Банк
Локация: Москва
О компании
Альфа-Банк — один из крупнейших банков в России, предоставляющий широкий спектр финансовых услуг как для частных, так и для корпоративных клиентов. Банк активно развивает различные цифровые решения и сервисы, применяя современные технологии для оптимизации своих процессов и улучшения клиентского опыта.
Ключевые факты:
- Основан в 1990 году
- Один из лидеров по количеству активных клиентов
- Предоставляет услуги программного обеспечения и IT-решения для финансового сектора
О вакансии
В команде SRE Альфа-Банка вы будете заниматься обеспечением надежности и стабильности микросервисных систем, развернутых в Kubernetes. Основные ваши задачи будут заключаться в развитии и внедрении инструментов мониторинга, а также в оптимизации производительности и доступности продуктов.
Вы будете взаимодействовать с различными командами, внедряя лучшие практики SRE и участвуя в анализе инцидентов для устранения корневых причин сбоев. Также вам предстоит работать с клиентскими приложениями, обеспечивая их стабильное функционирование.
Чем предстоит заниматься:
- Разработка и внедрение средств мониторинга и анализа работы продуктовых систем
- Контроль и внедрение SLA/SLO/SLI для сервисов
- Реакция на инциденты и участие в постмортемах
- Устранение корневых причин сбоев и повышение стабильности систем
- Оптимизация производительности и доступности продукта
Что мы предлагаем:
- Возможность работать в динамичной и инновационной среде
- Широкий перечень проектов с применением современных технологий
- Доступ к обучению и профессиональному развитию
Обязанности
- Разрабатывать и интегрировать средства мониторинга для систем
- Контролировать и внедрять SLA/SLO/SLI для сервисов
- Реагировать на инциденты и участвовать в их анализе
- Устранять корневые причины сбоев в системах
- Оптимизировать производительность и доступность сервисов
- Снижать задержки и анализировать нагрузку сервисов
- Обеспечивать горизонтальное и вертикальное масштабирование
- Оптимизировать архитектуру для обеспечения отказоустойчивости
- Внедрять практики SRE в команды разработки и поддержки
Требования
- Глубокое понимание принципов SRE и системного сопровождения
- Опыт стабилизации и оптимизации микросервисных систем, развернутых в Kubernetes
- Опыт работы с инструментами мониторинга и логирования: Prometheus, Grafana, ELK
- Опыт работы с PostgreSQL, MongoDB, ElasticSearch, Kafka, Redis
- Опыт работы с клиентскими приложениями