SRE / Эксперт по обеспечению надежности
Компания: ПАО МТС-Банк
Локация: Москва
О компании
ПАО МТС-Банк является одним из крупных банков в России, предлагающим широкий спектр финансовых услуг для клиентов и бизнеса. Банк активно внедряет современные технологии и совершенствует свои продукты, чтобы удовлетворять потребности пользователей.
Ключевые факты:
- Основан в 1992 году
- Более 10 миллионов клиентов
- Широкий ассортимент банковских услуг и продуктов
- Использует современные IT-решения для улучшения качества обслуживания
О вакансии
Команда обеспечения надежности (SRE) в ПАО МТС-Банк занимается внедрением практик SRE на уровне продуктов и систем. Специалисты работают над повышением надежности и наблюдаемости сервисов, что критически важно для эффективной работы банка. Взаимодействуя с продуктовыми командами, они создают и контролируют нефункциональные требования, обеспечивая тем самым высокое качество ИТ-услуг.
В этой роли вы будете реализовывать методики диагностики и разрабатывать эксплуатационные инструкции, а также обучать команду L1 и L2. Основная задача заключается в постоянном улучшении метрик reliability, monitoring, а также выстраивании процессов управления уровнями сервиса на основе SLA/SLO/SLI.
Чем предстоит заниматься:
- Внедрять практики SRE на уровне продуктов и систем банка
- Формировать и контролировать реализацию нефункциональных требований к доработкам
- Прорабатывать и описывать методики диагностики, подготавливать эксплуатационные инструкции, обучать L1 и L2
- Улучшать метрики надежности, наблюдаемости в продуктах/системах совместно с продуктовыми командами или администраторами
- Выстраивать процессы управления уровнем сервиса на основе SLA/SLO/SLI
- Обеспечивать формирование планов по обеспечению непрерывности и катастрофоустойчивости
- Выявлять проблемы по метрикам и логам
- Устранять аварии, выявлять причины и подготавливать Postmortem-отчеты
- Проводить анализ ИТ-решений и взаимодействовать с командами при их интеграции
Что мы предлагаем:
- Работу в крупном российском банке
- Участие в развитии современных IT-практик
Обязанности
- внедрять практики SRE на уровне продуктов и систем банка
- формировать и контролировать реализацию нефункциональных требований к доработкам
- разрабатывать методики диагностики и эксплуатационные инструкции
- обучать L1 и L2
- улучшать метрики надежности и наблюдаемости совместно с командами
- выстраивать процессы управления уровнем сервиса на основе SLA/SLO/SLI
- обеспечивать планы по непрерывности и катастрофоустойчивости
- выявлять проблемы и дефекты по метрикам и логам
- устранять аварии и составлять Postmortem-отчёты
- проводить анализ ИТ-решений и взаимодействовать с командами
Требования
- опыт внедрения практик и инструментов SRE практический опыт локализации проблем и устранения инцидентов в больших и сложных системах опыт разработки SLA/SLI/SLO и знание принципов их формирования; умение работать с высоконагруженными сервисами знание принципов и методов обеспечения качества и надёжности ИТ сервисов уверенные навыки работы в Grafana – создание дашбордов, настройка Alerting опыт работы с ELK (запросы, визуализация, дашборды) навыки работы в ОС Linux, в том числе опыт написания bash-скриптов понимание жизненного цикла ИТ-продуктов опыт участия в ИТ-проектах или работы в продуктовых командах (взаимодействие с аналитиками, разработчиками, QA) высшее техническое образование