Разработчик на Python в команду Warden
Компания: Яндекс
Локация: Санкт-Петербург
О компании
Яндекс — один из крупнейших IT-гигантов в России, предоставляющий широкий спектр интернет-сервисов и технологий. Компания активно развивает направления от поиска и рекламы до такси и доставки. Сервис Кинопоиск, функционал Алисы и другие продукты становятся основой для инноваций и стабильности пользователей.
Ключевые факты:
- Год основания: 1997
- Доля на рынке поисковых систем в России: около 60%
- Ежемесячная аудитория: более 50 миллионов пользователей
- Команда состоит из более чем 30 000 сотрудников
О вакансии
Команда Warden занимается развитием внутренней платформы для управления инцидентами, обеспечивающей стабильность различных сервисов компании Яндекс. Платформа активно расширяется, и в последние полгода её ежедневное использование выросло на 25%. Цель команды заключается в выходе на внешний рынок с этой системой как самостоятельным продуктом.
Вы будете работать над автоматизацией процессов устранения инцидентов и созданием инструментов для мониторинга и анализа ошибок. В Warden развёрнуто 10 микросервисов, среди которых чат-бот, активно используемый более чем 3000 сотрудниками Яндекса. Это проект, который требует от разработчиков конструктивного подхода к решению задач и позволяет значительно влиять на общую стабильность сервисов компании.
Чем предстоит заниматься:
- Создавать надёжный распределённый сервис, способный пережить падение двух дата-центров
- Развивать систему, обслуживающую миллионы инстансов сервисов Яндекса
- Работать с алгоритмами консенсуса для повышения надёжности
- Принимать участие в разработке функционала для различных классов сервисов, таких как Поиск, Музыка и Такси
Что мы предлагаем:
- Участие в проекте с высоким импактом на всю компанию
- Работа в команде единомышленников, активно развивающих новые технологии
Обязанности
- Разрабатывать распределённый сервис, сохраняющий работоспособность при сбоях
- Повышать надёжность сервисов за счёт работы с алгоритмами консенсуса
- Создавать инструменты для мониторинга инцидентов и состояния сервисов
- Обеспечивать доступность сервисов на уровне 99.9999%