SRE (Databus)
Компания: Wildberries
Локация: Москва
О компании
Wildberries — это международная технологическая компания, возникшая в результате объединения IT-компании Wildberries и оператора наружной рекламы Russ. Компания занимает ведущие позиции на рынке благодаря своим инновационным решениям и широкому спектру услуг, предоставляемых своим клиентам.
С момента своего основания Wildberries зарекомендовала себя как сильный игрок в сфере e-commerce, предлагая качественные продукты и услуги, а также высокие стандарты обслуживания клиентов.
Ключевые факты:
- Лидер на рынке e-commerce
- Международные горизонты бизнеса
- Инновационные технологии и решения
- Большое количество клиентов по всему миру
- Слияние с ведущим оператором наружной рекламы
О вакансии
Команда SRE (Site Reliability Engineering) в Wildberries отвечает за поддержку и развитие надежности сервисов компании. Она активно взаимодействует с другими командами для улучшения observability и общего качества предоставляемых услуг.
Роль SRE включает строительство и внедрение современных практик, направленных на достижение высоких стандартов надежности и доступности систем. Это важный элемент для обеспечения успешного функционирования компании в условиях быстро меняющегося рынка.
Чем предстоит заниматься:
- Обеспечивать надежность и доступность сервисов (SLA/SLO)
- Анализировать и устранять узкие места в инфраструктуре
- Разрабатывать и внедрять SRE-практики, включая error budgets и postmortems
- Управлять аллертами и снижать уровень шума с помощью Alertmanager и Grafana
- Оптимизировать работу BigData-кластеров (Kafka, ClickHouse, Flink)
- Автоматизировать реагирование на инциденты
- Сотрудничать с Dev-командами для повышения observability
Что мы предлагаем:
- Участие в высокотехнологичных проектах
- Работа в команде профессионалов
- Возможности для роста и развития в сфере SRE и DevOps
Обязанности
- Обеспечивать надежность и доступность сервисов (SLA/SLO)
- Анализировать и устранять узкие места в инфраструктуре
- Разрабатывать и внедрять SRE-практики, такие как error budgets и postmortems
- Управлять аллертами и снижать уровень шума с помощью Alertmanager и Grafana
- Оптимизировать работу BigData-кластеров, включая Kafka, ClickHouse и Flink
- Автоматизировать реагирование на инциденты
- Сотрудничать с Dev-командами для улучшения observability
Требования
- Все вакансии
- Попасть в команду
- Строительство
- Сервисные позиции
- Все вакансии
- Попасть в команду
- Строительство
- Сервисные позиции
- Обеспечивать надежность и доступность сервисов (SLA/SLO);
- Анализировать и устранять узких места в инфраструктуре;
- Разрабатывать и внедрять SRE-практики: error budgets, postmortems;
- Управлять аллертами и снижать уровень шума (Alertmanager, Grafana);
- Оптимизировать работу BigData-кластеров (Kafka, ClickHouse, Flink);
- Автоматизировать реагирования на инциденты;
- Тесно взаимодействовать с Dev-командами для улучшения observability.
- Опыт в SRE/DevOps от 3 лет;
- Глубокое понимание SRE-принципов;
- Навыки работы с Kubernetes и распределенными системами;
- Опыт настройки и анализа метрик/логов (PromQL, Loki, Elasticsearch);
- Умение писать код для автоматизации (Python, Go, Bash);