Wildberries

SRE (Databus)

МоскваУдалённоудаленная работаот 3 лет

О компании

Wildberries — это международная технологическая компания, возникшая в результате объединения IT-компании Wildberries и оператора наружной рекламы Russ. Компания занимает ведущие позиции на рынке благодаря своим инновационным решениям и широкому спектру услуг, предоставляемых своим клиентам.

С момента своего основания Wildberries зарекомендовала себя как сильный игрок в сфере e-commerce, предлагая качественные продукты и услуги, а также высокие стандарты обслуживания клиентов.

Ключевые факты:

Лидер на рынке e-commerce
Международные горизонты бизнеса
Инновационные технологии и решения
Большое количество клиентов по всему миру
Слияние с ведущим оператором наружной рекламы

О вакансии

Команда SRE (Site Reliability Engineering) в Wildberries отвечает за поддержку и развитие надежности сервисов компании. Она активно взаимодействует с другими командами для улучшения observability и общего качества предоставляемых услуг.

Роль SRE включает строительство и внедрение современных практик, направленных на достижение высоких стандартов надежности и доступности систем. Это важный элемент для обеспечения успешного функционирования компании в условиях быстро меняющегося рынка.

Чем предстоит заниматься:

Обеспечивать надежность и доступность сервисов (SLA/SLO)
Анализировать и устранять узкие места в инфраструктуре
Разрабатывать и внедрять SRE-практики, включая error budgets и postmortems
Управлять аллертами и снижать уровень шума с помощью Alertmanager и Grafana
Оптимизировать работу BigData-кластеров (Kafka, ClickHouse, Flink)
Автоматизировать реагирование на инциденты
Сотрудничать с Dev-командами для повышения observability

Что мы предлагаем:

Участие в высокотехнологичных проектах
Работа в команде профессионалов
Возможности для роста и развития в сфере SRE и DevOps

Обязанности

Обеспечивать надежность и доступность сервисов (SLA/SLO)
Анализировать и устранять узкие места в инфраструктуре
Разрабатывать и внедрять SRE-практики, такие как error budgets и postmortems
Управлять аллертами и снижать уровень шума с помощью Alertmanager и Grafana
Оптимизировать работу BigData-кластеров, включая Kafka, ClickHouse и Flink
Автоматизировать реагирование на инциденты
Сотрудничать с Dev-командами для улучшения observability

Требования

Все вакансии
Попасть в команду
Строительство
Сервисные позиции
Все вакансии
Попасть в команду
Строительство
Сервисные позиции
Обеспечивать надежность и доступность сервисов (SLA/SLO);
Анализировать и устранять узких места в инфраструктуре;
Разрабатывать и внедрять SRE-практики: error budgets, postmortems;
Управлять аллертами и снижать уровень шума (Alertmanager, Grafana);
Оптимизировать работу BigData-кластеров (Kafka, ClickHouse, Flink);
Автоматизировать реагирования на инциденты;
Тесно взаимодействовать с Dev-командами для улучшения observability.
Опыт в SRE/DevOps от 3 лет;
Глубокое понимание SRE-принципов;
Навыки работы с Kubernetes и распределенными системами;
Опыт настройки и анализа метрик/логов (PromQL, Loki, Elasticsearch);
Умение писать код для автоматизации (Python, Go, Bash);

SRE (Databus)

О компании

О вакансии

Обязанности

Требования

Похожие вакансии