Data Quality Engineer/Analyst в Портал продавцов
Компания: Wildberries
Локация: Москва
О компании
Wildberries — это международная технологическая компания, образованная в результате слияния двух лидеров рынка: IT-компании Wildberries и оператора наружной рекламы Russ. Портал продавцов является подразделением, которое предлагает все продукты для продавцов, включая личные кабинеты, загрузку контента, поисковые и каталогизационные функции, биллинг, оформление товаров и аналитику.
Компания обслуживает более 1 миллиона поставщиков и обеспечивает ежедневный оборот около 5 миллиардов рублей. В рамках направления Core DE/DQ мы занимаемся созданием озера данных, необходимого для поддержки бизнес-решений. В связи с активным ростом и расширением функционала, мы ищем Data Quality Engineer.
О вакансии
Команда, в которой открыт данный набор, занимается проектированием ETL-процессов с использованием технологий Airflow и Spark, направленных на обеспечение высоких стандартов качества данных. Сервисные позиции в этой области требуют тесного взаимодействия с аналитиками, инженерами и командами машинного обучения для обеспечения необходимого качества и актуальности данных.
Мы также разрабатываем методологии мониторинга качества данных, включая измерения и дашборды для визуализации метрик Data Quality. Важным аспектом работы является автоматизация проверок данных и участие в координации исправлений инцидентов, что позволяет поддерживать высокий уровень качества в данных, которые используются для управления бизнес-процессами.
Чем предстоит заниматься:
- Участвовать в проектировании ETL-процессов с использованием Airflow и Spark
- Выработать методологию мониторинга качества данных, включая дашборды и алерты
- Улучшать фреймворк Data Quality и развивать каталог данных
- Автоматизировать проверки данных и их интеграцию в пайплайны
- Проводить анализ инцидентов с данными и координировать их исправления
- Взаимодействовать с внутренними командами аналитиков и инженеров
Что мы предлагаем:
- Участие в интересных проектах с использованием передовых технологий
- Возможность профессионального роста в динамично развивающейся компании
- Конкурентоспособная оплата труда и социальные гарантии
Обязанности
- Участие в проектировании ETL-процессов с использованием Airflow и Spark
- Разработка методологии мониторинга качества данных
- Улучшение фреймворка Data Quality
- Поддержка актуальности метаданных и каталога данных
- Автоматизация проверок данных и интеграция в пайплайны
- Анализ инцидентов с данными и координация их исправлений
- Взаимодействие с командами аналитиков и инженеров
Требования
- Все вакансии
- Попасть в команду
- Строительство
- Сервисные позиции
- Все вакансии
- Попасть в команду
- Строительство
- Сервисные позиции
- участвовать в проектировании ETL-процессов (Airflow, Spark) с учетом best practices data quality;
- выработать методологию мониторинга качества данных (DQ metrics, дашборды, алерты);
- улучшать Data Quality фреймворк;
- развивать каталог данных и поддерживать актуальность метаданных;
- автоматизировать проверки данных, в том числе их интеграции в пайплайны;
- проводить анализ инцидентов с данными и координировать их исправления;
- взаимодействовать с заказчиками: команды аналитиков, инженеров и ML.
- опыт в Data Quality / Data Observability от 2+ лет;
- продвинутый SQL (оптимизация, оконные функции);
- продвинутый Python (Pandas, PySpark), в т. ч.
- опыт с оркестраторами;
- знание подходов к тестированию данных (unit, integration, regression tests);