MLOPS
Компания: Wildberries
Локация: Москва
О компании
Wildberries — это международная технологическая компания, образовавшаяся в результате слияния известной IT-компании Wildberries и оператора наружной рекламы Russ. Компания занимает лидирующие позиции на рынке и активно работает в сфере e-commerce и технологических решений, предлагая разнообразные продукты для улучшения клиентского опыта.
Мы являемся командой ML в финансовых продуктах Wildberries, занимающейся созданием масштабных end-to-end решений в области машинного обучения и разработкой высоконагруженной ML-инфраструктуры для обработки более 100 миллионов клиентов ежедневно.
О вакансии
В нашей команде MLOps вы будете заниматься решением сложных задач инфраструктуры на стыке больших данных и MLOps. Основное внимание будет уделяться обеспечению эффективности работы дата пайплайнов и offline ML-сервисов, а также взаимодействию с командами MLE, backend и DevOps.
Ваша работа будет направлена на развертывание и поддержку инфраструктуры ML/AI, а также на управление ресурсами на кластерах с CPU и GPU.
Чем предстоит заниматься:
- Разворачивать и поддерживать инфраструктуру ML/AI с использованием наборов инструментов, таких как Airflow, Kubeflow, MLFlow и других.
- Настраивать и администрировать базы данных, включая PostgreSQL и Milvus.
- Управлять ресурсами кластера на CPU и GPU.
- Интегрировать различные составляющие MLOps и DevOps в единую инфраструктуру.
- Настраивать мониторинг и алертинг для инструментов MLOps с помощью Prometheus и Grafana.
Что мы предлагаем:
- Участие в уникальных проектах на стыке Big Data и MLOps.
- Работа в сильной команде профессионалов, нацеленных на результат.
Обязанности
- Разворачивать и поддерживать ML/AI инфраструктуру.
- Настраивать и администрировать базы данных (PostgreSQL, Milvus).
- Управлять ресурсами на кластерах с CPU и GPU.
- Интегрировать инфраструктуру ML и DevOps.
- Обеспечивать надежность и доступность инструментов MLOps.
- Настраивать мониторинг и алертинг с помощью Prometheus и Grafana.
- Прорабатывать MLOps процессы, включая CI/CD и детекцию дрейфа.
- Работать с инструментами ML, такими как Airflow и Kubeflow.
- Иметь опыт в деплое/администрировании баз данных и Grafana.
Требования
- Все вакансии
- Попасть в команду
- Строительство
- Сервисные позиции
- Все вакансии
- Попасть в команду
- Строительство
- Сервисные позиции
- Разворачивать и поддерживать инфраструктуру ML/AI: Airflow/Kubeflow, MLFlow/ClearML, Triton, Langfuse, vLLM, Ray, Feast;
- Настраивать и администрировать базы данных (PostgreSQL, Milvus или другие векторные БД);
- Управлять ресурсами на кластерах с CPU и GPU;
- Интегрировать ml и devops инфраструктуру;
- Управлять ml инструментарием, обеспечивать надежность и доступность;
- Настраивать мониторинг и алертинг инструментов mlops и ресурсов (Prometheus, Grafana);
- Прорабатывать mlops процессы (ci\cd\retrain\drift detection.
- Есть опыт работы в DevOps не менее 5 лет;
- Знаете Linux, имеете отличное представление о работе kubernetes;
- Имеете опыт деплоя инструментов ds, ml, genai инженеров (airflow/kubeflow, mlflow, clearml, triton, langfuse, vLLM);
- Имеете опыт деплоя/администрирования баз данных (PostgreSQL, Milvus или других векторных БД);
- Имеете опыт работы Grafana и OpenSearch\Elasticsearch;