Разработчик мультимодальных VLM (visual language models)

Компания: Яндекс

О компании

Яндекс — одна из ведущих IT-компаний России, занимающаяся разработкой разнообразных интернет-сервисов и технологий. Ведущая в области поисковых технологий и искусственного интеллекта, Яндекс активно развивает направления, связанные с глубоким обучением и обработкой данных. Команда занимается созданием инновационных продуктов, включая мультимодальные модели, которые объединяют текстовую и визуальную информацию для достижения качественного результата в задачах компьютерного зрения и обработки языка. Это позволяет компании занять сильные позиции на рынке AI-технологий в России и за ее пределами.

О вакансии

В команде компьютерного зрения Яндекса разрабатываются визуально-текстовые мультимодальные модели (VLM), которые позволяют комбинировать текстовую информацию с изображениями. Мы ищем разработчиков начального уровня, готовых участвовать в создании нейросетей нового поколения и доводить их до состояния готового продукта на основе глубокого обучения.

Вы будете заниматься обучением моделей и их внедрением в продакшен, следя за последними достижениями в области компьютерного зрения и обработки естественного языка. Наша команда активно изучает современные архитектуры моделей, такие как ViT и ConvNeXt, применяя их для разработки новых решений.

Чем предстоит заниматься:

Разрабатывать и обучать мультимодальные модели на основе нового поколения нейросетей.
Участвовать в интеграции решений в продакшен.
Исследовать и тестировать современные архитектуры нейронных сетей.

Что мы предлагаем:

Участие в инновационных проектах в области глубокого обучения.
Возможность работать в команде экспертов и повышать свои профессиональные навыки.

Обязанности

Разработка мультимодальных моделей на основе нейросетей.
Обучение моделей глубокого обучения.
Внедрение решений в продакшен.
Анализ современных архитектур нейронных сетей.
Исследование новых решений в компьютерном зрении и обработке языка.