Разработчик мультимодальных VLM (visual language models)

Компания: Яндекс

О компании

Яндекс — одна из ведущих IT-компаний России, занимающаяся разработкой разнообразных интернет-сервисов и технологий. Ведущая в области поисковых технологий и искусственного интеллекта, Яндекс активно развивает направления, связанные с глубоким обучением и обработкой данных. Команда занимается созданием инновационных продуктов, включая мультимодальные модели, которые объединяют текстовую и визуальную информацию для достижения качественного результата в задачах компьютерного зрения и обработки языка. Это позволяет компании занять сильные позиции на рынке AI-технологий в России и за ее пределами.

О вакансии

В команде компьютерного зрения Яндекса разрабатываются визуально-текстовые мультимодальные модели (VLM), которые позволяют комбинировать текстовую информацию с изображениями. Мы ищем разработчиков начального уровня, готовых участвовать в создании нейросетей нового поколения и доводить их до состояния готового продукта на основе глубокого обучения.

Вы будете заниматься обучением моделей и их внедрением в продакшен, следя за последними достижениями в области компьютерного зрения и обработки естественного языка. Наша команда активно изучает современные архитектуры моделей, такие как ViT и ConvNeXt, применяя их для разработки новых решений.

Чем предстоит заниматься:

Что мы предлагаем:

Обязанности