Разработчик мультимодальных VLM (visual language models)
Компания: Яндекс
О компании
Яндекс — одна из ведущих IT-компаний России, занимающаяся разработкой разнообразных интернет-сервисов и технологий. Ведущая в области поисковых технологий и искусственного интеллекта, Яндекс активно развивает направления, связанные с глубоким обучением и обработкой данных. Команда занимается созданием инновационных продуктов, включая мультимодальные модели, которые объединяют текстовую и визуальную информацию для достижения качественного результата в задачах компьютерного зрения и обработки языка. Это позволяет компании занять сильные позиции на рынке AI-технологий в России и за ее пределами.
О вакансии
В команде компьютерного зрения Яндекса разрабатываются визуально-текстовые мультимодальные модели (VLM), которые позволяют комбинировать текстовую информацию с изображениями. Мы ищем разработчиков начального уровня, готовых участвовать в создании нейросетей нового поколения и доводить их до состояния готового продукта на основе глубокого обучения.
Вы будете заниматься обучением моделей и их внедрением в продакшен, следя за последними достижениями в области компьютерного зрения и обработки естественного языка. Наша команда активно изучает современные архитектуры моделей, такие как ViT и ConvNeXt, применяя их для разработки новых решений.
Чем предстоит заниматься:
- Разрабатывать и обучать мультимодальные модели на основе нового поколения нейросетей.
- Участвовать в интеграции решений в продакшен.
- Исследовать и тестировать современные архитектуры нейронных сетей.
Что мы предлагаем:
- Участие в инновационных проектах в области глубокого обучения.
- Возможность работать в команде экспертов и повышать свои профессиональные навыки.
Обязанности
- Разработка мультимодальных моделей на основе нейросетей.
- Обучение моделей глубокого обучения.
- Внедрение решений в продакшен.
- Анализ современных архитектур нейронных сетей.
- Исследование новых решений в компьютерном зрении и обработке языка.