Руководитель команды CUDA-инференса в Автономный транспорт
Компания: Яндекс
Локация: Санкт-Петербург
О компании
Яндекс — один из крупнейших IT-гигантов в России, предоставляющий широкий спектр онлайн-сервисов и продуктов. Основная специализация компании включает поисковые технологии, облачные решения, финтек и автономные технологии. В последние годы Яндекс активно развивает направление автономного транспорта, внедряя передовые технологии в практику.
Ключевые факты:
- Основан в 1997 году
- Более 10 000 сотрудников
- Порядка 20 сервисов, включая Яндекс.Такси, Яндекс.Маркет, Яндекс.Еду
- Лидер на рынке поисковых технологий в России
- Одно из крупнейших инвестиционных сообществ в Европе
О вакансии
В команде, занимающейся автономным транспортом в Яндексе, вы будете отвечать за развитие и оптимизацию CUDA-инференса. Ваше руководство будет иметь решающее значение для достижения целей по внедрению эффективного и высокопроизводительного вычислительного процесса на GPU и других ускорителях.
Команда работает над проектами, связанными с низкоуровневой оптимизацией, акцентируя внимание на разработке вычислительных ядер и достижении ощутимых улучшений в производительности. Общая цель команды — сделать автономные технологии более эффективными и надежными.
Чем предстоит заниматься:
- Руководство группой по CUDA-оптимизации инференса
- Проектирование и оптимизация CUDA-kernel
- Системный анализ bottleneck с помощью профилировщиков
Что мы предлагаем:
- Расширенная медицинская страховка с первого месяца
- Оплата 80% ДМС для родственников
- Возможность заниматься спортом в корпоративных спортзалах
- Гибкий график работы
- Льготные жилищные займы для сотрудников
Обязанности
- Руководить командой по CUDA-оптимизации инференса
- Проектировать и оптимизировать CUDA-kernel для моделей
- Системно анализировать bottleneck с использованием профилировщиков
- Аргументировать оптимизационные решения в кросс-командной среде
- Обеспечивать техническое лидерство и управление командой
Требования
- Имеете сильный опыт CUDA performance engineering
- Работали с kernel для matmul/conv/attention
- Хорошо знаете C++
- Понимаете memory hierarchy GPU и cost model вычислительных операций
- Умеете находить bottleneck через профилирование и доводить оптимизации до измеримого ускорения
- Способны на техническое лидерство или управление командой
- Умеете аргументировать performance-решения и работать в кросс-командной среде
- Работали с CUTLASS / Triton / кастомными inference-движками
- Оптимизировали модели под конкретные GPU-архитектуры
- Работали с quantization / mixed precision
- Строили roofline-модели или latency/bandwidth-оценки
- Знаете о fusion-подходах и graph-level оптимизациях
- психотерапия в офисе или онлайн-сервисах;
- лазерная коррекция зрения через год работы;
- ведение беременности и роды — через два года.
Условия
- Расширенная медицинская страховка с первого месяца
- Оплата 80% стоимости ДМС для родственников
- Корпоративные спортзалы и спортивные команды
- Гибкий график работы
- Льготные жилищные займы