Руководитель команды CUDA-инференса в Автономный транспорт

Компания: Яндекс

Локация: Санкт-Петербург

О компании

Яндекс — один из крупнейших IT-гигантов в России, предоставляющий широкий спектр онлайн-сервисов и продуктов. Основная специализация компании включает поисковые технологии, облачные решения, финтек и автономные технологии. В последние годы Яндекс активно развивает направление автономного транспорта, внедряя передовые технологии в практику.

Ключевые факты:

Основан в 1997 году
Более 10 000 сотрудников
Порядка 20 сервисов, включая Яндекс.Такси, Яндекс.Маркет, Яндекс.Еду
Лидер на рынке поисковых технологий в России
Одно из крупнейших инвестиционных сообществ в Европе

О вакансии

В команде, занимающейся автономным транспортом в Яндексе, вы будете отвечать за развитие и оптимизацию CUDA-инференса. Ваше руководство будет иметь решающее значение для достижения целей по внедрению эффективного и высокопроизводительного вычислительного процесса на GPU и других ускорителях.

Команда работает над проектами, связанными с низкоуровневой оптимизацией, акцентируя внимание на разработке вычислительных ядер и достижении ощутимых улучшений в производительности. Общая цель команды — сделать автономные технологии более эффективными и надежными.

Чем предстоит заниматься:

Руководство группой по CUDA-оптимизации инференса
Проектирование и оптимизация CUDA-kernel
Системный анализ bottleneck с помощью профилировщиков

Что мы предлагаем:

Расширенная медицинская страховка с первого месяца
Оплата 80% ДМС для родственников
Возможность заниматься спортом в корпоративных спортзалах
Гибкий график работы
Льготные жилищные займы для сотрудников

Обязанности

Руководить командой по CUDA-оптимизации инференса
Проектировать и оптимизировать CUDA-kernel для моделей
Системно анализировать bottleneck с использованием профилировщиков
Аргументировать оптимизационные решения в кросс-командной среде
Обеспечивать техническое лидерство и управление командой

Требования

Имеете сильный опыт CUDA performance engineering
Работали с kernel для matmul/conv/attention
Хорошо знаете C++
Понимаете memory hierarchy GPU и cost model вычислительных операций
Умеете находить bottleneck через профилирование и доводить оптимизации до измеримого ускорения
Способны на техническое лидерство или управление командой
Умеете аргументировать performance-решения и работать в кросс-командной среде
Работали с CUTLASS / Triton / кастомными inference-движками
Оптимизировали модели под конкретные GPU-архитектуры
Работали с quantization / mixed precision
Строили roofline-модели или latency/bandwidth-оценки
Знаете о fusion-подходах и graph-level оптимизациях
психотерапия в офисе или онлайн-сервисах;
лазерная коррекция зрения через год работы;
ведение беременности и роды — через два года.

Условия

Расширенная медицинская страховка с первого месяца
Оплата 80% стоимости ДМС для родственников
Корпоративные спортзалы и спортивные команды
Гибкий график работы
Льготные жилищные займы