Разработчик инфраструктуры LLM
Компания: Яндекс
О компании
Яндекс — одна из ведущих технологических компаний в России, активно внедряющая инновационные решения в различных областях, включая поисковые технологии и машинное обучение. Она предлагает широкий спектр продуктов и услуг, от облачных технологий до адаптивной рекламы и виртуальных ассистентов.
Яндекс постоянно стремится улучшать свои алгоритмы и инфраструктуру, чтобы обеспечивать пользователям высокий уровень сервиса и доступности. Команда разработки инференса LLM фокусируется на оптимизации и улучшении инфраструктуры для обработки больших моделей.
О вакансии
Команда, занимающаяся разработкой инфраструктуры для инференса LLM, решает сложные задачи, связанные с обеспечением высокой доступности и минимального времени отклика сервиса. Работа включает в себя оптимизацию движков инференса, что напрямую влияет на производительность и качество приложения.
Ваша основная задача будет заключаться в снижении задержек при выполнении инференса на GPU, что требует комплексного подхода к разработке и масштабированию решений.
Вы также будете заниматься созданием и улучшением инструментов для диагностики и устранения проблем, влияющих на стабильность системы, а также применять современные методы оптимизации и параллелизации алгоритмов.
Чем предстоит заниматься:
- Оптимизация инференсных движков для повышения их эффективности
- Создание инструментов для диагностики и устранения инфраструктурных проблем
- Исследование и внедрение методов оптимизации (квантование, прунинг)
- Применение подходов к параллелизации алгоритмов
Что мы предлагаем:
- Участие в инновационных проектах с использованием LLM и современных технологий
- Доступ к ресурсам для профессионального роста и обмена знаниями
Обязанности
- Оптимизация инференсных движков для повышения их производительности
- Снижение задержек при выполнении LLM-инференса на GPU
- Создание и улучшение инструментов для диагностики проблем
- Работа с методами оптимизации инференса, такими как квантование и прунинг
- Исследование современных подходов к параллелизации