Леонид Синев, Владислав Ветров - Ускорение больших генеративных моделей в NLP
— презентация
Large generative language models speedup optimization
Современные языковые модели — большие, мощные, но неторопливые. Обзор классических подходов к сжатию моделей. Практический опыт ускорения генеративных языковых моделей типа ruGPT-3 при помощи фреймворков ONNX Runtime, Deepspeed, FasterTransformer. Ускорение моделей за счёт архитектурных изменений. Размещение одной модели по нескольким GPU
Data Fest 2023:
Трек “NLP“:
Наши соц.сети:
Telegram:
Вконтакте: