Семинар «Как съесть слона: обучение гигантских трансформерных моделей»

preview_player
Показать описание
Нейросетевые трансформерные модели: GPT-3, ruGPT-3, T5/mT5, Switch Transformer, их обучение и использование. Особенности применения фреймворка Deep Speed. Тесты GLUE/SuperGLUE/Russian SuperGLUE. Создание систем машинного обучения/искусственного интеллекта на основе трансформерных моделей. Лекции Сергея Маркова, Татьяны Шавриной, Олега Шляжко, Александра Кукушкина.

00:00 Регламент, XL, Excel и ML
12:31 Сергей Марков, GPT-3 и другие гигантские трансформерные модели
1:24:58 Олег Шляжко, Optimizing Large-Scale GPT Model Pretraining
2:21:16 Татьяна Шаврина, Подходы к оценке и интерпретации результатов работы трансформерных моделей
3:01:14 Александр Кукушкин, MOROCCO — скорость и размер моделей Russian SuperGLUE
Рекомендации по теме