Как наши кластеры оказались в топе суперкомпьютеров

preview_player
Показать описание
Из доклада вы узнаете краткую историю кластеров для обучения нейронных сетей в Яндексе:

— Зачем они нам понадобились?
— Что такое современный HPC и почему это не просто объединение нескольких сотен серверов?
— Способы создания HPC и почему Яндекс выбрал наиболее трудный.

Поговорим о борьбе за производительность:

— Почему такие кластеры, как у нас, не работают «из коробки»?
— Как мы оптимизировали производительность одного узла от 30 TFlops до 110 TFlops.
— Как мы масштабировали производительность на 200 узлов, получив в сумме 21.6 PFlops.

Также мы подробно расскажем о том, что представляет из себя распределённое обучение, и почему это сложно; и поделимся 10 правилами, без которых GPU-кластеры никогда не окупятся и будут просто дорогой игрушкой.
Рекомендации по теме
Комментарии
Автор

Why didn't your talk about it in English

ggsmat