SOTA методы в распознавании речи и библиотека NVIDIA NeMo (Денис Тимонин)

preview_player
Показать описание
Летняя школа по финтеху факультета компьютерных наук НИУ ВШЭ.

Докладчик: Денис Тимонин, AI Soultions Architect, NVIDIA.

20 июля 2021

Рекомендации по теме
Комментарии
Автор

00:00 общее введение
2:57 что такое ASR
4:00 список материалов про SOTA ASR
6:40 что такое NeMo
8:16 зачем нам NeMo
9:04 из чего он состоит
13:30 какие возможности предоставляет
16:05 ASR pipeline
18:13 обучение в NeMo - верхнеуровневый код
19:30 mix precision, CUDA ядра
22:52 конфиг модели
24:09 типизация в NeMo
25:11 верхнеуровнево про процесс обучения
27:35 аугментация в препроцессинге
31:50 библиотека Dali
32:52 список доступных ASR моделей для распознавания речи
34:55 список моделей для классификации и детекции речи
36:20 список моделей для классификации человека по речи

Архитектура:
распознавание:
38:00 Jasper
40:50 QuartzNet
43:35 Citrinet
44:50 Conformer
45:40 WER
47:00 сравнение архитектур по метрике
классификация:
48:25 MatchBoxNet и другие задачи

49:55 дополнительные инструменты препроцессинга в NeMo

52:27 обзор репозитория NeMo
54:10 Notebook
55:17 CTC Loss
57:10 пример обучения QuartzNet15x5 - начало
59:10 про спектрограммы
1:00:51 MEL спектрограммы - приведение данных к формату, в котором человек слышит
1:05:23 обучение с 0
1:07:15 конфиг модели
1:09:07 логи в процессе обучения
1:10:59 пример аугментации - обрыва слов, отбрасывания частот и тд
1:11:22 перенос обучения
Onix

1:11:25 ответы на вопросы

dadagj