Обработка аудио 2023. Лекция 1. (Введение + Digital Signal Processing)

preview_player
Показать описание
Лекцию ведет Северилов Павел
Тема: Введение + Digital Signal Processing.

Deep learning in audio course (Speech-to-text, Text-to-speech, STT, TTS, ASR, keyword spotting, KWS, Voice Conversion, NLP, signal processing, neural networks, Unsupervised learning)
Рекомендации по теме
Комментарии
Автор

Если у вас есть желание немного покопаться в звуках речи и понять где так какие фонемы, как они переходят от одной к другой, зависят от пола и тд то можно порекомендовать небольшой познавательный курс

weFromRussia
Автор

Стоит обратить внимание что движок генерации речи был содран с речевых кодеков. Гриффин, Лим первоначально работали именно в этой области. Их известный алгоритм - это версия от которой они отказались в пользу немного другого принципа который можно видеть в кодеках группы AMBE - IMBE. Сегодня вы применяете конечный синтез речи, который широко применяется в кодеках ACELP группы (и очевидно от туда изначально и пришел). Как я посмотрел на его структуру - там весьма прямолинейное и вычислительно затратное решение.

weFromRussia