Piotr Dura - Nowoczesne modele przetwarzania mowy (PyData Bydgoszcz #22)

preview_player
Показать описание
PyData Bydgoszcz spotkanie 22
czwartek 01.02.2024
Młyny Rothera (Spichrz Zbożowy, 2. piętro), Mennica 10, Bydgoszcz

Piotr Dura
Pracuję jako Researcher w startupie zajmującym się przetwarzaniem mowy w czasie rzeczywistym w celu poprawy akcentu i właściwości akustycznych. Mam doświadczenie w różnych aspektach uczenia maszynowego - od trenowania po serwowanie, testowanie i optymalizację modeli. Pracowałem w Samsungu, TikToku i dwóch startupach. W wolnym czasie lubię podróże, wspinaczkę oraz grę go.

"Nowoczesne modele przetwarzania mowy"
Prelekcja dotyczy modeli do analizy i syntezy mowy, obejmuje aspekty takie jak fizyczne powstawanie fali dźwiękowej, podstawy analizy sygnałów i lingwistyki (czym jest fonem) oraz przegląd modeli na żywo w różnych zastosowaniach.

PyData Bydgoszcz

#BydgoszczIT

Nagranie sponsorowane przez firmę Huuuge Games

Realizacja wideo:
Jacek Owczarz
Jack Jack Films
+48 884 391 000
Рекомендации по теме
Комментарии
Автор

Bardzo dobry materiał. Brakuje w języku polskim wystąpień z obszaru analizy audio. Tak z ciekawości, do zadania Speach-to-Text na polskich nagraniach jakiego modelu najlepiej użyć i ewentualnie jakie jeszcze strategie zastosować typu fine-tunning albo jakiś postproccesing?

janchocyk