[Open DMQA Seminar] Audio transformer

preview_player
Показать описание
Transformer는 self-attention을 통해 기존 RNN기반 모델들의 단점을 극복함과 동시에 NLP task에서 비약적인 성능 향상을 이루었다. 이후 vision task에서도 이미지 데이터에 적합한 transformer 구조인 vision transformer(ViT)가 고안되어 우수성을 입증하였다. 다양한 도메인에서 transformer 구조가 성공적으로 적용됨에 따라, 최근에는 오디오 데이터에 transformer를 활용하고자 하는 연구들이 활발하게 진행되고 있다. 본 세미나에서는 오디오 데이터를 위한 transformer 구조를 설명하고, 최근 진행되어온 연구 사례들에 대해 소개하고자 한다.

참고 문헌 :
1. Verma, P., & Berger, J. (2021). Audio transformers: Transformer architectures for large scale audio understanding. adieu convolutions. arXiv preprint arXiv:2105.00335.
2. Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., ... & Houlsby, N. (2020). An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929.
3. Gong, Y., Chung, Y. A., & Glass, J. (2021). Ast: Audio spectrogram transformer. arXiv preprint arXiv:2104.01778.
4. Koutini, K., Schlüter, J., Eghbal-zadeh, H., & Widmer, G. (2021). Efficient Training of Audio Transformers with Patchout. arXiv preprint arXiv:2110.05069.
Рекомендации по теме
join shbcf.ru