[Vision Transformer] An Image is Worth 16 x 16 Words : Transformer for Image Recognition at Scale

preview_player
Показать описание
#Transformer #트랜스포머 #인공지능 #딥러닝 #머신러닝 #AI #DeepLearning #MachineLearning #자연어처리 #NLP #AttentionIsAllYouNeed #Attention #컴퓨터비전 #computerVision #영상처리 #ImageProcessing #VisionTransformer
Рекомендации по теме
Комментарии
Автор

1:04 영상에 잘못 설명된 내용이 있어 수정합니다. input image 사이즈는 48 by 48이므로 각 패치의 크기는 16 by 16 크기로 나누어 9개의 패치가 생성되는 것입니다.

EnsignerTV
Автор

와 논문 보기 전에 이거 보고 나서 논문 보면 이해 개빨라짐요 감사감사!

ship
Автор

감사합니다. 연구와 관련된 내용에서 꼭 필요한 리뷰였는데 많은 도움이 되었습니다. 혹시 영상 막바지 부분에 말씀하신 Hybrid 아키텍처 부분에 대해서는 리뷰를 해주실 생각 없으신지요? 저도 제가 하는 연구가 Feature를 CNN으로 추출해서 추출된 Feature map을 ViT에 Input으로 넣어서 Binary Classification을 수행하는 실험을 하려는데 관련 논문에 대해 이해가 되지 않는 부분들이 있어서 관련 리뷰를 찾던 중에 엔자이너TV 영상을 보게 되었습니다.

sdooc
Автор

감사합니다. 잘린 이미지로부터 펼쳐진 임베디드 벡터도 학습과정에서 값이 변하나요?

MrNezlee
Автор

256x256 이미지를 16x16 크기의 패치로 나누는데 왜 9개가 나오게 되나요? 256개의 패치가 나와야 하는게 아닌가요?

odmcuxc