[2021 Microsoft ] LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS

preview_player
Показать описание
우선은 여러분들이야 다 아시는 BERT 전후로 NLP 흐름에서 엄청나게 큰 변화가 있었다고 할 수 있을 정도로 많은 변화가 있었습니다 그중에서 가장 큰 것은 NLP의 Transfer learning의 붐을 불러 일으켰다고 봐도 과언이 아닌데요 이 Transfer NLP에서 Transfer learning이라고 하면 흔히들 unlabel labeling되지 않은 순수한 말뭉치들로 인간이 배우듯이 사전 학습을 해서 모델이 이니셜라이션 포인트를 잘 찾은 다음에 우리가 풀고자 하는 downstream task 문제를 푸는 것을 Fine tuning 이 두 가지를 수행하는 것을 Transfer learning이라고 흔히 일컫습니다 그런데 BERT의 parameter 수는 340 million에서 점점 우상향으로 그래프가 올라가고 있는 걸 확인하실 수가 있죠 그 후 GPT 2, 3까지 엄청난 학습 파라메터를 사용합니다. 논문저자는 이러한 Transformer 아키텍처의 각 레이어에 Rank분해 행렬을 주입하여 다운 스트림 테스크에 대한 훈련 가능한 매개변수를 크게 줄이는 Low-Rank Adaption방법을 제안합니다.
Рекомендации по теме
Комментарии
Автор

좋은 발표 감사합니다. 논문만 읽고 애매하게 이해했던 부분이 완벽하게 이해됐습니다. 감사합니다!

이지평-bo
Автор

내용이 큰 도움이 되었습니다! 자막에 오타가 많은 건 조금 아쉽습니다만 이런 세미나를 공유해 주시는 것만으로도 너무 감사합니다.

yuiol
Автор

발표 잘 들었습니다.
궁금한게 하나 있어서 질문 남겨요~

lora_a 와 lora_b 를 사용해서 dxd matrix 를 w0 에 더해준다는건 이해했는데

w0 에 dxd matrix 를 더해줄 때 w0 의 모든 dxd matrix 에 더해주는건가요?

예를들어 decoder layer_1 에 들어가는 matrix 의 차원이 dxd 일테니 decoder layer_1 에 들어갈 때 더해준다.
decoder layer_1 에서 연산을 통해 나온 matrix 의 차원도 dxd 일테이 거기에도 더해준다.

이런식으로 w0 의 어디에 lora_a 와 lora_b 로 만든 dxd matrix 를 더해주는건지 궁금합니다.!

이원빈-wu
Автор

영상 잘 봤습니다!! LoRA 개념이 이해가 잘 안 돼서 찾아봤는데 설명을 너무 잘해주셔서 잘 이해할 수 있었습니다!! 제가 개인적으로 정리하는 블로그에 내용을 참고해서 정리글을 올려보고 싶은데 혹시 가능할까요??

zzang_joha
Автор

The @ operator is used for matrix multiplication 🙂

TheKoreanfavorites
Автор

Can any one indiacte a similar resource in english ?

anishbhanushali