(Vanilla) Transformer 흐름 이해하기 by The Annotated Transformer
* 본 게시글은 http://nlp.seas.harvard.edu/annotated-transformer/ 의 코드를 바탕으로 작성되었습니다. 현재 Transformer의 구조를 바탕으로 설계된 모델들이 AI 모델의 주류로 자리 잡았다. 요즘 놀라운 성능을 보여주고 있는 LLM이나 Vision-Language Model도 기본 구조에 트랜스포머의 모듈을 활용한다. 그래서 이것들을 깊게 이해하고 또 적절한 방법으로 고쳐 쓸 수 있도록 하기 위해 가장 기본이 되는 트랜스포머의 동작을 잘 이해하는 것을 목표하고 있다. (이 글을 작성하는 시점에 트랜스포머의 후계를 자처하는 논문이 나오긴 했다 : https://arxiv.org/abs/2307.08621) 마침 Annotated Transformer가 있어서 ..
인공지능/모델 아키텍쳐
2023. 7. 11. 18:41