Attention is All You Need (트랜스포머)
·
🤖 AI/Deep Learning
트랜스포머 모델은 자연어 처리에서 가장 기본이 되는 모델로 구글이 발표한 논문인 "Attention is all you need"에서 처음으로 나온 모델이다. 기존의 seq2seq의 구조인 인코더-디코더를 따르면서도, 어텐션(Attention)만으로 구현한 모델이다. 이 모델은 RNN을 사용하지 않고, 인코더-디코더 구조를 설계하였음에도 번역 성능에서 RNN보다 우수한 성능을 보여주었다. Input Embedding트랜스포머 아키텍처는 위의 그림과 같이 생겼다. 먼저 첫 단계인 빨간 박스의 Input Embedding부터 알아보자. 먼저 입력으로 들어오는 단어들을 임베딩 벡터로 바꿔줘야한다. 예를 들어 단어가 어휘 사전에서 1,918번째에 위치한다면 1,918로 변환된다.(원-핫 인코딩은 단어 집합 크..