Attention is all you need 를 읽고 공부하며 작성한 글 입니다.Abstract시퀀스 모델에서 제일 많이 사용되는 모델들은 인코더와 디코더를 포함한 RNN 또는 CNN을 기반으로 하는 모델transformer는 인코더와 디코더를 어텐션 매커니즘을 이용하여 연결하여 사용함INTRODUCTION시퀀스 모델링 문제에서 RNN, LSTM, GRU등 기존의 recurrent 모델들은 이전 결과를 순차적으로 받아야 하는 특성 때문에 병렬화가 제한적임이전의 값을 처리 후 그 값을받아서 이후 값을 처리해야하는 문제그 길이가 길수록 시간, 메모리적인 부담이 증가하게 됨attention 매커니즘을 이용하여 입,출력 시퀀스 내의 거리와 상관없이 의존 관계를 효과적으로 모델링할 수 있게 되었으나 이것 마저도..