Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

공부하는 sum 2025. 2. 2. 23:01

728x90

Abstract

Long sequence time-series(LSTF)에서는 입-출력 사이의 장거리 의존성 커플링을 진단할 수 있는 모델이 필요함
최근의 연구에서 트랜스포머가 이 잠재력을 보여주었으나, 3가지 문제점이 있음
- 2차 시간 복잡도(quadratic time complexity)
- 높은 메모리 사용량
- 인코더-디코더 아키텍처의 고유한 제한 등
이러한 문제를 해결하기위해 Informer를 제안
Informer의 특징
- O(L logL)의 시간복잡도, 메모리 사용량을 가지는 Probsparse self-attention 매커니즘
- 계단식으로 인풋을 절반으로 줄여 효과적으로 긴 인풋 시퀀스를 다룸
- 개념적으로 단순한 generative style decoder를 이용해 긴 시퀀스 예측의 속도를 크게 향상시킴

INTRODUCTION

기존의 방법들은 대부분 짧은 기간의 시계열 예측에 적합하게 설계되어 있음
그림 a는 짧은 기간 예측과 긴 기간 예측을 표현한 것
그림 b에서 볼 수 있듯이 추론 예측 길이가 길어질수록 오류는 증가, 추론 속도는 감소함 기준 : 48
LSTF의 주된 목표는 long sequence에 대한 prediction capacity를 향상시키는 것 이를 위해 다음 두 가지가 필요함
1. 긴 범위에 대한 정렬 능력 long-range alignment ability
2. 긴 시퀀스의 입출력에 대한 효율적인 연산능력 efficient operations on long sequence input/output
트랜스포머는 self-attention 매커니즘을 사용하여 긴 범위의 의존성을 포착하는 데에는 성공했지만, L길이의 인풋-아웃풋에 대해서 L차 계산과 메모리 사용으로 인해 2번을 위반하게 됨.
긴 길이로 갈수록 크리티컬한 문제이기 때문에 다음의 질문에 대한 답을 찾고자 함
트랜스포머 모델을 더 높은 예측 능력을 가지면서도 연산, 메모리, 구조를 효율적으로 개선할 수 있을까?
1. The quadratic computation of self-attention
  Self-attention에서는 각 레이어별 연산이 O(L^2)의 시간복잡도 및 메모리 사용량을 가짐
2. The memory of bottleneck in stacking layers for long inputs
  J개의 쌓여진 인코더,디코더 레이어가 있을 때, 총 메모리 사용량은 O(J*L^2) 가 되고, 이는 모델의 확장성을 제한하는 요소가 됨
3. The speed plunge in predicting long outputs
  한 단계 씩 추론하기 때문에 긴 시점을 예측하면 할수록 속도가 느려짐바닐라 트랜스포머의 한계점 3가지
선행 연구들의 경우 주로 self-attention의 효율성 문제만을 해결하고자 함 (1번)
그렇기에 1~3번 모두를 만족하는 모델 제안

논문의 기여점
- 긴 시계열의 아웃풋-인풋 의존성을 포착 할 때 transformer-like모델의 잠재력 입증
- ProbSparse self-attention 매커니즘 제안.
  → O(L log L) 시간복잡도와 메모리 사용량을 달성
- self-attention distilling operation을 제안.
  → 총 공간 복잡도를 O((2-e)LlogL) 까지 줄이고, J stacking 레이어들에서 attention score를 지배할 수 있음
- generative style decoder 제안.
  → 긴 길이의 아웃풋을 한 번의 forward step만으로 얻어낼 수 있음

MAIN IDEA

Preliminary

시계열 예측 방법론은 두가지로 나눠볼 수 있음
1. Classical time-series models
2. 확률 통계적 방법론, 고전 머신러닝 방법론
3. Deep Learning techniques
4. RNN등을 이용한 encoder-decoder 기반의 모형

Input Representation

Scalar : d_model의 차원으로 projection 시킨 값
Local Time Stamp : 일반적 transformer의 positional embedding 방식으로 고정 위치 값 사용
Global Time Stamp : 사용자에 따라서 주, 월, 공휴일 등의 정보를 사용자 스스로 구축해서 사용

Encoder & Decoder 구성

왼쪽
- 인코더는 녹색의 긴 시퀀스를 인풋으로 받고, ProbSparse self-attention을 사용함
- 파란색 사다리꼴 부분은 지배적인 attention을 추출하고 network size를 줄이기 위한 self-attention distilling operation을 의미
- 복제된 옆의 작은 사이즈 인코더는 모델의 robustness를 증가시키는 역할
오른쪽
- 디코더가 긴 시퀀스를 인풋으로 받고 있음
- 예측해야 하는 부분은 0으로 패딩 된 상태
- 해당 인풋을 받아서 인코더에서 생성된 concatenated feature map과 encoder-decoder attention을 수행하여 한 번에 주황색 부분을 예측

Methodology

Efficient Self-attention Mechanism

기존의 self-attention(canonical self-attention)은 Q,K,V(Query, Key, Value)를 기반으로 정의되어 Quadratic한 횟수의 dot product 연산과 O(L_Q* L_K)만큼의 메모리 사용량을 필요로 함
→ prediction capacity 향상에 제약사항이 됨
이를 극복하기 위한 다양한 Sparse Attention등은 휴리스틱한 방법론을 따르고 있음을 지적
sparsity 한 self-attention은 꼬리가 긴 분포를 가지며, 소수의 dot-product pairs만이 주요 어텐션에 기여한다는 것을 파악함.
영향이 없을수록 유니폼한 분포를 가지고 있음
분포의 유사도를 비교하여 관측된 attention 분포가 유니폼 분포(기준값)보다 큰 값을 가지고 있다면 유의미한 페어라고 판단 할 수 있음
→ 이를 바탕으로 유의미한 쿼리 몇 개만 가지고 어텐션을 계산
계산량과 메모리 사용량 모두 감소(O(LlogL))하며, multi-head인 경우 각 헤드별로 다른 query-key쌍을 생성하기 때문에 심각한 정보 손실도 방지

Encoder

: Allowing for Processing Longer Sequential Inputs under the Memory Usage Limitation

Encoder embedding
- Scalar와 Stamp embedding을 합쳐 최종 embedding 구성
self-attention distilling
- ProbSparse self-attention 후 convolution& max pooling을 통해 distilling 수행
- attention output 으로부터 주요한 정보만을 추출, 다음 레이어에 전달할 정보 구성을 위함
- 다음 레이어는 이전 레이어의 절반의 크기로 구성(96→48→24)하면서 메모리 사용량을 줄여 메모리 병목현상을 해결하고자 함
Stacking layer replicas
- Robustness의 향상을 위해서 원래 인풋의 절반 길이만 인풋으로 받는 복제된 인코더를 추가로 구성

Decoder

: Generating Long Sequential Outputs Through One Forward Procedure

One forward procedure로 Generative inference를 수행할 수 있는 디코더 구성
Masked self-attention은 인코더와 동일하게 ProbSparse self-attention사용
FC layer을 통해 최종 아웃풋 예측
Loss는 MSE사용

CONCLUSION

긴 시계열 예측에 있어 트랜스포머의 한계를 보완하기 위해 Informer 제안
트랜스포머가 가지는 Quadratic한 연산 복잡도, 높은 메모리 사용량, 속도 문제를 개선할 수 있는 방법론 제시

논문 링크 : https://arxiv.org/pdf/2012.07436

728x90

저작자표시 비영리 변경금지

'AI' 카테고리의 다른 글

SimTS: Rethinking Contrastive Representation Learning for Time Series Forecasting (0)	2025.02.14
Attention is all you need (2/2) - Multi-head attention (0)	2024.11.24
Attention is all you need (1/2) - Scaled Dot Product Attention (0)	2024.11.10
[Anomaly detection] Isolation Forest (0)	2024.03.14

현재글Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

공부한 내용을 올리고 있습니다.

250x250

주피터노트북, 백준, 시계열예측, 윈도우자동화, 프로그래머스, 글또8기, 시계열, PROPHET, 알고리즘, pywinauto, 파이썬, 코딩테스트, Oracle, 글또, 파이썬클린코드, datacamp, 데이터분석가, PYTHON, mysql, sql,

Today :
Yesterday :

SUM_TUDY

Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

Abstract

INTRODUCTION

MAIN IDEA

Preliminary

Methodology

CONCLUSION

'AI' 카테고리의 다른 글

'AI'의 다른글

티스토리툴바

« 2025/02 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

Abstract

INTRODUCTION

MAIN IDEA

Preliminary

Methodology

CONCLUSION

'AI' 카테고리의 다른 글

'AI'의 다른글

관련글

티스토리툴바