AI

Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

공부하는 sum 2025. 2. 2. 23:01
728x90

Abstract

  • Long sequence time-series(LSTF)에서는 입-출력 사이의 장거리 의존성 커플링을 진단할 수 있는 모델이 필요함
  • 최근의 연구에서 트랜스포머가 이 잠재력을 보여주었으나, 3가지 문제점이 있음
    • 2차 시간 복잡도(quadratic time complexity)
    • 높은 메모리 사용량
    • 인코더-디코더 아키텍처의 고유한 제한 등
  • 이러한 문제를 해결하기위해 Informer를 제안
  • Informer의 특징
    • O(L logL)의 시간복잡도, 메모리 사용량을 가지는 Probsparse self-attention 매커니즘
    • 계단식으로 인풋을 절반으로 줄여 효과적으로 긴 인풋 시퀀스를 다룸
    • 개념적으로 단순한 generative style decoder를 이용해 긴 시퀀스 예측의 속도를 크게 향상시킴

INTRODUCTION

  • 기존의 방법들은 대부분 짧은 기간의 시계열 예측에 적합하게 설계되어 있음
  • 그림 a는 짧은 기간 예측과 긴 기간 예측을 표현한 것
  • 그림 b에서 볼 수 있듯이 추론 예측 길이가 길어질수록 오류는 증가, 추론 속도는 감소함 기준 : 48
  • LSTF의 주된 목표는 long sequence에 대한 prediction capacity를 향상시키는 것 이를 위해 다음 두 가지가 필요함
    1. 긴 범위에 대한 정렬 능력 long-range alignment ability
    2. 긴 시퀀스의 입출력에 대한 효율적인 연산능력 efficient operations on long sequence input/output
  • 트랜스포머는 self-attention 매커니즘을 사용하여 긴 범위의 의존성을 포착하는 데에는 성공했지만, L길이의 인풋-아웃풋에 대해서 L차 계산과 메모리 사용으로 인해 2번을 위반하게 됨.
  • 긴 길이로 갈수록 크리티컬한 문제이기 때문에 다음의 질문에 대한 답을 찾고자 함
  • 트랜스포머 모델을 더 높은 예측 능력을 가지면서도 연산, 메모리, 구조를 효율적으로 개선할 수 있을까?
    1. The quadratic computation of self-attention
      Self-attention에서는 각 레이어별 연산이 O(L^2)의 시간복잡도 및 메모리 사용량을 가짐
    2. The memory of bottleneck in stacking layers for long inputs
      J개의 쌓여진 인코더,디코더 레이어가 있을 때, 총 메모리 사용량은 O(J*L^2) 가 되고, 이는 모델의 확장성을 제한하는 요소가 됨
    3. The speed plunge in predicting long outputs
      한 단계 씩 추론하기 때문에 긴 시점을 예측하면 할수록 속도가 느려짐바닐라 트랜스포머의 한계점 3가지
  • 선행 연구들의 경우 주로 self-attention의 효율성 문제만을 해결하고자 함 (1번)
  • 그렇기에 1~3번 모두를 만족하는 모델 제안

 

  • 논문의 기여점
    • 긴 시계열의 아웃풋-인풋 의존성을 포착 할 때 transformer-like모델의 잠재력 입증
    • ProbSparse self-attention 매커니즘 제안.
      → O(L log L) 시간복잡도와 메모리 사용량을 달성
    • self-attention distilling operation을 제안.
      → 총 공간 복잡도를 O((2-e)LlogL) 까지 줄이고, J stacking 레이어들에서 attention score를 지배할 수 있음
    • generative style decoder 제안.
      → 긴 길이의 아웃풋을 한 번의 forward step만으로 얻어낼 수 있음

MAIN IDEA

Preliminary

  • 시계열 예측 방법론은 두가지로 나눠볼 수 있음
    1. Classical time-series models
    2. 확률 통계적 방법론, 고전 머신러닝 방법론
    3. Deep Learning techniques
    4. RNN등을 이용한 encoder-decoder 기반의 모형

Input Representation

  • Scalar : d_model의 차원으로 projection 시킨 값
  • Local Time Stamp : 일반적 transformer의 positional embedding 방식으로 고정 위치 값 사용
  • Global Time Stamp : 사용자에 따라서 주, 월, 공휴일 등의 정보를 사용자 스스로 구축해서 사용

Encoder & Decoder 구성

  1. 왼쪽
    • 인코더는 녹색의 긴 시퀀스를 인풋으로 받고, ProbSparse self-attention을 사용함
    • 파란색 사다리꼴 부분은 지배적인 attention을 추출하고 network size를 줄이기 위한 self-attention distilling operation을 의미
    • 복제된 옆의 작은 사이즈 인코더는 모델의 robustness를 증가시키는 역할
  2. 오른쪽
    • 디코더가 긴 시퀀스를 인풋으로 받고 있음
    • 예측해야 하는 부분은 0으로 패딩 된 상태
    • 해당 인풋을 받아서 인코더에서 생성된 concatenated feature map과 encoder-decoder attention을 수행하여 한 번에 주황색 부분을 예측

Methodology

Efficient Self-attention Mechanism

  • 기존의 self-attention(canonical self-attention)은 Q,K,V(Query, Key, Value)를 기반으로 정의되어 Quadratic한 횟수의 dot product 연산과 O(L_Q* L_K)만큼의 메모리 사용량을 필요로 함
  • → prediction capacity 향상에 제약사항이 됨
  • 이를 극복하기 위한 다양한 Sparse Attention등은 휴리스틱한 방법론을 따르고 있음을 지적
  • sparsity 한 self-attention은 꼬리가 긴 분포를 가지며, 소수의 dot-product pairs만이 주요 어텐션에 기여한다는 것을 파악함.
  • 영향이 없을수록 유니폼한 분포를 가지고 있음
  • 분포의 유사도를 비교하여 관측된 attention 분포가 유니폼 분포(기준값)보다 큰 값을 가지고 있다면 유의미한 페어라고 판단 할 수 있음
    → 이를 바탕으로 유의미한 쿼리 몇 개만 가지고 어텐션을 계산
  • 계산량과 메모리 사용량 모두 감소(O(LlogL))하며, multi-head인 경우 각 헤드별로 다른 query-key쌍을 생성하기 때문에 심각한 정보 손실도 방지

Encoder

: Allowing for Processing Longer Sequential Inputs under the Memory Usage Limitation

  • Encoder embedding
    • Scalar와 Stamp embedding을 합쳐 최종 embedding 구성
  • self-attention distilling
    • ProbSparse self-attention 후 convolution& max pooling을 통해 distilling 수행
    • attention output 으로부터 주요한 정보만을 추출, 다음 레이어에 전달할 정보 구성을 위함
    • 다음 레이어는 이전 레이어의 절반의 크기로 구성(96→48→24)하면서 메모리 사용량을 줄여 메모리 병목현상을 해결하고자 함
  • Stacking layer replicas
    • Robustness의 향상을 위해서 원래 인풋의 절반 길이만 인풋으로 받는 복제된 인코더를 추가로 구성

Decoder

: Generating Long Sequential Outputs Through One Forward Procedure

  • One forward procedure로 Generative inference를 수행할 수 있는 디코더 구성
  • Masked self-attention은 인코더와 동일하게 ProbSparse self-attention사용
  • FC layer을 통해 최종 아웃풋 예측
  • Loss는 MSE사용

CONCLUSION

  • 긴 시계열 예측에 있어 트랜스포머의 한계를 보완하기 위해 Informer 제안
  • 트랜스포머가 가지는 Quadratic한 연산 복잡도, 높은 메모리 사용량, 속도 문제를 개선할 수 있는 방법론 제시

논문 링크 : https://arxiv.org/pdf/2012.07436

728x90