AI

SimTS: Rethinking Contrastive Representation Learning for Time Series Forecasting

공부하는 sum 2025. 2. 14. 21:03
728x90

Abstract

  • 대조 학습을 시계열 예측에 활용하는 것은 어려움
    • 대조학습이란, 입력 샘플 간의 비교를 통해 학습을 하는 것
    • Embedding space 상에서 positive pair는 가깝게, negative pair는 멀게 위치하도록 학습
    • sampling bias가 발생하지 않도록 sample을 구성하는게 중요
    • 참고) [Contrastive Learning] Contrastive Learning이란
  • 하지만 특히 시계열에서 positive pair, negative pair를 구분하는 것은 어려움
  • 잠재 공간에서 과거로부터 미래를 예측하는 것을 학습하여 시계열 예측을 개선하기 위한 간단한 표현 학습 접근법인 SimTS를 제안

JUSTIFICATION

  • negative pairs를 필요로 하지 않으면서, latent space에서 representation을 학습하기 위해 샴 구조와 간단한 컨볼루션 인코더를 사용하는 SimTS를 제안
  • 여러 벤치마크 데이터 셋에 대하여 일반화 성능을 검증, 다변량 시계열 예측에 SOTA를 능가함
  • 다양한 ablation 실험을 진행하여 예측 성능에 기여하는 주요 요인에 대한 인사이트 제공

MAIN IDEA

Motivation

  • 기존 대조학습에서 간과한 것
    • 시계열 내에 반복 패턴이 서로 멀리 떨어져 있을 수도 있음
    • 별개의 시계열이 유사한 패턴을 포함할 수 있다는 가능성
    → positive와는 가깝게 negative와는 멀게 학습하는게 예측에서는 맞지 않을 수 있음
  • 논문에서 생각하는 좋은 representation이란
    • 예측에서 과거와 미래의 시간적 종속성을 효과적으로 포착해야 함
    • 시간적 차이가 positive pair와 negative pair간의 유사성보다 더 큰 중요성을 갖는 것
  • 해결방안
    • 보다 유연하고 적용가능한 표현을 학습할 수 있는 positive pair 설계
    • model collapse를 방지하도록 negative pair 대신 stop-gradient 활용
    • 미래를 예측하여 시계열 표현을 학습하도록 인코더를 훈련

SimTS: Simple Representation Learning for Time Series Forecasting

  • 시계열 데이터를 K를 기준으로 history와 future로 분할
  • 분할한 데이터를 동일한 encoder를 거쳐서 representation 도출
  • history에서 마지막 부분만을 사용하여 predictor를 거쳐 예측, 이후 future에서 encoder를 거쳐 나온 것과 얼마나 유사한지를 비교하며 학습
  • 이 때 positive pair로 분류되는 future representation이 예측 representation에 따라가지 않도록 stop grad를 이용

Multi-Scale Encoder

  • 인코더의 경우, local 과 global 패턴을 모두 추출할 수 있도록 하기 위해 서로 다른 커널 사이즈를 가진 여러 컨볼루션 블록을 이용

Stop-gradient Operation

  • future encoder에 gradient정바를 하지 못하게 막음
  • future를 통해 history를 학습하는 것을 방지(정답이 예측값에 비슷하게 학습되는 현상 방지)

Experiment

  • SimTS는 representation을 추출하는 모델이기 때문에, 실제 값을 예측하는 regression model을 붙여야 함
    • ridge regression model을 이용
  • 대부분 SimTS가 우수한 성적을 보임

  • 하지만 Exchage와 weather에서는 다른 모델들이 우수한 경우가 있는데

  • 시계열의 정상성을 구분하는 ADF test결과,
  • Exchage는 정상성이 뛰어나 TNC모델에서 시간적으로 인접한 데이터와 멀리 떨어진 데이터의 구분이 가능해짐
  • 반면 Weather은 정상성이 낮아 CoST의 seasonal-trend decomposition이 잘 작동하게 됨

Ablation Study

  • 다변량, 단변량 모두 좋은 성능

  • negative pairs를 사용하지 않는 SimTS이지만, 사용했을 때의 실험 결과도 있음
  • 유의미하게 나쁜 결과를 보임
  • 하지만 negative pairs를 사용하는게 꼭 나쁜게 아니라, negative pairs를 구성하는 방법이 잘못되었음을 언급

CONCLUSION

  • negative pairs를 필요로 하지 않는 대조학습 기반의 SimTS를 제안
  • 현재의 representation 학습 방법이 다양한 타입의 시계열 데이터에 보편적으로 적용되기에는 어려움
  • 제안한 SimTS는 몇가지 한계를 해결하며 서로 다른 데이터 세트에서 더 나은 성능을 보여줌
  • 불규칙 시계열과 같은 문제를 해결하기 위해 시계열 예측을 위한 데이터 증강 방법 등의 연구가 필요

https://arxiv.org/pdf/2303.18205

728x90