[논문리뷰] Lag-Llama: Towards Foundation Models for Probabilistic Time Series Forecasting

Lag-Llama: Towards Foundation Models for Probabilistic Time Series Forecasting

 

저자: Kashif Rasul and others.

요약: Llama 기반 시계열 foundation model

Github: https://github.com/time-series-foundation-models/lag-llama

Paper(arxiv): https://arxiv.org/abs/2310.08278


Abstract & Introduction

과거부터 foundation modeldms zero-shot, few-shot 일반화 연구에서 많은 관심을 받아왔고, 좋은 성능을 보였다. 하지만, nlp 분야와 cv 분야와는 다르게, time series 분야에서는 좋은 성능을 보이는 foundation model이 없다. 논문에서는 시계열 데이터를 위한 llama 기반 foundation model, lag-llama를 제안한다. 기존 시계열 foundation model들과 다르게, lag-llama는 시계열 데이터를 tokenizing함으로써, 각 데이터셋 고유의 frequency에 의존적이지 않게 한다. 즉, 주기와 빈도가 제각각인 시계열 데이터에 대해 잘 일반화 할 수 있는 장점이 있다. 논문에서는 australian electricity damand 데이터 셋을 포함한 27개의 데이터 셋을 활용하여 학습을 진행하고, 실험 진행결과로 우수한 성능을 증명한다.

 

 

Method

Probabilistic Time Series Forecasting

체인룰 기반 위와 같이 계산한다.

 

 

Tokenization & Architecture

각 시계열 데이터에 적합한, 시간 세트를 지정하여 활용한다. (예를 들면 월 단위, 일 단위 등). 이러한 토큰은 위 그림과 같이 구성이 된다. 또한 생성한 토큰에 더해, 각 토큰(시간세트)에 대한 convariate(공변량)을 계산하여 입력 데이터로 사용한다. 이러한 입력 값을 이용하여 다음 시간대의 토큰을 예측하는 auto-regressive 방법으로 학습 진행한다.

 

 

Distribution Head

마지막 레이어는 모델의 features를 확률 분포의 파라미터로 변환하는 레이어다. 논문에서는 student's t-distribution을 사용해서 uncertainty interval을 측정한다.

 

 

Scaling

논문에서는 다양한 시계열 데이터를 학습하는데, 시계열 데이터마다 빈도 수가 매우 다르다. 이러한 이유로 정규화 과정을 진행을 하는데, 해당 데이터의 평균과 분산을 활용한다. 이러한 값을 이용하여 convariate c를 계산한다.

 

 

Experiments

실험결과 제안하는 방법이 가장 좋은 성능을 보인다.