Temporal Encoding :하나의Patch안에는 여러timestamp에 해당하는 데이터가 존재하는데 이를 하나의 통합된 표현으로 나타내기 위해 초기timestamp를해당patch의 대표timestamp로 지정.
분,시간,요일,날짜,월과 같은 다양한 속성을 가질 수 있기 때문에 이를 고차원 공간에Mapping후 합산하여 단일Temporal Embedding생성
3. LLM을 어떤 방식으로 학습시킬 것인가?
Backbone model이 가지는 내재적인knowledge를유지하기 위해LLM의Feed Forward계층과Attention계층의 파라미터들을 동결시킨다.
Layer Normalization Tuning을 활용하여Layer Normalization계층을Learnable하게 만든다.
모델을 효과적으로 개선하면서도 내재된 표현 능력을 손상시키지 않는LoRA를사용한다.
이러한 방법으로 모델의 총 파라미터 중1.5%만 훈련 가능하도록 만들었다.
Downstream Fine-Tuning방식에서Output은Patch된 상태로 나오기 때문에 이를 일반 시계열 데이터로 변환하기 위해Linear Layer이후Flatten,후 재배열 하여Patching되지 않은 시계열 데이터로 만든다.
Experiments
Dataset
Metric
MSE, MAE
Implementation Details
”A Time Series is Worth 64 Words : Long-term Forecasting with Transformers” 논문의 실험 구성과 동일.
GPT4TS의 구성과 동일하게 GPT-2의 12개 layer중 처음 6개 layer를 사용.
Default Setting
Window Size : 336 or 512
Patch length : 16
Stride : 8
Self-supervised Learning Setting
Window Size : 512
Patch length : 12
Stride : 12
Baseline
Pre-trained LLM Model
GPT4TS
Transformer based Model
PatchTST, FEDformer, Autoformer, Informer
MLP based Model
DLinear
Long-term forecasting for multivariate time-series data
Prediction Length = 96, 192, 336, 720으로실험 진행
LLM4TS가 대부분의Long-term time-series예측에 있어서 좋은 성능을 보인다.
앞서Pre-trained LLM은 극히 제한적인 학습 데이터 환경에서도 뛰어난 성능을 보일 수 있다고 언급하였는데, PLMbased Model인LLM4TS와GPT4TS는 좋은 성능을 보임.
Supervised Fine-Tuning, Temporal Encoding, PEFT가 모델에 미치는 영향을 확인하기 위해 해당 항목을 각각 제외시키고 실험해본 결과few-shot learning에서MSE가 평균6.2%감소하는 성과를 보였다.
Linear Probing후Full Fine Tuning을 적용하는 것이Full Fine Tuning만 적용시키거나, Linear Probing만 적용시켰을 때 보다few-shot learning에서MSE가 평균2.51%감소하는 성능을 보인다.
Conclusion
Pre-Train LLM (PLM) 을 사용하여 time-series 예측을 진행하는 LLM4TS 모델을 소개한다.
Time-series 데이터를 LLM의 input으로 만들기 위해 Patching과 Channel Independence, token, positional, temporal encoding을 이용하였다.
Time-Series 데이터의 특성을 모델이 잘 이해할 수 있게 Self-supervised fine-tuning을 진행하였다.
”예측” 이라는 목표에 모델이 맞춰지도록 Downstream fine-tuning을 진행하였다.
Fine-tuning시, 연산 비용 감소와 성능을 향상을 위해 Layer Normalization Tuning과 LoRA를 이용하였다.
실험 결과, LLM4TS는 Long-term time-series forecasting과 입력 데이터로부터 유용하고 의미 있는 표현을 추출하여 학습하는 Representation learning에서 좋은 성능을 보이며 few-shot 상황에서도 좋은 성능을 보임을 증명하였다.