Granite-Timeseries-PatchTST開源時間序列預測模型

首頁

Granite Timeseries Patchtst

由ibm-granite開發

PatchTST是一個基於Transformer的時間序列預測模型，專為長期時間序列預測設計，採用子序列塊和通道獨立性技術提升預測精度。

氣候模型

Transformers

開源協議:Apache-2.0 #電力預測 #長時序建模 #通道獨立

下載量 1,505

發布時間 : 1/19/2024

模型概述

該模型用於時間序列預測任務，特別適用於電力變壓器數據集ETTh1的七個通道預測。模型基於前512小時歷史數據預測未來96小時的值。

模型特點

子序列塊技術

將時間序列分割為固定大小的子序列塊作為Transformer輸入，保留局部語義信息並降低計算消耗。

通道獨立性

每個通道作為單變量時間序列處理，共享相同嵌入和Transformer權重，使模型能關注更長曆史數據。

模塊化設計

支持掩碼時間序列預訓練以及直接時間序列預測、分類和迴歸任務。

模型能力

時間序列預測

長期時間序列建模

多通道時間序列處理

使用案例

電力系統

電力變壓器負載預測

預測電力變壓器未來96小時的負載情況

在ETTh1測試集上MSE為0.3881

🚀 PatchTST模型：基於ETTh1數據集的預訓練模型

PatchTST 是一個基於Transformer的模型，可用於時間序列建模任務，包括預測、迴歸和分類。本倉庫包含一個預訓練的 PatchTST 模型，該模型涵蓋了 ETTh1 數據集的所有七個通道。當使用512小時的歷史數據窗口預測未來96小時時，這個特定的預訓練模型在 ETTh1 數據集的 test 分割上產生的均方誤差（MSE）為0.3881。

若要訓練和評估 PatchTST 模型，你可以參考這個演示筆記本。

🚀 快速開始

你可以使用以下代碼開始使用該模型：

# 代碼示例可參考演示筆記本
# [演示筆記本](https://github.com/IBM/tsfm/blob/main/notebooks/hfdemo/patch_tst_getting_started.ipynb)

✨ 主要特性

創新性提出：PatchTST 模型由 Yuqi Nie、Nam H. Nguyen、Phanwadee Sinthong、Jayant Kalagnanam 在論文 A Time Series is Worth 64 Words: Long-term Forecasting with Transformers 中提出。
獨特設計理念：該模型將時間序列向量化為給定大小的補丁，並通過Transformer對生成的向量序列進行編碼，然後通過適當的頭部輸出預測長度的預測結果。
關鍵組件優勢：
- 子序列級補丁分割：將時間序列分割為子序列級補丁，作為Transformer的輸入令牌，保留了局部語義信息，減少了注意力圖的計算和內存使用，使模型能夠處理更長的歷史數據。
- 通道獨立性：每個通道包含一個單變量時間序列，所有序列共享相同的嵌入和Transformer權重，顯著提高了長期預測的準確性。
模塊化設計靈活：支持掩碼時間序列預訓練以及直接的時間序列預測、分類和迴歸任務。

📦 安裝指南

暫未提供相關安裝步驟，你可以參考演示筆記本中的環境配置部分。

💻 使用示例

基礎用法

可參考演示筆記本中的代碼示例。

高級用法

暫未提供高級用法的代碼示例，你可以根據自己的需求對模型進行調整和擴展。

📚 詳細文檔

模型詳情

模型描述

PatchTST 模型的核心是將時間序列轉換為補丁序列，通過Transformer進行編碼，最終輸出預測結果。其關鍵組件包括子序列級補丁分割和通道獨立性，這使得模型在長期預測任務中表現出色。

模型來源

倉庫地址：PatchTST Hugging Face
相關論文：PatchTST ICLR 2023 paper
演示示例：Get started with PatchTST

應用場景

此預訓練模型可用於對任何與 ETTh1 數據集具有相同通道（HUFL, HULL, MUFL, MULL, LUFL, LULL, OT）的電力變壓器數據集進行微調或評估。模型設計為根據前512小時的輸入值預測未來96小時的情況，使用時需對數據進行歸一化處理。更多數據預處理信息，請參考相關論文或演示示例。

訓練詳情

訓練數據

使用的訓練數據為ETTh1/train split，訓練/驗證/測試分割情況可在演示筆記本中查看。

訓練超參數

學習率（learning_rate）：5e-05
訓練批次大小（train_batch_size）：8
評估批次大小（eval_batch_size）：8
隨機種子（seed）：42
優化器（optimizer）：Adam，β1=0.9，β2=0.999，ε=1e-08
學習率調度器類型（lr_scheduler_type）：線性
訓練輪數（num_epochs）：10

訓練結果

訓練損失	輪數	步數	驗證損失
0.4306	1.0	1005	0.7268
0.3641	2.0	2010	0.7456
0.348	3.0	3015	0.7161
0.3379	4.0	4020	0.7428
0.3284	5.0	5025	0.7681
0.321	6.0	6030	0.7842
0.314	7.0	7035	0.7991
0.3088	8.0	8040	0.8021
0.3053	9.0	9045	0.8199
0.3019	10.0	10050	0.8173

評估詳情

測試數據

使用的測試數據為ETTh1/test split，訓練/驗證/測試分割情況可在演示筆記本中查看。

評估指標

使用均方誤差（MSE）作為評估指標。

評估結果

該模型在評估數據集上的均方誤差（MSE）為0.3881。

硬件環境

使用1個NVIDIA A100 GPU進行訓練和評估。

框架版本

Transformers：4.36.0.dev0
Pytorch：2.0.1
Datasets：2.14.4
Tokenizers：0.14.1

🔧 技術細節

模型架構

PatchTST 模型的架構圖如下： Architecture

關鍵技術

子序列級補丁分割：將時間序列分割為子序列級補丁，作為Transformer的輸入令牌，保留了局部語義信息，減少了注意力圖的計算和內存使用。
通道獨立性：每個通道包含一個單變量時間序列，所有序列共享相同的嵌入和Transformer權重，提高了長期預測的準確性。

📄 許可證

本模型使用的許可證為 apache-2.0。

📖 引用信息

BibTeX

@misc{nie2023time,
      title={A Time Series is Worth 64 Words: Long-term Forecasting with Transformers}, 
      author={Yuqi Nie and Nam H. Nguyen and Phanwadee Sinthong and Jayant Kalagnanam},
      year={2023},
      eprint={2211.14730},
      archivePrefix={arXiv},
      primaryClass={cs.LG}
}

APA

Nie, Y., Nguyen, N., Sinthong, P., & Kalagnanam, J. (2023). A Time Series is Worth 64 Words: Long-term Forecasting with Transformers. arXiv preprint arXiv:2211.14730.