🚀 PatchTST模型:基於ETTh1數據集的預訓練模型
PatchTST
是一個基於Transformer的模型,可用於時間序列建模任務,包括預測、迴歸和分類。本倉庫包含一個預訓練的 PatchTST
模型,該模型涵蓋了 ETTh1
數據集的所有七個通道。
當使用512小時的歷史數據窗口預測未來96小時時,這個特定的預訓練模型在 ETTh1
數據集的 test
分割上產生的均方誤差(MSE)為0.3881。
若要訓練和評估 PatchTST
模型,你可以參考這個演示筆記本。
🚀 快速開始
你可以使用以下代碼開始使用該模型:
✨ 主要特性
- 創新性提出:
PatchTST
模型由 Yuqi Nie、Nam H. Nguyen、Phanwadee Sinthong、Jayant Kalagnanam 在論文 A Time Series is Worth 64 Words: Long-term Forecasting with Transformers 中提出。
- 獨特設計理念:該模型將時間序列向量化為給定大小的補丁,並通過Transformer對生成的向量序列進行編碼,然後通過適當的頭部輸出預測長度的預測結果。
- 關鍵組件優勢:
- 子序列級補丁分割:將時間序列分割為子序列級補丁,作為Transformer的輸入令牌,保留了局部語義信息,減少了注意力圖的計算和內存使用,使模型能夠處理更長的歷史數據。
- 通道獨立性:每個通道包含一個單變量時間序列,所有序列共享相同的嵌入和Transformer權重,顯著提高了長期預測的準確性。
- 模塊化設計靈活:支持掩碼時間序列預訓練以及直接的時間序列預測、分類和迴歸任務。
📦 安裝指南
暫未提供相關安裝步驟,你可以參考演示筆記本中的環境配置部分。
💻 使用示例
基礎用法
可參考演示筆記本中的代碼示例。
高級用法
暫未提供高級用法的代碼示例,你可以根據自己的需求對模型進行調整和擴展。
📚 詳細文檔
模型詳情
模型描述
PatchTST
模型的核心是將時間序列轉換為補丁序列,通過Transformer進行編碼,最終輸出預測結果。其關鍵組件包括子序列級補丁分割和通道獨立性,這使得模型在長期預測任務中表現出色。
模型來源
應用場景
此預訓練模型可用於對任何與 ETTh1
數據集具有相同通道(HUFL, HULL, MUFL, MULL, LUFL, LULL, OT
)的電力變壓器數據集進行微調或評估。模型設計為根據前512小時的輸入值預測未來96小時的情況,使用時需對數據進行歸一化處理。更多數據預處理信息,請參考相關論文或演示示例。
訓練詳情
訓練數據
使用的訓練數據為ETTh1
/train split,訓練/驗證/測試分割情況可在演示筆記本中查看。
訓練超參數
- 學習率(learning_rate):5e-05
- 訓練批次大小(train_batch_size):8
- 評估批次大小(eval_batch_size):8
- 隨機種子(seed):42
- 優化器(optimizer):Adam,β1=0.9,β2=0.999,ε=1e-08
- 學習率調度器類型(lr_scheduler_type):線性
- 訓練輪數(num_epochs):10
訓練結果
訓練損失 |
輪數 |
步數 |
驗證損失 |
0.4306 |
1.0 |
1005 |
0.7268 |
0.3641 |
2.0 |
2010 |
0.7456 |
0.348 |
3.0 |
3015 |
0.7161 |
0.3379 |
4.0 |
4020 |
0.7428 |
0.3284 |
5.0 |
5025 |
0.7681 |
0.321 |
6.0 |
6030 |
0.7842 |
0.314 |
7.0 |
7035 |
0.7991 |
0.3088 |
8.0 |
8040 |
0.8021 |
0.3053 |
9.0 |
9045 |
0.8199 |
0.3019 |
10.0 |
10050 |
0.8173 |
評估詳情
測試數據
使用的測試數據為ETTh1
/test split,訓練/驗證/測試分割情況可在演示筆記本中查看。
評估指標
使用均方誤差(MSE)作為評估指標。
評估結果
該模型在評估數據集上的均方誤差(MSE)為0.3881。
硬件環境
使用1個NVIDIA A100 GPU進行訓練和評估。
框架版本
- Transformers:4.36.0.dev0
- Pytorch:2.0.1
- Datasets:2.14.4
- Tokenizers:0.14.1
🔧 技術細節
模型架構
PatchTST
模型的架構圖如下:

關鍵技術
- 子序列級補丁分割:將時間序列分割為子序列級補丁,作為Transformer的輸入令牌,保留了局部語義信息,減少了注意力圖的計算和內存使用。
- 通道獨立性:每個通道包含一個單變量時間序列,所有序列共享相同的嵌入和Transformer權重,提高了長期預測的準確性。
📄 許可證
本模型使用的許可證為 apache-2.0
。
📖 引用信息
BibTeX
@misc{nie2023time,
title={A Time Series is Worth 64 Words: Long-term Forecasting with Transformers},
author={Yuqi Nie and Nam H. Nguyen and Phanwadee Sinthong and Jayant Kalagnanam},
year={2023},
eprint={2211.14730},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
APA
Nie, Y., Nguyen, N., Sinthong, P., & Kalagnanam, J. (2023). A Time Series is Worth 64 Words: Long-term Forecasting with Transformers. arXiv preprint arXiv:2211.14730.