🚀 PatchTST模型:基于ETTh1数据集的预训练模型
PatchTST
是一个基于Transformer的模型,可用于时间序列建模任务,包括预测、回归和分类。本仓库包含一个预训练的 PatchTST
模型,该模型涵盖了 ETTh1
数据集的所有七个通道。
当使用512小时的历史数据窗口预测未来96小时时,这个特定的预训练模型在 ETTh1
数据集的 test
分割上产生的均方误差(MSE)为0.3881。
若要训练和评估 PatchTST
模型,你可以参考这个演示笔记本。
🚀 快速开始
你可以使用以下代码开始使用该模型:
✨ 主要特性
- 创新性提出:
PatchTST
模型由 Yuqi Nie、Nam H. Nguyen、Phanwadee Sinthong、Jayant Kalagnanam 在论文 A Time Series is Worth 64 Words: Long-term Forecasting with Transformers 中提出。
- 独特设计理念:该模型将时间序列向量化为给定大小的补丁,并通过Transformer对生成的向量序列进行编码,然后通过适当的头部输出预测长度的预测结果。
- 关键组件优势:
- 子序列级补丁分割:将时间序列分割为子序列级补丁,作为Transformer的输入令牌,保留了局部语义信息,减少了注意力图的计算和内存使用,使模型能够处理更长的历史数据。
- 通道独立性:每个通道包含一个单变量时间序列,所有序列共享相同的嵌入和Transformer权重,显著提高了长期预测的准确性。
- 模块化设计灵活:支持掩码时间序列预训练以及直接的时间序列预测、分类和回归任务。
📦 安装指南
暂未提供相关安装步骤,你可以参考演示笔记本中的环境配置部分。
💻 使用示例
基础用法
可参考演示笔记本中的代码示例。
高级用法
暂未提供高级用法的代码示例,你可以根据自己的需求对模型进行调整和扩展。
📚 详细文档
模型详情
模型描述
PatchTST
模型的核心是将时间序列转换为补丁序列,通过Transformer进行编码,最终输出预测结果。其关键组件包括子序列级补丁分割和通道独立性,这使得模型在长期预测任务中表现出色。
模型来源
应用场景
此预训练模型可用于对任何与 ETTh1
数据集具有相同通道(HUFL, HULL, MUFL, MULL, LUFL, LULL, OT
)的电力变压器数据集进行微调或评估。模型设计为根据前512小时的输入值预测未来96小时的情况,使用时需对数据进行归一化处理。更多数据预处理信息,请参考相关论文或演示示例。
训练详情
训练数据
使用的训练数据为ETTh1
/train split,训练/验证/测试分割情况可在演示笔记本中查看。
训练超参数
- 学习率(learning_rate):5e-05
- 训练批次大小(train_batch_size):8
- 评估批次大小(eval_batch_size):8
- 随机种子(seed):42
- 优化器(optimizer):Adam,β1=0.9,β2=0.999,ε=1e-08
- 学习率调度器类型(lr_scheduler_type):线性
- 训练轮数(num_epochs):10
训练结果
训练损失 |
轮数 |
步数 |
验证损失 |
0.4306 |
1.0 |
1005 |
0.7268 |
0.3641 |
2.0 |
2010 |
0.7456 |
0.348 |
3.0 |
3015 |
0.7161 |
0.3379 |
4.0 |
4020 |
0.7428 |
0.3284 |
5.0 |
5025 |
0.7681 |
0.321 |
6.0 |
6030 |
0.7842 |
0.314 |
7.0 |
7035 |
0.7991 |
0.3088 |
8.0 |
8040 |
0.8021 |
0.3053 |
9.0 |
9045 |
0.8199 |
0.3019 |
10.0 |
10050 |
0.8173 |
评估详情
测试数据
使用的测试数据为ETTh1
/test split,训练/验证/测试分割情况可在演示笔记本中查看。
评估指标
使用均方误差(MSE)作为评估指标。
评估结果
该模型在评估数据集上的均方误差(MSE)为0.3881。
硬件环境
使用1个NVIDIA A100 GPU进行训练和评估。
框架版本
- Transformers:4.36.0.dev0
- Pytorch:2.0.1
- Datasets:2.14.4
- Tokenizers:0.14.1
🔧 技术细节
模型架构
PatchTST
模型的架构图如下:

关键技术
- 子序列级补丁分割:将时间序列分割为子序列级补丁,作为Transformer的输入令牌,保留了局部语义信息,减少了注意力图的计算和内存使用。
- 通道独立性:每个通道包含一个单变量时间序列,所有序列共享相同的嵌入和Transformer权重,提高了长期预测的准确性。
📄 许可证
本模型使用的许可证为 apache-2.0
。
📖 引用信息
BibTeX
@misc{nie2023time,
title={A Time Series is Worth 64 Words: Long-term Forecasting with Transformers},
author={Yuqi Nie and Nam H. Nguyen and Phanwadee Sinthong and Jayant Kalagnanam},
year={2023},
eprint={2211.14730},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
APA
Nie, Y., Nguyen, N., Sinthong, P., & Kalagnanam, J. (2023). A Time Series is Worth 64 Words: Long-term Forecasting with Transformers. arXiv preprint arXiv:2211.14730.