Granite-Timeseries-PatchTST开源时间序列预测模型

首页

Granite Timeseries Patchtst

由 ibm-granite 开发

PatchTST是一个基于Transformer的时间序列预测模型，专为长期时间序列预测设计，采用子序列块和通道独立性技术提升预测精度。

气候模型

Transformers

开源协议:Apache-2.0 #电力预测 #长时序建模 #通道独立

下载量 1,505

发布时间 : 1/19/2024

模型简介

该模型用于时间序列预测任务，特别适用于电力变压器数据集ETTh1的七个通道预测。模型基于前512小时历史数据预测未来96小时的值。

模型特点

子序列块技术

将时间序列分割为固定大小的子序列块作为Transformer输入，保留局部语义信息并降低计算消耗。

通道独立性

每个通道作为单变量时间序列处理，共享相同嵌入和Transformer权重，使模型能关注更长历史数据。

模块化设计

支持掩码时间序列预训练以及直接时间序列预测、分类和回归任务。

模型能力

时间序列预测

长期时间序列建模

多通道时间序列处理

使用案例

电力系统

电力变压器负载预测

预测电力变压器未来96小时的负载情况

在ETTh1测试集上MSE为0.3881

🚀 PatchTST模型：基于ETTh1数据集的预训练模型

PatchTST 是一个基于Transformer的模型，可用于时间序列建模任务，包括预测、回归和分类。本仓库包含一个预训练的 PatchTST 模型，该模型涵盖了 ETTh1 数据集的所有七个通道。当使用512小时的历史数据窗口预测未来96小时时，这个特定的预训练模型在 ETTh1 数据集的 test 分割上产生的均方误差（MSE）为0.3881。

若要训练和评估 PatchTST 模型，你可以参考这个演示笔记本。

🚀 快速开始

你可以使用以下代码开始使用该模型：

# 代码示例可参考演示笔记本
# [演示笔记本](https://github.com/IBM/tsfm/blob/main/notebooks/hfdemo/patch_tst_getting_started.ipynb)

✨ 主要特性

创新性提出：PatchTST 模型由 Yuqi Nie、Nam H. Nguyen、Phanwadee Sinthong、Jayant Kalagnanam 在论文 A Time Series is Worth 64 Words: Long-term Forecasting with Transformers 中提出。
独特设计理念：该模型将时间序列向量化为给定大小的补丁，并通过Transformer对生成的向量序列进行编码，然后通过适当的头部输出预测长度的预测结果。
关键组件优势：
- 子序列级补丁分割：将时间序列分割为子序列级补丁，作为Transformer的输入令牌，保留了局部语义信息，减少了注意力图的计算和内存使用，使模型能够处理更长的历史数据。
- 通道独立性：每个通道包含一个单变量时间序列，所有序列共享相同的嵌入和Transformer权重，显著提高了长期预测的准确性。
模块化设计灵活：支持掩码时间序列预训练以及直接的时间序列预测、分类和回归任务。

📦 安装指南

暂未提供相关安装步骤，你可以参考演示笔记本中的环境配置部分。

💻 使用示例

基础用法

可参考演示笔记本中的代码示例。

高级用法

暂未提供高级用法的代码示例，你可以根据自己的需求对模型进行调整和扩展。

📚 详细文档

模型详情

模型描述

PatchTST 模型的核心是将时间序列转换为补丁序列，通过Transformer进行编码，最终输出预测结果。其关键组件包括子序列级补丁分割和通道独立性，这使得模型在长期预测任务中表现出色。

模型来源

仓库地址：PatchTST Hugging Face
相关论文：PatchTST ICLR 2023 paper
演示示例：Get started with PatchTST

应用场景

此预训练模型可用于对任何与 ETTh1 数据集具有相同通道（HUFL, HULL, MUFL, MULL, LUFL, LULL, OT）的电力变压器数据集进行微调或评估。模型设计为根据前512小时的输入值预测未来96小时的情况，使用时需对数据进行归一化处理。更多数据预处理信息，请参考相关论文或演示示例。

训练详情

训练数据

使用的训练数据为ETTh1/train split，训练/验证/测试分割情况可在演示笔记本中查看。

训练超参数

学习率（learning_rate）：5e-05
训练批次大小（train_batch_size）：8
评估批次大小（eval_batch_size）：8
随机种子（seed）：42
优化器（optimizer）：Adam，β1=0.9，β2=0.999，ε=1e-08
学习率调度器类型（lr_scheduler_type）：线性
训练轮数（num_epochs）：10

训练结果

训练损失	轮数	步数	验证损失
0.4306	1.0	1005	0.7268
0.3641	2.0	2010	0.7456
0.348	3.0	3015	0.7161
0.3379	4.0	4020	0.7428
0.3284	5.0	5025	0.7681
0.321	6.0	6030	0.7842
0.314	7.0	7035	0.7991
0.3088	8.0	8040	0.8021
0.3053	9.0	9045	0.8199
0.3019	10.0	10050	0.8173

评估详情

测试数据

使用的测试数据为ETTh1/test split，训练/验证/测试分割情况可在演示笔记本中查看。

评估指标

使用均方误差（MSE）作为评估指标。

评估结果

该模型在评估数据集上的均方误差（MSE）为0.3881。

硬件环境

使用1个NVIDIA A100 GPU进行训练和评估。

框架版本

Transformers：4.36.0.dev0
Pytorch：2.0.1
Datasets：2.14.4
Tokenizers：0.14.1

🔧 技术细节

模型架构

PatchTST 模型的架构图如下： Architecture

关键技术

子序列级补丁分割：将时间序列分割为子序列级补丁，作为Transformer的输入令牌，保留了局部语义信息，减少了注意力图的计算和内存使用。
通道独立性：每个通道包含一个单变量时间序列，所有序列共享相同的嵌入和Transformer权重，提高了长期预测的准确性。

📄 许可证

本模型使用的许可证为 apache-2.0。

📖 引用信息

BibTeX

@misc{nie2023time,
      title={A Time Series is Worth 64 Words: Long-term Forecasting with Transformers}, 
      author={Yuqi Nie and Nam H. Nguyen and Phanwadee Sinthong and Jayant Kalagnanam},
      year={2023},
      eprint={2211.14730},
      archivePrefix={arXiv},
      primaryClass={cs.LG}
}

APA

Nie, Y., Nguyen, N., Sinthong, P., & Kalagnanam, J. (2023). A Time Series is Worth 64 Words: Long-term Forecasting with Transformers. arXiv preprint arXiv:2211.14730.