ChronoBERT开源时间大模型 - 免费使用消除数据偏差，提升时间应用语言理解

首页

Chrono Bert V1 19991231

由 manelalab 开发

ChronoBERT是一系列高性能时间一致性大语言模型，旨在消除前瞻性偏差和训练数据泄露，同时在时间敏感应用中保持良好的语言理解能力。

大型语言模型

Transformers

英语开源协议:MIT #时间一致性LLM #金融时序预测 #历史文本分析

下载量 167

发布时间 : 2/28/2025

模型简介

该模型基于多样化、高质量、开源且带时间戳的文本进行预训练，以确保时间一致性。在GLUE基准测试中的得分均超过标准BERT，支持更可靠的经济和金融建模。

模型特点

时间一致性

消除前瞻性偏差和训练数据泄露，确保历史分析的完整性。

高性能

在GLUE基准测试中的得分超过标准BERT，保持良好的语言理解能力。

多样化预训练数据

基于4600亿个2000年之前的多样化、高质量开源文本数据进行预训练。

增量更新

2000年至2024年每年更新，新增650亿个带时间戳的文本数据。

模型能力

语言理解

金融预测

时间敏感分析

使用案例

金融建模

股票回报预测

使用基于道琼斯新闻数据的回报预测任务评估。

夏普比率为4.80，优于BERT、FinBERT和StoriesLM-v1-1963，与Llama 3.1 8B（4.90）表现相当。

自然语言处理

GLUE基准测试

评估语言理解能力。

chrono-bert-v1-19991231和chrono-bert-v1-20241231分别获得84.71和85.54分，优于BERT（84.52）。

🚀 ChronoBERT

ChronoBERT是一系列高性能的按时间顺序保持一致的大语言模型（LLM），旨在消除前瞻偏差和训练数据泄漏问题，同时在对时间敏感的应用场景中保持良好的语言理解能力。该模型在多样化、高质量、开源且带有时间戳的文本上进行预训练，以确保时间顺序的一致性。该系列的所有模型在GLUE基准测试中的得分均超过了标准BERT，这种方法保留了历史分析的完整性，并能实现更可靠的经济和金融建模。

🚀 快速开始

该模型与 transformers 库（版本从v4.48.0开始）兼容，你可以按照以下步骤进行安装：

pip install -U transformers>=4.48.0
pip install flash-attn

以下是使用该模型的示例代码：

from transformers import AutoTokenizer, AutoModel
device = 'cuda:0'

tokenizer = AutoTokenizer.from_pretrained("manelalab/chrono-bert-v1-19991231")
model = AutoModel.from_pretrained("manelalab/chrono-bert-v1-19991231").to(device)

text = "Obviously, the time continuum has been disrupted, creating a new temporal event sequence resulting in this alternate reality. -- Dr. Brown, Back to the Future Part II"

inputs = tokenizer(text, return_tensors="pt").to(device)
outputs = model(**inputs)

✨ 主要特性

高性能与一致性：ChronoBERT是一系列高性能的按时间顺序保持一致的大语言模型，能消除前瞻偏差和训练数据泄漏问题，在时间敏感的应用中保持良好的语言理解能力。
多样化预训练数据：模型在多样化、高质量、开源且带有时间戳的文本上进行预训练，确保时间顺序的一致性。
超越标准BERT：该系列所有模型在GLUE基准测试中的得分均超过标准BERT，能保留历史分析的完整性，实现更可靠的经济和金融建模。

📦 安装指南

该模型与 transformers 库（版本从v4.48.0开始）兼容，你可以使用以下命令进行安装：

pip install -U transformers>=4.48.0
pip install flash-attn

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModel
device = 'cuda:0'

tokenizer = AutoTokenizer.from_pretrained("manelalab/chrono-bert-v1-19991231")
model = AutoModel.from_pretrained("manelalab/chrono-bert-v1-19991231").to(device)

text = "Obviously, the time continuum has been disrupted, creating a new temporal event sequence resulting in this alternate reality. -- Dr. Brown, Back to the Future Part II"

inputs = tokenizer(text, return_tensors="pt").to(device)
outputs = model(**inputs)

📚 详细文档

模型来源

论文："Chronologically Consistent Large Language Models" (He, Lv, Manela, Wu, 2025)

训练细节

训练数据

预训练语料库：初始模型chrono-bert-v1-19991231在2000年以前的4600亿个标记的多样化、高质量、开源文本数据上进行预训练，以确保不泄漏后续数据。
增量更新：从2000年到2024年每年更新，增加了650亿个带有时间戳的文本标记。

训练过程

架构：基于ModernBERT的模型，采用旋转嵌入和快速注意力机制。
目标：掩码标记预测。

评估

测试数据、因素和指标

语言理解：在GLUE基准测试任务上进行评估。
金融预测：基于道琼斯通讯社数据的回报预测任务进行评估。
对比模型：ChronoBERT与BERT、FinBERT、StoriesLM-v1-1963和Llama 3.1进行了基准测试。

结果

GLUE得分：chrono-bert-v1-19991231和chrono-bert-v1-20241231的GLUE得分分别为84.71和85.54，超过了BERT（84.52）。
股票回报预测：在2008年1月至2023年7月的样本期间，chrono-bert-v1-realtime实现了4.80的多空投资组合夏普比率，超过了BERT、FinBERT和StoriesLM-v1-1963，与Llama 3.1 8B（4.90）相当。

🔧 技术细节

模型信息

属性	详情
模型类型	基于Transformer的双向编码器（ModernBERT架构）
训练数据	初始模型在2000年以前的4600亿个标记的多样化、高质量、开源文本数据上预训练，从2000年到2024年每年更新，增加650亿个带有时间戳的文本标记
训练目标	掩码标记预测
架构特点	基于ModernBERT的模型，采用旋转嵌入和快速注意力机制

评估指标

语言理解：通过GLUE基准测试任务评估。
金融预测：基于道琼斯通讯社数据的回报预测任务评估。

对比模型

ChronoBERT与BERT、FinBERT、StoriesLM-v1-1963和Llama 3.1进行了对比。

📄 许可证

本模型采用MIT许可证。

引用

@article{He2025ChronoBERT,
  title={Chronologically Consistent Large Language Models},
  author={He, Songrun and Lv, Linying and Manela, Asaf and Wu, Jimmy},
  journal={Working Paper},
  year={2025}
}