🚀 ChronoBERT
ChronoBERT是一系列高性能的按时间顺序保持一致的大语言模型(LLM),旨在消除前瞻偏差和训练数据泄漏问题,同时在对时间敏感的应用场景中保持良好的语言理解能力。该模型在多样化、高质量、开源且带有时间戳的文本上进行预训练,以确保时间顺序的一致性。该系列的所有模型在GLUE基准测试中的得分均超过了标准BERT,这种方法保留了历史分析的完整性,并能实现更可靠的经济和金融建模。
🚀 快速开始
该模型与 transformers
库(版本从v4.48.0开始)兼容,你可以按照以下步骤进行安装:
pip install -U transformers>=4.48.0
pip install flash-attn
以下是使用该模型的示例代码:
from transformers import AutoTokenizer, AutoModel
device = 'cuda:0'
tokenizer = AutoTokenizer.from_pretrained("manelalab/chrono-bert-v1-19991231")
model = AutoModel.from_pretrained("manelalab/chrono-bert-v1-19991231").to(device)
text = "Obviously, the time continuum has been disrupted, creating a new temporal event sequence resulting in this alternate reality. -- Dr. Brown, Back to the Future Part II"
inputs = tokenizer(text, return_tensors="pt").to(device)
outputs = model(**inputs)
✨ 主要特性
- 高性能与一致性:ChronoBERT是一系列高性能的按时间顺序保持一致的大语言模型,能消除前瞻偏差和训练数据泄漏问题,在时间敏感的应用中保持良好的语言理解能力。
- 多样化预训练数据:模型在多样化、高质量、开源且带有时间戳的文本上进行预训练,确保时间顺序的一致性。
- 超越标准BERT:该系列所有模型在GLUE基准测试中的得分均超过标准BERT,能保留历史分析的完整性,实现更可靠的经济和金融建模。
📦 安装指南
该模型与 transformers
库(版本从v4.48.0开始)兼容,你可以使用以下命令进行安装:
pip install -U transformers>=4.48.0
pip install flash-attn
💻 使用示例
基础用法
from transformers import AutoTokenizer, AutoModel
device = 'cuda:0'
tokenizer = AutoTokenizer.from_pretrained("manelalab/chrono-bert-v1-19991231")
model = AutoModel.from_pretrained("manelalab/chrono-bert-v1-19991231").to(device)
text = "Obviously, the time continuum has been disrupted, creating a new temporal event sequence resulting in this alternate reality. -- Dr. Brown, Back to the Future Part II"
inputs = tokenizer(text, return_tensors="pt").to(device)
outputs = model(**inputs)
📚 详细文档
模型来源
- 论文:"Chronologically Consistent Large Language Models" (He, Lv, Manela, Wu, 2025)
训练细节
训练数据
- 预训练语料库:初始模型chrono-bert-v1-19991231在2000年以前的4600亿个标记的多样化、高质量、开源文本数据上进行预训练,以确保不泄漏后续数据。
- 增量更新:从2000年到2024年每年更新,增加了650亿个带有时间戳的文本标记。
训练过程
- 架构:基于ModernBERT的模型,采用旋转嵌入和快速注意力机制。
- 目标:掩码标记预测。
评估
测试数据、因素和指标
- 语言理解:在GLUE基准测试任务上进行评估。
- 金融预测:基于道琼斯通讯社数据的回报预测任务进行评估。
- 对比模型:ChronoBERT与BERT、FinBERT、StoriesLM-v1-1963和Llama 3.1进行了基准测试。
结果
- GLUE得分:chrono-bert-v1-19991231和chrono-bert-v1-20241231的GLUE得分分别为84.71和85.54,超过了BERT(84.52)。
- 股票回报预测:在2008年1月至2023年7月的样本期间,chrono-bert-v1-realtime实现了4.80的多空投资组合夏普比率,超过了BERT、FinBERT和StoriesLM-v1-1963,与Llama 3.1 8B(4.90)相当。
🔧 技术细节
模型信息
属性 |
详情 |
模型类型 |
基于Transformer的双向编码器(ModernBERT架构) |
训练数据 |
初始模型在2000年以前的4600亿个标记的多样化、高质量、开源文本数据上预训练,从2000年到2024年每年更新,增加650亿个带有时间戳的文本标记 |
训练目标 |
掩码标记预测 |
架构特点 |
基于ModernBERT的模型,采用旋转嵌入和快速注意力机制 |
评估指标
- 语言理解:通过GLUE基准测试任务评估。
- 金融预测:基于道琼斯通讯社数据的回报预测任务评估。
对比模型
ChronoBERT与BERT、FinBERT、StoriesLM-v1-1963和Llama 3.1进行了对比。
📄 许可证
本模型采用MIT许可证。
引用
@article{He2025ChronoBERT,
title={Chronologically Consistent Large Language Models},
author={He, Songrun and Lv, Linying and Manela, Asaf and Wu, Jimmy},
journal={Working Paper},
year={2025}
}
模型卡片作者
- Songrun He(华盛顿大学圣路易斯分校,h.songrun@wustl.edu)
- Linying Lv(华盛顿大学圣路易斯分校,llyu@wustl.edu)
- Asaf Manela(华盛顿大学圣路易斯分校,amanela@wustl.edu)
- Jimmy Wu(华盛顿大学圣路易斯分校,jimmywu@wustl.edu)