🚀 ChronoBERT
ChronoBERT是一系列高性能的按時間順序保持一致的大語言模型(LLM),旨在消除前瞻偏差和訓練數據洩漏問題,同時在對時間敏感的應用場景中保持良好的語言理解能力。該模型在多樣化、高質量、開源且帶有時間戳的文本上進行預訓練,以確保時間順序的一致性。該系列的所有模型在GLUE基準測試中的得分均超過了標準BERT,這種方法保留了歷史分析的完整性,並能實現更可靠的經濟和金融建模。
🚀 快速開始
該模型與 transformers
庫(版本從v4.48.0開始)兼容,你可以按照以下步驟進行安裝:
pip install -U transformers>=4.48.0
pip install flash-attn
以下是使用該模型的示例代碼:
from transformers import AutoTokenizer, AutoModel
device = 'cuda:0'
tokenizer = AutoTokenizer.from_pretrained("manelalab/chrono-bert-v1-19991231")
model = AutoModel.from_pretrained("manelalab/chrono-bert-v1-19991231").to(device)
text = "Obviously, the time continuum has been disrupted, creating a new temporal event sequence resulting in this alternate reality. -- Dr. Brown, Back to the Future Part II"
inputs = tokenizer(text, return_tensors="pt").to(device)
outputs = model(**inputs)
✨ 主要特性
- 高性能與一致性:ChronoBERT是一系列高性能的按時間順序保持一致的大語言模型,能消除前瞻偏差和訓練數據洩漏問題,在時間敏感的應用中保持良好的語言理解能力。
- 多樣化預訓練數據:模型在多樣化、高質量、開源且帶有時間戳的文本上進行預訓練,確保時間順序的一致性。
- 超越標準BERT:該系列所有模型在GLUE基準測試中的得分均超過標準BERT,能保留歷史分析的完整性,實現更可靠的經濟和金融建模。
📦 安裝指南
該模型與 transformers
庫(版本從v4.48.0開始)兼容,你可以使用以下命令進行安裝:
pip install -U transformers>=4.48.0
pip install flash-attn
💻 使用示例
基礎用法
from transformers import AutoTokenizer, AutoModel
device = 'cuda:0'
tokenizer = AutoTokenizer.from_pretrained("manelalab/chrono-bert-v1-19991231")
model = AutoModel.from_pretrained("manelalab/chrono-bert-v1-19991231").to(device)
text = "Obviously, the time continuum has been disrupted, creating a new temporal event sequence resulting in this alternate reality. -- Dr. Brown, Back to the Future Part II"
inputs = tokenizer(text, return_tensors="pt").to(device)
outputs = model(**inputs)
📚 詳細文檔
模型來源
- 論文:"Chronologically Consistent Large Language Models" (He, Lv, Manela, Wu, 2025)
訓練細節
訓練數據
- 預訓練語料庫:初始模型chrono-bert-v1-19991231在2000年以前的4600億個標記的多樣化、高質量、開源文本數據上進行預訓練,以確保不洩漏後續數據。
- 增量更新:從2000年到2024年每年更新,增加了650億個帶有時間戳的文本標記。
訓練過程
- 架構:基於ModernBERT的模型,採用旋轉嵌入和快速注意力機制。
- 目標:掩碼標記預測。
評估
測試數據、因素和指標
- 語言理解:在GLUE基準測試任務上進行評估。
- 金融預測:基於道瓊斯通訊社數據的回報預測任務進行評估。
- 對比模型:ChronoBERT與BERT、FinBERT、StoriesLM-v1-1963和Llama 3.1進行了基準測試。
結果
- GLUE得分:chrono-bert-v1-19991231和chrono-bert-v1-20241231的GLUE得分分別為84.71和85.54,超過了BERT(84.52)。
- 股票回報預測:在2008年1月至2023年7月的樣本期間,chrono-bert-v1-realtime實現了4.80的多空投資組合夏普比率,超過了BERT、FinBERT和StoriesLM-v1-1963,與Llama 3.1 8B(4.90)相當。
🔧 技術細節
模型信息
屬性 |
詳情 |
模型類型 |
基於Transformer的雙向編碼器(ModernBERT架構) |
訓練數據 |
初始模型在2000年以前的4600億個標記的多樣化、高質量、開源文本數據上預訓練,從2000年到2024年每年更新,增加650億個帶有時間戳的文本標記 |
訓練目標 |
掩碼標記預測 |
架構特點 |
基於ModernBERT的模型,採用旋轉嵌入和快速注意力機制 |
評估指標
- 語言理解:通過GLUE基準測試任務評估。
- 金融預測:基於道瓊斯通訊社數據的回報預測任務評估。
對比模型
ChronoBERT與BERT、FinBERT、StoriesLM-v1-1963和Llama 3.1進行了對比。
📄 許可證
本模型採用MIT許可證。
引用
@article{He2025ChronoBERT,
title={Chronologically Consistent Large Language Models},
author={He, Songrun and Lv, Linying and Manela, Asaf and Wu, Jimmy},
journal={Working Paper},
year={2025}
}
模型卡片作者
- Songrun He(華盛頓大學聖路易斯分校,h.songrun@wustl.edu)
- Linying Lv(華盛頓大學聖路易斯分校,llyu@wustl.edu)
- Asaf Manela(華盛頓大學聖路易斯分校,amanela@wustl.edu)
- Jimmy Wu(華盛頓大學聖路易斯分校,jimmywu@wustl.edu)