🚀 ModernCamemBERT
ModernCamemBERT是一个在1万亿高质量法语文本标记的大型语料库上预训练的法语语言模型。它是ModernBERT模型的法语版本。该模型旨在通过在与CamemBERTaV2(一种DeBERTaV3法语模型)相同的数据集上预训练ModernBERT来进行对照研究,以分离模型设计的影响。
🚀 快速开始
模型使用
from transformers import AutoTokenizer, AutoModel, AutoModelForMaskedLM
model = AutoModel.from_pretrained("almanach/moderncamembert-cv2-base")
tokenizer = AutoTokenizer.from_pretrained("almanach/moderncamembert-cv2-base")
微调模型
微调后的模型可在以下集合中找到:ModernCamembert Models
✨ 主要特性
- 大规模预训练:在1万亿标记的高质量法语文本语料库上进行预训练。
- 模型设计研究:通过与CamemBERTaV2在相同数据集上训练,研究模型设计的影响。
- 不同版本发布:发布了两个版本的模型,分别基于新的高质量1万亿标记数据集和旧的CamemBERTaV2数据集进行训练。
📦 安装指南
文档未提及具体安装步骤,可参考ModernBERT仓库中的预训练代码库。
💻 使用示例
基础用法
from transformers import AutoTokenizer, AutoModel, AutoModelForMaskedLM
model = AutoModel.from_pretrained("almanach/moderncamembert-cv2-base")
tokenizer = AutoTokenizer.from_pretrained("almanach/moderncamembert-cv2-base")
📚 详细文档
模型训练
ModernCamemBERT使用掩码语言建模(MLM)目标,在48个H100 GPU上对1万亿标记进行训练,掩码率为30%。训练数据集结合了经过启发式和语义过滤的法语RedPajama-V2、来自HALvest的法语科学文档以及法语维基百科。语义过滤通过在由LLama-3 70B自动标记的文档质量数据集上微调BERT分类器来完成。
模型版本
微调结果
模型 |
FTB-NER |
CLS |
PAWS-X |
XNLI |
F1 (FQuAD) |
EM (FQuAD) |
CamemBERT |
89.97 |
94.62 |
91.36 |
81.95 |
80.98 |
62.51 |
CamemBERTa |
90.33 |
94.92 |
91.67 |
82.00 |
81.15 |
62.01 |
CamemBERTv2 |
81.99 |
95.07 |
92.00 |
81.75 |
80.98 |
61.35 |
CamemBERTav2 |
93.40 |
95.63 |
93.06 |
84.82 |
83.04 |
64.29 |
ModernCamemBERT-CV2 |
92.17 |
94.86 |
92.71 |
82.85 |
81.68 |
62.00 |
ModernCamemBERT |
91.33 |
94.92 |
92.52 |
83.62 |
82.19 |
62.66 |
数据集
- NER (FTB)
- FLUE基准测试(XNLI、CLS、PAWS-X)
- 法语问答数据集(FQuAD)
🔧 技术细节
训练过程
模型首先以1024的上下文长度进行训练,然后在预训练后期将其增加到8192个标记。更多关于训练过程的详细信息可以在ModernCamemBERT论文中找到。
分词器
复用了旧的CamemBERTav2分词器。
📄 许可证
本项目采用MIT许可证。
📖 引用
@misc{antoun2025modernbertdebertav3examiningarchitecture,
title={ModernBERT or DeBERTaV3? Examining Architecture and Data Influence on Transformer Encoder Models Performance},
author={Wissam Antoun and Benoît Sagot and Djamé Seddah},
year={2025},
eprint={2504.08716},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2504.08716},
}
💡 使用建议
建议在需要大上下文长度或高效推理速度的任务中使用ModernCamemBERT模型。其他任务仍应使用CamemBERTaV2模型,因为它在大多数基准测试中仍然是性能最佳的模型。