🚀 ModernCamemBERT
ModernCamemBERT 是一个在 1 万亿个高质量法语文本标记的大型语料库上进行预训练的法语语言模型。它是 ModernBERT 模型的法语版本。ModernCamemBERT 使用掩码语言建模(MLM)目标,以 30% 的掩码率在 48 个 H100 GPU 上对 1 万亿个标记进行训练。用于训练的数据集是经过启发式和语义过滤的法语 RedPajama-V2、来自 HALvest 的法语科学文档以及法语维基百科的组合。语义过滤是通过微调一个在由 LLama-3 70B 自动标记的文档质量数据集上训练的 BERT 分类器来完成的。
我们还复用了旧的 CamemBERTav2 分词器。该模型最初以 1024 的上下文长度进行训练,在预训练后期增加到 8192 个标记。有关训练过程的更多详细信息,请参阅 ModernCamemBERT 论文。
ModernCamemBERT 的目标是通过在与 CamemBERTaV2(一种 DeBERTaV3 法语模型)相同的数据集上预训练 ModernBERT 来进行对照研究,以分离模型设计的影响。我们的结果表明,上一代模型在样本效率和整体基准性能方面仍然更胜一筹,而 ModernBERT 的主要优势在于更快的训练和推理速度。然而,与早期的模型(如 BERT 和 RoBERTa CamemBERT/v2 模型)相比,新提出的模型仍然在架构上有有意义的改进。此外,我们观察到高质量的预训练数据可以加速收敛,但不会显著提高最终性能,这表明基准测试可能已达到饱和。
我们建议在需要大上下文长度或高效推理速度的任务中使用 ModernCamemBERT 模型。 其他任务仍应使用 CamemBERTaV2 模型,它在大多数基准测试中仍然是性能最佳的模型。
我们发布了该模型的两个版本:almanach/moderncamembert-base
和 almanach/moderncamembert-cv2-base
。第一个版本是在新的 1 万亿标记高质量数据集上训练的,而第二个版本是在旧的 CamemBERTaV2 数据集上训练的。这两个模型使用相同的架构和超参数进行训练。
🚀 快速开始
模型使用示例
from transformers import AutoTokenizer, AutoModel, AutoModelForMaskedLM
model = AutoModel.from_pretrained("almanach/moderncamembert-base")
tokenizer = AutoTokenizer.from_pretrained("almanach/moderncamembert-base")
📚 详细文档
微调结果
微调使用的数据集包括:命名实体识别(NER,FTB 数据集)、FLUE 基准测试(XNLI、CLS、PAWS-X)以及法语问答数据集(FQuAD)。
模型 |
FTB-NER |
CLS |
PAWS-X |
XNLI |
F1 (FQuAD) |
EM (FQuAD) |
CamemBERT |
89.97 |
94.62 |
91.36 |
81.95 |
80.98 |
62.51 |
CamemBERTa |
90.33 |
94.92 |
91.67 |
82.00 |
81.15 |
62.01 |
CamemBERTv2 |
81.99 |
95.07 |
92.00 |
81.75 |
80.98 |
61.35 |
CamemBERTav2 |
93.40 |
95.63 |
93.06 |
84.82 |
83.04 |
64.29 |
ModernCamemBERT-CV2 |
92.17 |
94.86 |
92.71 |
82.85 |
81.68 |
62.00 |
ModernCamemBERT |
91.33 |
94.92 |
92.52 |
83.62 |
82.19 |
62.66 |
微调后的模型可在以下集合中找到:ModernCamembert 模型
预训练代码库
我们为所有 ModernCamemBERT 模型使用了来自 ModernBERT 仓库 的预训练代码库。
引用信息
@misc{antoun2025modernbertdebertav3examiningarchitecture,
title={ModernBERT or DeBERTaV3? Examining Architecture and Data Influence on Transformer Encoder Models Performance},
author={Wissam Antoun and Benoît Sagot and Djamé Seddah},
year={2025},
eprint={2504.08716},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2504.08716},
}
📄 许可证
本项目采用 MIT 许可证。
📦 模型信息
属性 |
详情 |
模型类型 |
法语语言模型 |
训练数据 |
经过启发式和语义过滤的法语 RedPajama-V2、来自 HALvest 的法语科学文档、法语维基百科 |
标签 |
modernbert、camembert |
任务类型 |
掩码填充 |