moderncamembert-cv2-base开源法语语言模型 - 基于万亿法语文本预训练

首页

Moderncamembert Cv2 Base

由 almanach 开发

基于1万亿高质量法语文本预训练的法语语言模型，是ModernBERT的法语版本

大型语言模型

Transformers

法语开源协议:MIT #法语语言模型 #长上下文处理 #高效推理

下载量 232

发布时间 : 4/11/2025

模型简介

ModernCamemBERT是一个采用掩码语言建模(MLM)目标的法语Transformer模型，在48张H100 GPU上训练完成，支持长上下文处理

模型特点

大规模预训练

使用1万亿token的高质量法语语料进行训练，包含RedPajama-V2、HALvest科学文献和法语维基百科

高效架构

相比传统BERT架构，具有更快的训练和推理速度

长上下文支持

预训练初期使用1024上下文长度，后期扩展至8192token

严格数据过滤

通过基于LLama-3 70B的BERT分类器进行语义过滤，确保数据质量

模型能力

法语文本理解

掩码语言建模

长文本处理

使用案例

自然语言处理

命名实体识别

法语文本中的命名实体识别任务

在FTB-NER数据集上达到92.17 F1分数

文本分类

法语文本分类任务

在CLS数据集上达到94.86准确率

问答系统

法语问答系统开发

在FQuAD数据集上达到81.68 F1分数

🚀 ModernCamemBERT

ModernCamemBERT是一个在1万亿高质量法语文本标记的大型语料库上预训练的法语语言模型。它是ModernBERT模型的法语版本。该模型旨在通过在与CamemBERTaV2（一种DeBERTaV3法语模型）相同的数据集上预训练ModernBERT来进行对照研究，以分离模型设计的影响。

🚀 快速开始

模型使用

from transformers import AutoTokenizer, AutoModel, AutoModelForMaskedLM

model = AutoModel.from_pretrained("almanach/moderncamembert-cv2-base")
tokenizer = AutoTokenizer.from_pretrained("almanach/moderncamembert-cv2-base")

微调模型

微调后的模型可在以下集合中找到：ModernCamembert Models

✨ 主要特性

大规模预训练：在1万亿标记的高质量法语文本语料库上进行预训练。
模型设计研究：通过与CamemBERTaV2在相同数据集上训练，研究模型设计的影响。
不同版本发布：发布了两个版本的模型，分别基于新的高质量1万亿标记数据集和旧的CamemBERTaV2数据集进行训练。

📦 安装指南

文档未提及具体安装步骤，可参考ModernBERT仓库中的预训练代码库。

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModel, AutoModelForMaskedLM

model = AutoModel.from_pretrained("almanach/moderncamembert-cv2-base")
tokenizer = AutoTokenizer.from_pretrained("almanach/moderncamembert-cv2-base")

📚 详细文档

模型训练

ModernCamemBERT使用掩码语言建模（MLM）目标，在48个H100 GPU上对1万亿标记进行训练，掩码率为30%。训练数据集结合了经过启发式和语义过滤的法语RedPajama-V2、来自HALvest的法语科学文档以及法语维基百科。语义过滤通过在由LLama-3 70B自动标记的文档质量数据集上微调BERT分类器来完成。

模型版本

almanach/moderncamembert-base：在新的高质量1万亿标记数据集上训练。
almanach/moderncamembert-cv2-base：在旧的CamemBERTaV2数据集上训练。

微调结果

模型	FTB-NER	CLS	PAWS-X	XNLI	F1 (FQuAD)	EM (FQuAD)
CamemBERT	89.97	94.62	91.36	81.95	80.98	62.51
CamemBERTa	90.33	94.92	91.67	82.00	81.15	62.01
CamemBERTv2	81.99	95.07	92.00	81.75	80.98	61.35
CamemBERTav2	93.40	95.63	93.06	84.82	83.04	64.29
ModernCamemBERT-CV2	92.17	94.86	92.71	82.85	81.68	62.00
ModernCamemBERT	91.33	94.92	92.52	83.62	82.19	62.66

数据集

NER (FTB)
FLUE基准测试（XNLI、CLS、PAWS-X）
法语问答数据集（FQuAD）

🔧 技术细节

训练过程

模型首先以1024的上下文长度进行训练，然后在预训练后期将其增加到8192个标记。更多关于训练过程的详细信息可以在ModernCamemBERT论文中找到。

分词器

复用了旧的CamemBERTav2分词器。

📄 许可证

本项目采用MIT许可证。

📖 引用

@misc{antoun2025modernbertdebertav3examiningarchitecture,
      title={ModernBERT or DeBERTaV3? Examining Architecture and Data Influence on Transformer Encoder Models Performance}, 
      author={Wissam Antoun and Benoît Sagot and Djamé Seddah},
      year={2025},
      eprint={2504.08716},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2504.08716}, 
}