🚀 CamemBERT(a)-v2:一款臻于完美的智能法语语言模型
CamemBERTav2 是一款在 2750 亿个法语文本标记的大型语料库上进行预训练的法语语言模型。它是 CamemBERTa 模型的第二个版本,基于 DebertaV2 架构构建。CamemBERTav2 在 32 个 H100 GPU 上,使用 20% 的掩码率,通过替换标记检测(Replaced Token Detection,RTD)目标对 2750 亿个标记进行训练。训练使用的数据集结合了来自 CulturaX 项目 的法语 OSCAR 转储数据、来自 HALvest 的法语科学文档以及法语维基百科。
该模型可直接替代原始的 CamemBERTa 模型。需要注意的是,新的分词器与原始的 CamemBERTa 分词器不同,因此你需要使用快速分词器来使用该模型。即使原始的 DebertaV2TokenizerFast
基于 SentencePiece,它也可以与 transformers
库中的 DebertaV2TokenizerFast
一起使用。
✨ 主要特性
模型更新细节
- 更大的预训练数据集:拥有 2750 亿个唯一标记(之前约为 320 亿个)。
- 全新构建的分词器:基于 WordPiece,包含 32768 个标记,新增了换行符和制表符,支持表情符号,并且能更好地处理数字(数字被拆分为两位标记)。
- 扩展的上下文窗口:达到 1024 个标记。
更多详细信息可参考 CamemBERTv2 论文。
📦 安装指南
本部分暂未提供具体安装命令,可参考相关代码示例进行操作。
💻 使用示例
基础用法
from transformers import AutoTokenizer, AutoModel, AutoModelForMaskedLM
camembertav2 = AutoModel.from_pretrained("almanach/camembertav2-base")
tokenizer = AutoTokenizer.from_pretrained("almanach/camembertav2-base")
📚 详细文档
微调结果
数据集包括:词性标注和依存句法分析(GSD、Rhapsodie、Sequoia、FSMB)、命名实体识别(NER,FTB)、FLUE 基准测试(XNLI、CLS、PAWS - X)、法语问答数据集(FQuAD)、社交媒体命名实体识别(Counter - NER)以及医学命名实体识别(CAS1、CAS2、E3C、EMEA、MEDLINE)。
模型 |
UPOS |
LAS |
FTB - NER |
CLS |
PAWS - X |
XNLI |
F1 (FQuAD) |
EM (FQuAD) |
Counter - NER |
Medical - NER |
CamemBERT |
97.59 |
88.69 |
89.97 |
94.62 |
91.36 |
81.95 |
80.98 |
62.51 |
84.18 |
70.96 |
CamemBERTa |
97.57 |
88.55 |
90.33 |
94.92 |
91.67 |
82.00 |
81.15 |
62.01 |
87.37 |
71.86 |
CamemBERT - bio |
- |
- |
- |
- |
- |
- |
- |
- |
- |
73.96 |
CamemBERTv2 |
97.66 |
88.64 |
91.99 |
95.07 |
92.00 |
81.75 |
80.98 |
61.35 |
87.46 |
72.77 |
CamemBERTav2 |
97.71 |
88.65 |
93.40 |
95.63 |
93.06 |
84.82 |
83.04 |
64.29 |
89.53 |
73.98 |
微调后的模型可在以下集合中找到:CamemBERTav2 微调模型。
预训练代码库
我们对所有 v2 模型使用来自 CamemBERTa 仓库 的预训练代码库。
📄 许可证
本项目采用 MIT 许可证。
🔗 引用
@misc{antoun2024camembert20smarterfrench,
title={CamemBERT 2.0: A Smarter French Language Model Aged to Perfection},
author={Wissam Antoun and Francis Kulumba and Rian Touchent and Éric de la Clergerie and Benoît Sagot and Djamé Seddah},
year={2024},
eprint={2411.08868},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2411.08868},
}