🚀 CamemBERT(a)-v2:一款臻于完美的智能法语语言模型
CamemBERTv2 是一款在 2750 亿个法语文本标记的大型语料库上进行预训练的法语语言模型。它是 CamemBERT 模型的第二个版本,基于 RoBERTa 架构构建。CamemBERTv2 使用掩码语言模型(MLM)目标进行训练,掩码率为 40%,在 32 个 H100 GPU 上训练 3 个周期。用于训练的数据集是来自 CulturaX 项目 的法语 OSCAR 转储、来自 HALvest 的法语科学文档以及法语维基百科的组合。
该模型可以直接替代原始的 CamemBERT 模型。请注意,新的分词器与原始的 CamemBERT 分词器不同,因此你需要使用快速分词器来使用该模型。即使原始的 CamemBERTTokenizer
基于 SentencePiece,它也可以与 transformers
库中的 CamemBERTTokenizerFast
一起使用。
查看基于 DeBERTaV3 的更强大的法语语言模型 CamemBERTav2 模型,点击此处。
📚 详细文档
模型更新详情
此次更新包含以下内容:
- 更大的预训练数据集:2750 亿个唯一标记(之前约为 320 亿个)
- 基于 WordPiece 构建的新分词器,包含 32768 个标记,新增换行符和制表符,支持表情符号,并能更好地处理数字(数字被拆分为两位数字标记)
- 上下文窗口扩展至 1024 个标记
更多详细信息可查看 CamemBERTv2 论文。
如何使用
from transformers import AutoTokenizer, AutoModel, AutoModelForMaskedLM
camembertv2 = AutoModelForMaskedLM.from_pretrained("almanach/camembertv2-base")
tokenizer = AutoTokenizer.from_pretrained("almanach/camembertv2-base")
微调结果
数据集包括:词性标注和依存句法分析(GSD、Rhapsodie、Sequoia、FSMB)、命名实体识别(FTB)、FLUE 基准测试(XNLI、CLS、PAWS - X)、法语问答数据集(FQuAD)、社交媒体命名实体识别(Counter - NER)和医学命名实体识别(CAS1、CAS2、E3C、EMEA、MEDLINE)。
模型 |
通用词性标注(UPOS) |
标注附着率(LAS) |
FTB 命名实体识别 |
分类任务(CLS) |
PAWS - X |
跨语言自然语言推理(XNLI) |
FQuAD F1 分数 |
FQuAD 精确匹配率(EM) |
社交媒体命名实体识别 |
医学命名实体识别 |
CamemBERT |
97.59 |
88.69 |
89.97 |
94.62 |
91.36 |
81.95 |
80.98 |
62.51 |
84.18 |
70.96 |
CamemBERTa |
97.57 |
88.55 |
90.33 |
94.92 |
91.67 |
82.00 |
81.15 |
62.01 |
87.37 |
71.86 |
CamemBERT - bio |
- |
- |
- |
- |
- |
- |
- |
- |
- |
73.96 |
CamemBERTv2 |
97.66 |
88.64 |
91.99 |
95.07 |
92.00 |
81.75 |
80.98 |
61.35 |
87.46 |
72.77 |
CamemBERTav2 |
97.71 |
88.65 |
93.40 |
95.63 |
93.06 |
84.82 |
83.04 |
64.29 |
89.53 |
73.98 |
微调后的模型可在以下集合中找到:CamemBERTv2 微调模型
预训练代码库
我们对所有 v2 模型使用来自 CamemBERTa 仓库 的预训练代码库。
引用
@misc{antoun2024camembert20smarterfrench,
title={CamemBERT 2.0: A Smarter French Language Model Aged to Perfection},
author={Wissam Antoun and Francis Kulumba and Rian Touchent and Éric de la Clergerie and Benoît Sagot and Djamé Seddah},
year={2024},
eprint={2411.08868},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2411.08868},
}
信息表格
属性 |
详情 |
模型类型 |
CamemBERT(a)-v2,基于 RoBERTa 架构的法语语言模型 |
训练数据 |
来自 CulturaX 项目的法语 OSCAR 转储、来自 HALvest 的法语科学文档以及法语维基百科 |