Camembertv2-base开源法语语言模型 - 基于海量语料，助力法语文本处理

首页

Camembertv2 Base

由 almanach 开发

CamemBERTv2是基于2750亿法语文本语料预训练的法语语言模型，是CamemBERT的第二代版本，采用RoBERTa架构，优化了分词器和训练数据。

大型语言模型

Transformers

法语开源协议:MIT #法语语言模型 #掩码语言建模 #大语料预训练

下载量 1,512

发布时间 : 11/14/2024

模型简介

CamemBERTv2是一个更智能的法语语言模型，适用于各种自然语言处理任务，如文本填充、词性标注、命名实体识别等。

模型特点

大规模预训练数据

使用2750亿唯一词符进行预训练，远超原版的320亿。

全新分词器

采用WordPiece分词器，支持表情符号，优化数字处理（拆分为两位数词符）。

扩展上下文窗口

上下文窗口扩展至1024词符，提升长文本处理能力。

高性能微调

在多个法语NLP任务上表现优异，如词性标注、命名实体识别等。

模型能力

文本填充

词性标注

依存分析

命名实体识别

问答系统

文本分类

使用案例

自然语言处理

法语文本填充

用于填充法语文本中的缺失部分。

词性标注

对法语文本进行词性标注。

UPOS准确率97.66

命名实体识别

识别法语文本中的命名实体。

FTB-NER F1分数91.99

问答系统

法语问答

用于构建法语问答系统。

FQuAD F1分数80.98

🚀 CamemBERT(a)-v2：一款臻于完美的智能法语语言模型

CamemBERTv2 是一款在 2750 亿个法语文本标记的大型语料库上进行预训练的法语语言模型。它是 CamemBERT 模型的第二个版本，基于 RoBERTa 架构构建。CamemBERTv2 使用掩码语言模型（MLM）目标进行训练，掩码率为 40%，在 32 个 H100 GPU 上训练 3 个周期。用于训练的数据集是来自 CulturaX 项目的法语 OSCAR 转储、来自 HALvest 的法语科学文档以及法语维基百科的组合。

该模型可以直接替代原始的 CamemBERT 模型。请注意，新的分词器与原始的 CamemBERT 分词器不同，因此你需要使用快速分词器来使用该模型。即使原始的 CamemBERTTokenizer 基于 SentencePiece，它也可以与 transformers 库中的 CamemBERTTokenizerFast 一起使用。

查看基于 DeBERTaV3 的更强大的法语语言模型 CamemBERTav2 模型，点击此处。

📚 详细文档

模型更新详情

此次更新包含以下内容：

更大的预训练数据集：2750 亿个唯一标记（之前约为 320 亿个）
基于 WordPiece 构建的新分词器，包含 32768 个标记，新增换行符和制表符，支持表情符号，并能更好地处理数字（数字被拆分为两位数字标记）
上下文窗口扩展至 1024 个标记

更多详细信息可查看 CamemBERTv2 论文。

如何使用

from transformers import AutoTokenizer, AutoModel, AutoModelForMaskedLM

camembertv2 = AutoModelForMaskedLM.from_pretrained("almanach/camembertv2-base")
tokenizer = AutoTokenizer.from_pretrained("almanach/camembertv2-base")

微调结果

数据集包括：词性标注和依存句法分析（GSD、Rhapsodie、Sequoia、FSMB）、命名实体识别（FTB）、FLUE 基准测试（XNLI、CLS、PAWS - X）、法语问答数据集（FQuAD）、社交媒体命名实体识别（Counter - NER）和医学命名实体识别（CAS1、CAS2、E3C、EMEA、MEDLINE）。

模型	通用词性标注（UPOS）	标注附着率（LAS）	FTB 命名实体识别	分类任务（CLS）	PAWS - X	跨语言自然语言推理（XNLI）	FQuAD F1 分数	FQuAD 精确匹配率（EM）	社交媒体命名实体识别	医学命名实体识别
CamemBERT	97.59	88.69	89.97	94.62	91.36	81.95	80.98	62.51	84.18	70.96
CamemBERTa	97.57	88.55	90.33	94.92	91.67	82.00	81.15	62.01	87.37	71.86
CamemBERT - bio	-	-	-	-	-	-	-	-	-	73.96
CamemBERTv2	97.66	88.64	91.99	95.07	92.00	81.75	80.98	61.35	87.46	72.77
CamemBERTav2	97.71	88.65	93.40	95.63	93.06	84.82	83.04	64.29	89.53	73.98

微调后的模型可在以下集合中找到：CamemBERTv2 微调模型

预训练代码库

我们对所有 v2 模型使用来自 CamemBERTa 仓库的预训练代码库。

引用

@misc{antoun2024camembert20smarterfrench,
      title={CamemBERT 2.0: A Smarter French Language Model Aged to Perfection},
      author={Wissam Antoun and Francis Kulumba and Rian Touchent and Éric de la Clergerie and Benoît Sagot and Djamé Seddah},
      year={2024},
      eprint={2411.08868},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2411.08868},
}

信息表格

属性	详情
模型类型	CamemBERT(a)-v2，基于 RoBERTa 架构的法语语言模型
训练数据	来自 CulturaX 项目的法语 OSCAR 转储、来自 HALvest 的法语科学文档以及法语维基百科