Distilcamembert-base开源法语语言模型 - 降低复杂度无损性能免费使用

首页

Distilcamembert Base

由 cmarkea 开发

DistilCamemBERT是法语CamemBERT模型的蒸馏版本，通过知识蒸馏技术显著降低模型复杂度，同时保持性能。

大型语言模型

Transformers

法语开源协议:MIT #法语轻量BERT #蒸馏模型 #掩码语言建模

下载量 15.79k

发布时间 : 3/2/2022

模型简介

该模型是法语RoBERTa模型CamemBERT的蒸馏版本，适用于多种自然语言处理任务，如文本分类、语义匹配等。

模型特点

知识蒸馏技术

通过蒸馏技术显著降低模型复杂度，同时保持性能，损失函数包括蒸馏损失、余弦损失和MLM损失。

高性能

在多个法语NLP任务上表现优异，如文本分类F1分数达83%，命名实体识别F1分数达98%。

轻量化

相比原始CamemBERT模型，蒸馏版模型更轻量，适合资源有限的环境。

模型能力

文本分类

语义匹配

自然语言推理

命名实体识别

掩码填充

使用案例

文本处理

文本分类

对法语文本进行分类，如情感分析、主题分类等。

在FLUE数据集上F1分数达83%。

语义匹配

判断两个法语文本的语义相似性。

在FLUE数据集上F1分数达77%。

信息提取

命名实体识别

从法语文本中识别命名实体，如人名、地名等。

在wikiner_fr数据集上F1分数达98%。

🚀 DistilCamemBERT

我们推出了著名的 CamemBERT（一种RoBERTa法语模型版本）的蒸馏版本，即DistilCamemBERT。蒸馏的目的是在保留性能的同时大幅降低模型的复杂度。概念验证在 DistilBERT论文中展示，训练使用的代码受 DistilBERT 代码的启发。

🚀 快速开始

DistilCamemBERT是CamemBERT的蒸馏版本，能在降低复杂度的同时保持性能。下面为你介绍使用方法。

✨ 主要特性

蒸馏版本：大幅降低模型复杂度，同时保留性能。
多任务表现良好：在多个评估数据集上有不错的f1分数。

📦 安装指南

暂未提及安装步骤，可参考Hugging Face Transformers库的通用安装方法。

💻 使用示例

基础用法

加载DistilCamemBERT及其子词分词器：

from transformers import AutoTokenizer, AutoModel

tokenizer = AutoTokenizer.from_pretrained("cmarkea/distilcamembert-base")
model = AutoModel.from_pretrained("cmarkea/distilcamembert-base")
model.eval()
...

高级用法

使用管道填充掩码：

from transformers import pipeline

model_fill_mask = pipeline("fill-mask", model="cmarkea/distilcamembert-base", tokenizer="cmarkea/distilcamembert-base")
results = model_fill_mask("Le camembert est <mask> :)")

results
[{'sequence': '<s> Le camembert est délicieux :)</s>', 'score': 0.3878222405910492, 'token': 7200},
 {'sequence': '<s> Le camembert est excellent :)</s>', 'score': 0.06469205021858215, 'token': 2183}, 
 {'sequence': '<s> Le camembert est parfait :)</s>', 'score': 0.04534877464175224, 'token': 1654}, 
 {'sequence': '<s> Le camembert est succulent :)</s>', 'score': 0.04128391295671463, 'token': 26202}, 
 {'sequence': '<s> Le camembert est magnifique :)</s>', 'score': 0.02425697259604931, 'token': 1509}]

📚 详细文档

损失函数

蒸馏模型（学生模型）的训练旨在尽可能接近原始模型（教师模型）。为此，损失函数由三部分组成：

DistilLoss：一种蒸馏损失，通过对MLM任务使用交叉熵损失来衡量学生模型和教师模型输出概率之间的相似度；
CosineLoss：一种余弦嵌入损失。此损失函数应用于学生模型和教师模型的最后隐藏层，以确保它们之间的共线性；
MLMLoss：最后是一个掩码语言建模（MLM）任务损失，用于让学生模型执行教师模型的原始任务。

最终的损失函数是这三个损失函数的组合。我们使用以下加权方式：

$$Loss = 0.5 \times DistilLoss + 0.3 \times CosineLoss + 0.2 \times MLMLoss$$

数据集

为了限制学生模型和教师模型之间的偏差，DistilCamemBERT训练使用的数据集与camembert-base训练使用的数据集相同：OSCAR。该数据集的法语部分在硬盘上大约占用140GB。

训练

我们在nVidia Titan RTX上对模型进行了18天的预训练。

评估结果

数据集名称	f1分数
FLUE CLS	83%
FLUE PAWS-X	77%
FLUE XNLI	77%
wikiner_fr NER	98%

🔧 技术细节

DistilCamemBERT的蒸馏过程参考了DistilBERT的方法，通过特定的损失函数组合，在降低模型复杂度的同时保留性能。训练使用了与CamemBERT相同的数据集OSCAR，以减少偏差。在nVidia Titan RTX上进行了18天的预训练。

📄 许可证

本项目采用MIT许可证。

📖 引用信息

@inproceedings{delestre:hal-03674695,
  TITLE = {{DistilCamemBERT : une distillation du mod{\`e}le fran{\c c}ais CamemBERT}},
  AUTHOR = {Delestre, Cyrile and Amar, Abibatou},
  URL = {https://hal.archives-ouvertes.fr/hal-03674695},
  BOOKTITLE = {{CAp (Conf{\'e}rence sur l'Apprentissage automatique)}},
  ADDRESS = {Vannes, France},
  YEAR = {2022},
  MONTH = Jul,
  KEYWORDS = {NLP ; Transformers ; CamemBERT ; Distillation},
  PDF = {https://hal.archives-ouvertes.fr/hal-03674695/file/cap2022.pdf},
  HAL_ID = {hal-03674695},
  HAL_VERSION = {v1},
}