🚀 CamemBERT:美味的法语语言模型
CamemBERT 是基于 RoBERTa 模型的先进法语语言模型,提供了多种不同参数规模和预训练数据的版本,能为法语相关的自然语言处理任务提供强大支持。
🚀 快速开始
本模型是 此模型仓库 在特定提交 482393b6198924f9da270b1aaf37d238aafca99b
时的副本。
CamemBERT 是一个基于 RoBERTa 模型的最先进的法语语言模型。现在,它在 Hugging Face 上有 6 种不同版本,参数数量、预训练数据量和预训练数据来源领域各不相同。
如需更多信息或有相关请求,请访问 Camembert 官网。
✨ 主要特性
- 基于 RoBERTa 架构,在法语语言处理上表现出色。
- 提供多种不同参数规模和预训练数据的版本,可根据需求灵活选择。
📦 预训练模型
模型 |
参数数量 |
架构 |
训练数据 |
camembert-base |
1.1 亿 |
基础 |
OSCAR(138 GB 文本) |
camembert/camembert-large |
3.35 亿 |
大型 |
CCNet(135 GB 文本) |
camembert/camembert-base-ccnet |
1.1 亿 |
基础 |
CCNet(135 GB 文本) |
camembert/camembert-base-wikipedia-4gb |
1.1 亿 |
基础 |
维基百科(4 GB 文本) |
camembert/camembert-base-oscar-4gb |
1.1 亿 |
基础 |
OSCAR 子样本(4 GB 文本) |
camembert/camembert-base-ccnet-4gb |
1.1 亿 |
基础 |
CCNet 子样本(4 GB 文本) |
💻 使用示例
基础用法
from transformers import CamembertModel, CamembertTokenizer
tokenizer = CamembertTokenizer.from_pretrained("camembert-base")
camembert = CamembertModel.from_pretrained("camembert-base")
camembert.eval()
高级用法
使用管道填充掩码
from transformers import pipeline
camembert_fill_mask = pipeline("fill-mask", model="camembert-base", tokenizer="camembert-base")
results = camembert_fill_mask("Le camembert est <mask> :)")
从 Camembert 输出中提取上下文嵌入特征
import torch
tokenized_sentence = tokenizer.tokenize("J'aime le camembert !")
encoded_sentence = tokenizer.encode(tokenized_sentence)
encoded_sentence = torch.tensor(encoded_sentence).unsqueeze(0)
embeddings, _ = camembert(encoded_sentence)
从所有 Camembert 层中提取上下文嵌入特征
from transformers import CamembertConfig
config = CamembertConfig.from_pretrained("camembert-base", output_hidden_states=True)
camembert = CamembertModel.from_pretrained("camembert-base", config=config)
embeddings, _, all_layer_embeddings = camembert(encoded_sentence)
all_layer_embeddings[5]
📄 许可证
本项目采用 MIT 许可证。
👨💻 作者
CamemBERT 由 Louis Martin*、Benjamin Muller*、Pedro Javier Ortiz Suárez*、Yoann Dupont、Laurent Romary、Éric Villemonte de la Clergerie、Djamé Seddah 和 Benoît Sagot 进行训练和评估。
📚 引用
如果您使用了我们的工作,请引用以下文献:
@inproceedings{martin2020camembert,
title={CamemBERT: a Tasty French Language Model},
author={Martin, Louis and Muller, Benjamin and Su{\'a}rez, Pedro Javier Ortiz and Dupont, Yoann and Romary, Laurent and de la Clergerie, {\'E}ric Villemonte and Seddah, Djam{\'e} and Sagot, Beno{\^\i}t},
booktitle={Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics},
year={2020}
}