🚀 CamemBERT:美味的法语语言模型
CamemBERT 是一个基于 RoBERTa 模型的最先进的法语语言模型。它为法语自然语言处理任务提供了强大的支持,能够在多种应用场景中发挥出色的性能。
目前,CamemBERT 在 Hugging Face 上提供了 6 种不同版本,这些版本在参数数量、预训练数据量和预训练数据源领域等方面存在差异,用户可以根据自己的需求进行选择。
如需获取更多信息或提出请求,请访问 Camembert 官网。
✨ 主要特性
- 多版本选择:提供 6 种不同参数规模和预训练数据的版本,满足多样化的应用需求。
- 强大性能:基于 RoBERTa 架构,在法语自然语言处理任务上表现出色。
- 易于使用:与 Hugging Face 库集成,方便加载和使用。
📦 安装指南
文档中未提及具体安装步骤,若需使用 CamemBERT,可通过 Hugging Face 的 transformers
库进行安装,一般安装命令如下:
pip install transformers
💻 使用示例
基础用法
from transformers import CamembertModel, CamembertTokenizer
tokenizer = CamembertTokenizer.from_pretrained("camembert/camembert-base-wikipedia-4gb")
camembert = CamembertModel.from_pretrained("camembert/camembert-base-wikipedia-4gb")
camembert.eval()
高级用法
填充掩码
from transformers import pipeline
camembert_fill_mask = pipeline("fill-mask", model="camembert/camembert-base-wikipedia-4gb", tokenizer="camembert/camembert-base-wikipedia-4gb")
results = camembert_fill_mask("Le camembert est un fromage de <mask>!")
从 Camembert 输出中提取上下文嵌入特征
import torch
tokenized_sentence = tokenizer.tokenize("J'aime le camembert !")
encoded_sentence = tokenizer.encode(tokenized_sentence)
encoded_sentence = torch.tensor(encoded_sentence).unsqueeze(0)
embeddings, _ = camembert(encoded_sentence)
从所有 Camembert 层中提取上下文嵌入特征
from transformers import CamembertConfig
config = CamembertConfig.from_pretrained("camembert/camembert-base-wikipedia-4gb", output_hidden_states=True)
camembert = CamembertModel.from_pretrained("camembert/camembert-base-wikipedia-4gb", config=config)
embeddings, _, all_layer_embeddings = camembert(encoded_sentence)
all_layer_embeddings[5]
📚 详细文档
预训练模型
属性 |
详情 |
模型类型 |
camembert-base 、camembert/camembert-large 、camembert/camembert-base-ccnet 、camembert/camembert-base-wikipedia-4gb 、camembert/camembert-base-oscar-4gb 、camembert/camembert-base-ccnet-4gb |
训练数据 |
OSCAR(138 GB 文本)、CCNet(135 GB 文本)、Wikipedia(4 GB 文本)、OSCAR 子样本(4 GB 文本)、CCNet 子样本(4 GB 文本) |
模型 |
参数数量 |
架构 |
训练数据 |
camembert-base |
1.1 亿 |
基础 |
OSCAR(138 GB 文本) |
camembert/camembert-large |
3.35 亿 |
大型 |
CCNet(135 GB 文本) |
camembert/camembert-base-ccnet |
1.1 亿 |
基础 |
CCNet(135 GB 文本) |
camembert/camembert-base-wikipedia-4gb |
1.1 亿 |
基础 |
Wikipedia(4 GB 文本) |
camembert/camembert-base-oscar-4gb |
1.1 亿 |
基础 |
OSCAR 子样本(4 GB 文本) |
camembert/camembert-base-ccnet-4gb |
1.1 亿 |
基础 |
CCNet 子样本(4 GB 文本) |
🔧 技术细节
文档中未提供足够详细的技术实现细节。
📄 许可证
本项目采用 MIT 许可证。
👥 作者
CamemBERT 由 Louis Martin*、Benjamin Muller*、Pedro Javier Ortiz Suárez*、Yoann Dupont、Laurent Romary、Éric Villemonte de la Clergerie、Djamé Seddah 和 Benoît Sagot 进行训练和评估。
📖 引用
如果您使用了我们的工作,请引用以下文献:
@inproceedings{martin2020camembert,
title={CamemBERT: a Tasty French Language Model},
author={Martin, Louis and Muller, Benjamin and Su{\'a}rez, Pedro Javier Ortiz and Dupont, Yoann and Romary, Laurent and de la Clergerie, {\'E}ric Villemonte and Seddah, Djam{\'e} and Sagot, Beno{\^\i}t},
booktitle={Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics},
year={2020}
}