camembert-base-legacy开源法语语言模型 - 基于维基百科训练助力法语应用

首页

Camembert Base Legacy

由 almanach 开发

CamemBERT是基于RoBERTa的法语语言模型，该版本使用维基百科4GB文本训练

大型语言模型

Transformers

法语#法语语言模型 #基于RoBERTa #多版本适配

下载量 24.98k

发布时间 : 3/2/2022

模型简介

基于RoBERTa架构的法语预训练语言模型，适用于各种法语自然语言处理任务

模型特点

法语优化

专门针对法语语言特点进行优化的预训练模型

多版本选择

提供6种不同版本，参数规模和数据源各不相同

基于RoBERTa架构

采用经过验证的RoBERTa架构，性能稳定可靠

模型能力

文本特征提取

掩码语言预测

上下文嵌入生成

使用案例

自然语言处理

文本补全

预测被掩码遮盖的文本内容

示例中成功预测'chèvre'为最可能的补全词

语义分析

提取文本的上下文嵌入特征

可获取各层次的语义表示

🚀 CamemBERT：美味的法语语言模型

CamemBERT 是基于 RoBERTa 模型的最先进法语语言模型，能够有效处理法语相关的自然语言处理任务，为法语的语义理解、文本生成等提供强大支持。

🚀 快速开始

⚠️ 重要提示

此检查点已弃用，请使用 https://huggingface.co/almanach/camembert-base 替代。

CamemBERT 是一个基于 RoBERTa 模型的最先进法语语言模型。

它现在在 Hugging Face 上有 6 种不同版本，参数数量、预训练数据量和预训练数据源领域各不相同。

如需更多信息或有相关请求，请访问 Camembert 官网。

✨ 主要特性

CamemBERT 提供了多种不同参数规模和训练数据的模型版本，以适应不同的应用场景和需求。

📦 安装指南

文档未提及安装步骤，此处跳过。

💻 使用示例

基础用法

加载 CamemBERT 及其子词分词器

from transformers import CamembertModel, CamembertTokenizer

# 你可以将 "camembert-base" 替换为表格中的任何其他模型，例如 "camembert/camembert-large"。
tokenizer = CamembertTokenizer.from_pretrained("camembert/camembert-base-wikipedia-4gb")
camembert = CamembertModel.from_pretrained("camembert/camembert-base-wikipedia-4gb")

camembert.eval()  # 禁用 dropout（或保持训练模式以进行微调）

使用管道填充掩码

from transformers import pipeline 

camembert_fill_mask  = pipeline("fill-mask", model="camembert/camembert-base-wikipedia-4gb", tokenizer="camembert/camembert-base-wikipedia-4gb")
results = camembert_fill_mask("Le camembert est un fromage de <mask>!")
# results
#[{'sequence': '<s> Le camembert est un fromage de chèvre!</s>', 'score': 0.4937814474105835, 'token': 19370}, 
#{'sequence': '<s> Le camembert est un fromage de brebis!</s>', 'score': 0.06255942583084106, 'token': 30616}, 
#{'sequence': '<s> Le camembert est un fromage de montagne!</s>', 'score': 0.04340197145938873, 'token': 2364},
# {'sequence': '<s> Le camembert est un fromage de Noël!</s>', 'score': 0.02823255956172943, 'token': 3236}, 
#{'sequence': '<s> Le camembert est un fromage de vache!</s>', 'score': 0.021357402205467224, 'token': 12329}]

高级用法

从 Camembert 输出中提取上下文嵌入特征

import torch
# 使用 SentencePiece 进行子词分词
tokenized_sentence = tokenizer.tokenize("J'aime le camembert !")
# ['▁J', "'", 'aime', '▁le', '▁ca', 'member', 't', '▁!'] 

# 进行 one-hot 编码并添加特殊的起始和结束标记 
encoded_sentence = tokenizer.encode(tokenized_sentence)
# [5, 221, 10, 10600, 14, 8952, 10540, 75, 1114, 6]
# 注意：可以一步完成：tokenize.encode("J'aime le camembert !")

# 将标记作为 torch 张量输入到 Camembert 中（批次维度为 1）
encoded_sentence = torch.tensor(encoded_sentence).unsqueeze(0)
embeddings, _ = camembert(encoded_sentence)
# embeddings.detach()
# embeddings.size torch.Size([1, 10, 768])
#tensor([[[-0.0928,  0.0506, -0.0094,  ..., -0.2388,  0.1177, -0.1302],
#         [ 0.0662,  0.1030, -0.2355,  ..., -0.4224, -0.0574, -0.2802],
#         [-0.0729,  0.0547,  0.0192,  ..., -0.1743,  0.0998, -0.2677],
#         ...,

从所有 Camembert 层中提取上下文嵌入特征

from transformers import CamembertConfig
# （需要使用新配置重新加载模型）
config = CamembertConfig.from_pretrained("camembert/camembert-base-wikipedia-4gb", output_hidden_states=True)
camembert = CamembertModel.from_pretrained("camembert/camembert-base-wikipedia-4gb", config=config)

embeddings, _, all_layer_embeddings = camembert(encoded_sentence)
#  all_layer_embeddings 列表长度为 13（输入嵌入层 + 12 个自注意力层）
all_layer_embeddings[5]
# 第 5 层上下文嵌入：大小为 torch.Size([1, 10, 768])
#tensor([[[-0.0059, -0.0227,  0.0065,  ..., -0.0770,  0.0369,  0.0095],
#         [ 0.2838, -0.1531, -0.3642,  ..., -0.0027, -0.8502, -0.7914],
#         [-0.0073, -0.0338, -0.0011,  ...,  0.0533, -0.0250, -0.0061],
#         ...,

📚 详细文档

预训练模型

属性	详情
模型类型	`camembert-base`、`camembert/camembert-large`、`camembert/camembert-base-ccnet`、`camembert/camembert-base-wikipedia-4gb`、`camembert/camembert-base-oscar-4gb`、`camembert/camembert-base-ccnet-4gb`
训练数据	`camembert-base`：OSCAR（138 GB 文本）；`camembert/camembert-large`：CCNet（135 GB 文本）；`camembert/camembert-base-ccnet`：CCNet（135 GB 文本）；`camembert/camembert-base-wikipedia-4gb`：Wikipedia（4 GB 文本）；`camembert/camembert-base-oscar-4gb`：OSCAR 子样本（4 GB 文本）；`camembert/camembert-base-ccnet-4gb`：CCNet 子样本（4 GB 文本）
参数数量	`camembert-base`：1.1 亿；`camembert/camembert-large`：3.35 亿；`camembert/camembert-base-ccnet`：1.1 亿；`camembert/camembert-base-wikipedia-4gb`：1.1 亿；`camembert/camembert-base-oscar-4gb`：1.1 亿；`camembert/camembert-base-ccnet-4gb`：1.1 亿
架构	`camembert-base`、`camembert/camembert-base-ccnet`、`camembert/camembert-base-wikipedia-4gb`、`camembert/camembert-base-oscar-4gb`、`camembert/camembert-base-ccnet-4gb`：基础架构；`camembert/camembert-large`：大型架构

🔧 技术细节

文档未提及技术细节，此处跳过。

📄 许可证

文档未提及许可证信息，此处跳过。

👨‍💻 作者

CamemBERT 由 Louis Martin*、Benjamin Muller*、Pedro Javier Ortiz Suárez*、Yoann Dupont、Laurent Romary、Éric Villemonte de la Clergerie、Djamé Seddah 和 Benoît Sagot 进行训练和评估。

📚 引用

如果您使用我们的工作，请引用：

@inproceedings{martin2020camembert,
  title={CamemBERT: a Tasty French Language Model},
  author={Martin, Louis and Muller, Benjamin and Su{\'a}rez, Pedro Javier Ortiz and Dupont, Yoann and Romary, Laurent and de la Clergerie, {\'E}ric Villemonte and Seddah, Djam{\'e} and Sagot, Beno{\^\i}t},
  booktitle={Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics},
  year={2020}
}