CamemBERT-base開源法語語言模型 - 6版本支持多類型自然語言處理任務

首頁

Camembert Base

由DataikuNLP開發

CamemBERT是基於RoBERTa開發的法語先進語言模型，提供6種不同版本，適用於多種法語自然語言處理任務。

大型語言模型

Transformers

法語開源協議:MIT #法語語言模型 #RoBERTa架構 #文本填充

下載量 95

發布時間 : 3/2/2022

模型概述

CamemBERT是一款基於RoBERTa架構的法語語言模型，專門針對法語文本進行優化，可用於文本分類、命名實體識別等多種自然語言處理任務。

模型特點

多版本選擇

提供6種不同版本，參數數量和預訓練數據量各不相同，滿足不同需求。

高效預訓練

基於RoBERTa架構，使用大規模法語文本數據進行預訓練，性能優異。

易用性

可通過Hugging Face Transformers庫輕鬆加載和使用。

模型能力

文本填充

上下文嵌入提取

法語文本理解

自然語言處理

使用案例

文本處理

掩碼填充

預測並填充句子中被掩碼的詞語

能準確預測法語文本中被掩碼的詞語，如將'Le camembert est <mask> :)'填充為'Le camembert est délicieux :)'

特徵提取

上下文嵌入

提取法語文本的上下文相關特徵表示

可獲取單詞和句子的高質量向量表示，適用於下游任務

🚀 CamemBERT：美味的法語語言模型

CamemBERT 是基於 RoBERTa 模型的先進法語語言模型，提供了多種不同參數規模和預訓練數據的版本，能為法語相關的自然語言處理任務提供強大支持。

🚀 快速開始

本模型是此模型倉庫在特定提交 482393b6198924f9da270b1aaf37d238aafca99b 時的副本。

CamemBERT 是一個基於 RoBERTa 模型的最先進的法語語言模型。現在，它在 Hugging Face 上有 6 種不同版本，參數數量、預訓練數據量和預訓練數據來源領域各不相同。

如需更多信息或有相關請求，請訪問 Camembert 官網。

✨ 主要特性

基於 RoBERTa 架構，在法語語言處理上表現出色。
提供多種不同參數規模和預訓練數據的版本，可根據需求靈活選擇。

📦 預訓練模型

模型	參數數量	架構	訓練數據
`camembert-base`	1.1 億	基礎	OSCAR（138 GB 文本）
`camembert/camembert-large`	3.35 億	大型	CCNet（135 GB 文本）
`camembert/camembert-base-ccnet`	1.1 億	基礎	CCNet（135 GB 文本）
`camembert/camembert-base-wikipedia-4gb`	1.1 億	基礎	維基百科（4 GB 文本）
`camembert/camembert-base-oscar-4gb`	1.1 億	基礎	OSCAR 子樣本（4 GB 文本）
`camembert/camembert-base-ccnet-4gb`	1.1 億	基礎	CCNet 子樣本（4 GB 文本）

💻 使用示例

基礎用法

# 加載 CamemBERT 及其子詞分詞器
from transformers import CamembertModel, CamembertTokenizer

# 你可以將 "camembert-base" 替換為表格中的任何其他模型，例如 "camembert/camembert-large"。
tokenizer = CamembertTokenizer.from_pretrained("camembert-base")
camembert = CamembertModel.from_pretrained("camembert-base")

camembert.eval()  # 禁用 dropout（或保留在訓練模式以進行微調）

高級用法

使用管道填充掩碼

from transformers import pipeline 

camembert_fill_mask  = pipeline("fill-mask", model="camembert-base", tokenizer="camembert-base")
results = camembert_fill_mask("Le camembert est <mask> :)")
# results
#[{'sequence': '<s> Le camembert est délicieux :)</s>', 'score': 0.4909103214740753, 'token': 7200},
# {'sequence': '<s> Le camembert est excellent :)</s>', 'score': 0.10556930303573608, 'token': 2183}, 
# {'sequence': '<s> Le camembert est succulent :)</s>', 'score': 0.03453315049409866, 'token': 26202}, 
# {'sequence': '<s> Le camembert est meilleur :)</s>', 'score': 0.03303130343556404, 'token': 528}, 
# {'sequence': '<s> Le camembert est parfait :)</s>', 'score': 0.030076518654823303, 'token': 1654}]

從 Camembert 輸出中提取上下文嵌入特徵

import torch
# 使用 SentencePiece 進行子詞分詞
tokenized_sentence = tokenizer.tokenize("J'aime le camembert !")
# ['▁J', "'", 'aime', '▁le', '▁ca', 'member', 't', '▁!'] 

# 進行 one-hot 編碼並添加特殊的起始和結束標記 
encoded_sentence = tokenizer.encode(tokenized_sentence)
# [5, 121, 11, 660, 16, 730, 25543, 110, 83, 6] 
# 注意：可以一步完成：tokenize.encode("J'aime le camembert !")

# 將標記作為 torch 張量輸入到 Camembert 中（批量維度為 1）
encoded_sentence = torch.tensor(encoded_sentence).unsqueeze(0)
embeddings, _ = camembert(encoded_sentence)
# embeddings.detach()
# embeddings.size torch.Size([1, 10, 768])
# tensor([[[-0.0254,  0.0235,  0.1027,  ..., -0.1459, -0.0205, -0.0116],
#         [ 0.0606, -0.1811, -0.0418,  ..., -0.1815,  0.0880, -0.0766],
#         [-0.1561, -0.1127,  0.2687,  ..., -0.0648,  0.0249,  0.0446],
#         ...,

從所有 Camembert 層中提取上下文嵌入特徵

from transformers import CamembertConfig
# （需要使用新配置重新加載模型）
config = CamembertConfig.from_pretrained("camembert-base", output_hidden_states=True)
camembert = CamembertModel.from_pretrained("camembert-base", config=config)

embeddings, _, all_layer_embeddings = camembert(encoded_sentence)
#  all_layer_embeddings 列表長度為 13（輸入嵌入層 + 12 個自注意力層）
all_layer_embeddings[5]
# 第 5 層上下文嵌入：大小為 torch.Size([1, 10, 768])
#tensor([[[-0.0032,  0.0075,  0.0040,  ..., -0.0025, -0.0178, -0.0210],
#         [-0.0996, -0.1474,  0.1057,  ..., -0.0278,  0.1690, -0.2982],
#         [ 0.0557, -0.0588,  0.0547,  ..., -0.0726, -0.0867,  0.0699],
#         ...,

📄 許可證

本項目採用 MIT 許可證。

👨‍💻 作者

CamemBERT 由 Louis Martin*、Benjamin Muller*、Pedro Javier Ortiz Suárez*、Yoann Dupont、Laurent Romary、Éric Villemonte de la Clergerie、Djamé Seddah 和 Benoît Sagot 進行訓練和評估。

📚 引用

如果您使用了我們的工作，請引用以下文獻：

@inproceedings{martin2020camembert,
  title={CamemBERT: a Tasty French Language Model},
  author={Martin, Louis and Muller, Benjamin and Su{\'a}rez, Pedro Javier Ortiz and Dupont, Yoann and Romary, Laurent and de la Clergerie, {\'E}ric Villemonte and Seddah, Djam{\'e} and Sagot, Beno{\^\i}t},
  booktitle={Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics},
  year={2020}
}