camembert-base開源法語語言模型 - 基於RoBERTa構建，提供6種版本

首頁

Camembert Base

由almanach開發

基於RoBERTa構建的法語尖端語言模型，提供6種不同版本

大型語言模型

Transformers

法語開源協議:MIT #法語專用 #多版本適配 #掩碼填充

下載量 1.7M

發布時間 : 3/2/2022

模型概述

CamemBERT是基於RoBERTa架構的法語預訓練語言模型，專門針對法語文本進行優化，適用於各種自然語言處理任務。

模型特點

法語優化

專門針對法語文本進行預訓練和優化

多版本選擇

提供6種不同版本，包括基礎版和大型版，適應不同需求

高效預訓練

基於RoBERTa架構，採用更高效的預訓練方法

模型能力

法語文本理解

掩碼語言建模

上下文嵌入提取

文本特徵表示

使用案例

自然語言處理

文本補全

預測被掩碼遮蓋的單詞

示例中成功預測'Le camembert est un fromage de chèvre!'

特徵提取

提取文本的上下文嵌入特徵

可獲取各層的上下文嵌入表示

🚀 CamemBERT：美味的法語語言模型

CamemBERT 是一個基於 RoBERTa 模型的最先進的法語語言模型。它為法語自然語言處理任務提供了強大的支持，能夠在多種應用場景中發揮出色的性能。

目前，CamemBERT 在 Hugging Face 上提供了 6 種不同版本，這些版本在參數數量、預訓練數據量和預訓練數據源領域等方面存在差異，用戶可以根據自己的需求進行選擇。

如需獲取更多信息或提出請求，請訪問 Camembert 官網。

✨ 主要特性

多版本選擇：提供 6 種不同參數規模和預訓練數據的版本，滿足多樣化的應用需求。
強大性能：基於 RoBERTa 架構，在法語自然語言處理任務上表現出色。
易於使用：與 Hugging Face 庫集成，方便加載和使用。

📦 安裝指南

文檔中未提及具體安裝步驟，若需使用 CamemBERT，可通過 Hugging Face 的 transformers 庫進行安裝，一般安裝命令如下：

pip install transformers

💻 使用示例

基礎用法

from transformers import CamembertModel, CamembertTokenizer

# 你可以將 "camembert-base" 替換為表格中的其他模型，例如 "camembert/camembert-large"。
tokenizer = CamembertTokenizer.from_pretrained("camembert/camembert-base-wikipedia-4gb")
camembert = CamembertModel.from_pretrained("camembert/camembert-base-wikipedia-4gb")

camembert.eval()  # 禁用 dropout（或保留訓練模式以進行微調）

高級用法

填充掩碼

from transformers import pipeline 

camembert_fill_mask  = pipeline("fill-mask", model="camembert/camembert-base-wikipedia-4gb", tokenizer="camembert/camembert-base-wikipedia-4gb")
results = camembert_fill_mask("Le camembert est un fromage de <mask>!")
# results
#[{'sequence': '<s> Le camembert est un fromage de chèvre!</s>', 'score': 0.4937814474105835, 'token': 19370}, 
#{'sequence': '<s> Le camembert est un fromage de brebis!</s>', 'score': 0.06255942583084106, 'token': 30616}, 
#{'sequence': '<s> Le camembert est un fromage de montagne!</s>', 'score': 0.04340197145938873, 'token': 2364},
# {'sequence': '<s> Le camembert est un fromage de Noël!</s>', 'score': 0.02823255956172943, 'token': 3236}, 
#{'sequence': '<s> Le camembert est un fromage de vache!</s>', 'score': 0.021357402205467224, 'token': 12329}]

從 Camembert 輸出中提取上下文嵌入特徵

import torch
# 使用 SentencePiece 進行子詞分詞
tokenized_sentence = tokenizer.tokenize("J'aime le camembert !")
# ['▁J', "'", 'aime', '▁le', '▁ca', 'member', 't', '▁!'] 

# 進行 one-hot 編碼並添加特殊的起始和結束標記 
encoded_sentence = tokenizer.encode(tokenized_sentence)
# [5, 221, 10, 10600, 14, 8952, 10540, 75, 1114, 6]
# 注意：可以一步完成：tokenize.encode("J'aime le camembert !")

# 將標記作為 torch 張量輸入到 Camembert 中（批次維度為 1）
encoded_sentence = torch.tensor(encoded_sentence).unsqueeze(0)
embeddings, _ = camembert(encoded_sentence)
# embeddings.detach()
# embeddings.size torch.Size([1, 10, 768])
#tensor([[[-0.0928,  0.0506, -0.0094,  ..., -0.2388,  0.1177, -0.1302],
#         [ 0.0662,  0.1030, -0.2355,  ..., -0.4224, -0.0574, -0.2802],
#         [-0.0729,  0.0547,  0.0192,  ..., -0.1743,  0.0998, -0.2677],
#         ...,

從所有 Camembert 層中提取上下文嵌入特徵

from transformers import CamembertConfig
# （需要使用新配置重新加載模型）
config = CamembertConfig.from_pretrained("camembert/camembert-base-wikipedia-4gb", output_hidden_states=True)
camembert = CamembertModel.from_pretrained("camembert/camembert-base-wikipedia-4gb", config=config)

embeddings, _, all_layer_embeddings = camembert(encoded_sentence)
#  all_layer_embeddings 列表長度為 13（輸入嵌入層 + 12 個自注意力層）
all_layer_embeddings[5]
# 第 5 層上下文嵌入：大小為 torch.Size([1, 10, 768])
#tensor([[[-0.0059, -0.0227,  0.0065,  ..., -0.0770,  0.0369,  0.0095],
#         [ 0.2838, -0.1531, -0.3642,  ..., -0.0027, -0.8502, -0.7914],
#         [-0.0073, -0.0338, -0.0011,  ...,  0.0533, -0.0250, -0.0061],
#         ...,

📚 詳細文檔

預訓練模型

屬性	詳情
模型類型	`camembert-base`、`camembert/camembert-large`、`camembert/camembert-base-ccnet`、`camembert/camembert-base-wikipedia-4gb`、`camembert/camembert-base-oscar-4gb`、`camembert/camembert-base-ccnet-4gb`
訓練數據	OSCAR（138 GB 文本）、CCNet（135 GB 文本）、Wikipedia（4 GB 文本）、OSCAR 子樣本（4 GB 文本）、CCNet 子樣本（4 GB 文本）

模型	參數數量	架構	訓練數據
`camembert-base`	1.1 億	基礎	OSCAR（138 GB 文本）
`camembert/camembert-large`	3.35 億	大型	CCNet（135 GB 文本）
`camembert/camembert-base-ccnet`	1.1 億	基礎	CCNet（135 GB 文本）
`camembert/camembert-base-wikipedia-4gb`	1.1 億	基礎	Wikipedia（4 GB 文本）
`camembert/camembert-base-oscar-4gb`	1.1 億	基礎	OSCAR 子樣本（4 GB 文本）
`camembert/camembert-base-ccnet-4gb`	1.1 億	基礎	CCNet 子樣本（4 GB 文本）

🔧 技術細節

文檔中未提供足夠詳細的技術實現細節。

📄 許可證

本項目採用 MIT 許可證。

👥 作者

CamemBERT 由 Louis Martin*、Benjamin Muller*、Pedro Javier Ortiz Suárez*、Yoann Dupont、Laurent Romary、Éric Villemonte de la Clergerie、Djamé Seddah 和 Benoît Sagot 進行訓練和評估。

📖 引用

如果您使用了我們的工作，請引用以下文獻：

@inproceedings{martin2020camembert,
  title={CamemBERT: a Tasty French Language Model},
  author={Martin, Louis and Muller, Benjamin and Su{\'a}rez, Pedro Javier Ortiz and Dupont, Yoann and Romary, Laurent and de la Clergerie, {\'E}ric Villemonte and Seddah, Djam{\'e} and Sagot, Beno{\^\i}t},
  booktitle={Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics},
  year={2020}
}