camembert-base-legacy開源法語語言模型 - 基於維基百科訓練助力法語應用

首頁

Camembert Base Legacy

由almanach開發

CamemBERT是基於RoBERTa的法語語言模型，該版本使用維基百科4GB文本訓練

大型語言模型

Transformers

法語#法語語言模型 #基於RoBERTa #多版本適配

下載量 24.98k

發布時間 : 3/2/2022

模型概述

基於RoBERTa架構的法語預訓練語言模型，適用於各種法語自然語言處理任務

模型特點

法語優化

專門針對法語語言特點進行優化的預訓練模型

多版本選擇

提供6種不同版本，參數規模和數據源各不相同

基於RoBERTa架構

採用經過驗證的RoBERTa架構，性能穩定可靠

模型能力

文本特徵提取

掩碼語言預測

上下文嵌入生成

使用案例

自然語言處理

文本補全

預測被掩碼遮蓋的文本內容

示例中成功預測'chèvre'為最可能的補全詞

語義分析

提取文本的上下文嵌入特徵

可獲取各層次的語義表示

🚀 CamemBERT：美味的法語語言模型

CamemBERT 是基於 RoBERTa 模型的最先進法語語言模型，能夠有效處理法語相關的自然語言處理任務，為法語的語義理解、文本生成等提供強大支持。

🚀 快速開始

⚠️ 重要提示

此檢查點已棄用，請使用 https://huggingface.co/almanach/camembert-base 替代。

CamemBERT 是一個基於 RoBERTa 模型的最先進法語語言模型。

它現在在 Hugging Face 上有 6 種不同版本，參數數量、預訓練數據量和預訓練數據源領域各不相同。

如需更多信息或有相關請求，請訪問 Camembert 官網。

✨ 主要特性

CamemBERT 提供了多種不同參數規模和訓練數據的模型版本，以適應不同的應用場景和需求。

📦 安裝指南

文檔未提及安裝步驟，此處跳過。

💻 使用示例

基礎用法

加載 CamemBERT 及其子詞分詞器

from transformers import CamembertModel, CamembertTokenizer

# 你可以將 "camembert-base" 替換為表格中的任何其他模型，例如 "camembert/camembert-large"。
tokenizer = CamembertTokenizer.from_pretrained("camembert/camembert-base-wikipedia-4gb")
camembert = CamembertModel.from_pretrained("camembert/camembert-base-wikipedia-4gb")

camembert.eval()  # 禁用 dropout（或保持訓練模式以進行微調）

使用管道填充掩碼

from transformers import pipeline 

camembert_fill_mask  = pipeline("fill-mask", model="camembert/camembert-base-wikipedia-4gb", tokenizer="camembert/camembert-base-wikipedia-4gb")
results = camembert_fill_mask("Le camembert est un fromage de <mask>!")
# results
#[{'sequence': '<s> Le camembert est un fromage de chèvre!</s>', 'score': 0.4937814474105835, 'token': 19370}, 
#{'sequence': '<s> Le camembert est un fromage de brebis!</s>', 'score': 0.06255942583084106, 'token': 30616}, 
#{'sequence': '<s> Le camembert est un fromage de montagne!</s>', 'score': 0.04340197145938873, 'token': 2364},
# {'sequence': '<s> Le camembert est un fromage de Noël!</s>', 'score': 0.02823255956172943, 'token': 3236}, 
#{'sequence': '<s> Le camembert est un fromage de vache!</s>', 'score': 0.021357402205467224, 'token': 12329}]

高級用法

從 Camembert 輸出中提取上下文嵌入特徵

import torch
# 使用 SentencePiece 進行子詞分詞
tokenized_sentence = tokenizer.tokenize("J'aime le camembert !")
# ['▁J', "'", 'aime', '▁le', '▁ca', 'member', 't', '▁!'] 

# 進行 one-hot 編碼並添加特殊的起始和結束標記 
encoded_sentence = tokenizer.encode(tokenized_sentence)
# [5, 221, 10, 10600, 14, 8952, 10540, 75, 1114, 6]
# 注意：可以一步完成：tokenize.encode("J'aime le camembert !")

# 將標記作為 torch 張量輸入到 Camembert 中（批次維度為 1）
encoded_sentence = torch.tensor(encoded_sentence).unsqueeze(0)
embeddings, _ = camembert(encoded_sentence)
# embeddings.detach()
# embeddings.size torch.Size([1, 10, 768])
#tensor([[[-0.0928,  0.0506, -0.0094,  ..., -0.2388,  0.1177, -0.1302],
#         [ 0.0662,  0.1030, -0.2355,  ..., -0.4224, -0.0574, -0.2802],
#         [-0.0729,  0.0547,  0.0192,  ..., -0.1743,  0.0998, -0.2677],
#         ...,

從所有 Camembert 層中提取上下文嵌入特徵

from transformers import CamembertConfig
# （需要使用新配置重新加載模型）
config = CamembertConfig.from_pretrained("camembert/camembert-base-wikipedia-4gb", output_hidden_states=True)
camembert = CamembertModel.from_pretrained("camembert/camembert-base-wikipedia-4gb", config=config)

embeddings, _, all_layer_embeddings = camembert(encoded_sentence)
#  all_layer_embeddings 列表長度為 13（輸入嵌入層 + 12 個自注意力層）
all_layer_embeddings[5]
# 第 5 層上下文嵌入：大小為 torch.Size([1, 10, 768])
#tensor([[[-0.0059, -0.0227,  0.0065,  ..., -0.0770,  0.0369,  0.0095],
#         [ 0.2838, -0.1531, -0.3642,  ..., -0.0027, -0.8502, -0.7914],
#         [-0.0073, -0.0338, -0.0011,  ...,  0.0533, -0.0250, -0.0061],
#         ...,

📚 詳細文檔

預訓練模型

屬性	詳情
模型類型	`camembert-base`、`camembert/camembert-large`、`camembert/camembert-base-ccnet`、`camembert/camembert-base-wikipedia-4gb`、`camembert/camembert-base-oscar-4gb`、`camembert/camembert-base-ccnet-4gb`
訓練數據	`camembert-base`：OSCAR（138 GB 文本）；`camembert/camembert-large`：CCNet（135 GB 文本）；`camembert/camembert-base-ccnet`：CCNet（135 GB 文本）；`camembert/camembert-base-wikipedia-4gb`：Wikipedia（4 GB 文本）；`camembert/camembert-base-oscar-4gb`：OSCAR 子樣本（4 GB 文本）；`camembert/camembert-base-ccnet-4gb`：CCNet 子樣本（4 GB 文本）
參數數量	`camembert-base`：1.1 億；`camembert/camembert-large`：3.35 億；`camembert/camembert-base-ccnet`：1.1 億；`camembert/camembert-base-wikipedia-4gb`：1.1 億；`camembert/camembert-base-oscar-4gb`：1.1 億；`camembert/camembert-base-ccnet-4gb`：1.1 億
架構	`camembert-base`、`camembert/camembert-base-ccnet`、`camembert/camembert-base-wikipedia-4gb`、`camembert/camembert-base-oscar-4gb`、`camembert/camembert-base-ccnet-4gb`：基礎架構；`camembert/camembert-large`：大型架構

🔧 技術細節

文檔未提及技術細節，此處跳過。

📄 許可證

文檔未提及許可證信息，此處跳過。

👨‍💻 作者

CamemBERT 由 Louis Martin*、Benjamin Muller*、Pedro Javier Ortiz Suárez*、Yoann Dupont、Laurent Romary、Éric Villemonte de la Clergerie、Djamé Seddah 和 Benoît Sagot 進行訓練和評估。

📚 引用

如果您使用我們的工作，請引用：

@inproceedings{martin2020camembert,
  title={CamemBERT: a Tasty French Language Model},
  author={Martin, Louis and Muller, Benjamin and Su{\'a}rez, Pedro Javier Ortiz and Dupont, Yoann and Romary, Laurent and de la Clergerie, {\'E}ric Villemonte and Seddah, Djam{\'e} and Sagot, Beno{\^\i}t},
  booktitle={Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics},
  year={2020}
}