🚀 CamemBERT:美味的法語語言模型
CamemBERT 是基於 RoBERTa 模型的先進法語語言模型,提供了多種不同參數規模和預訓練數據的版本,能為法語相關的自然語言處理任務提供強大支持。
🚀 快速開始
本模型是 此模型倉庫 在特定提交 482393b6198924f9da270b1aaf37d238aafca99b
時的副本。
CamemBERT 是一個基於 RoBERTa 模型的最先進的法語語言模型。現在,它在 Hugging Face 上有 6 種不同版本,參數數量、預訓練數據量和預訓練數據來源領域各不相同。
如需更多信息或有相關請求,請訪問 Camembert 官網。
✨ 主要特性
- 基於 RoBERTa 架構,在法語語言處理上表現出色。
- 提供多種不同參數規模和預訓練數據的版本,可根據需求靈活選擇。
📦 預訓練模型
模型 |
參數數量 |
架構 |
訓練數據 |
camembert-base |
1.1 億 |
基礎 |
OSCAR(138 GB 文本) |
camembert/camembert-large |
3.35 億 |
大型 |
CCNet(135 GB 文本) |
camembert/camembert-base-ccnet |
1.1 億 |
基礎 |
CCNet(135 GB 文本) |
camembert/camembert-base-wikipedia-4gb |
1.1 億 |
基礎 |
維基百科(4 GB 文本) |
camembert/camembert-base-oscar-4gb |
1.1 億 |
基礎 |
OSCAR 子樣本(4 GB 文本) |
camembert/camembert-base-ccnet-4gb |
1.1 億 |
基礎 |
CCNet 子樣本(4 GB 文本) |
💻 使用示例
基礎用法
from transformers import CamembertModel, CamembertTokenizer
tokenizer = CamembertTokenizer.from_pretrained("camembert-base")
camembert = CamembertModel.from_pretrained("camembert-base")
camembert.eval()
高級用法
使用管道填充掩碼
from transformers import pipeline
camembert_fill_mask = pipeline("fill-mask", model="camembert-base", tokenizer="camembert-base")
results = camembert_fill_mask("Le camembert est <mask> :)")
從 Camembert 輸出中提取上下文嵌入特徵
import torch
tokenized_sentence = tokenizer.tokenize("J'aime le camembert !")
encoded_sentence = tokenizer.encode(tokenized_sentence)
encoded_sentence = torch.tensor(encoded_sentence).unsqueeze(0)
embeddings, _ = camembert(encoded_sentence)
從所有 Camembert 層中提取上下文嵌入特徵
from transformers import CamembertConfig
config = CamembertConfig.from_pretrained("camembert-base", output_hidden_states=True)
camembert = CamembertModel.from_pretrained("camembert-base", config=config)
embeddings, _, all_layer_embeddings = camembert(encoded_sentence)
all_layer_embeddings[5]
📄 許可證
本項目採用 MIT 許可證。
👨💻 作者
CamemBERT 由 Louis Martin*、Benjamin Muller*、Pedro Javier Ortiz Suárez*、Yoann Dupont、Laurent Romary、Éric Villemonte de la Clergerie、Djamé Seddah 和 Benoît Sagot 進行訓練和評估。
📚 引用
如果您使用了我們的工作,請引用以下文獻:
@inproceedings{martin2020camembert,
title={CamemBERT: a Tasty French Language Model},
author={Martin, Louis and Muller, Benjamin and Su{\'a}rez, Pedro Javier Ortiz and Dupont, Yoann and Romary, Laurent and de la Clergerie, {\'E}ric Villemonte and Seddah, Djam{\'e} and Sagot, Beno{\^\i}t},
booktitle={Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics},
year={2020}
}