🚀 CamemBERT: 美味なフランス語言語モデル
CamemBERTは、RoBERTaモデルに基づく最先端のフランス語言語モデルです。
現在、Hugging Faceでは、パラメータ数、事前学習データの量、事前学習データのソースドメインが異なる6つの異なるバージョンで利用可能です。
詳細情報やリクエストについては、Camembertウェブサイトをご覧ください。
🚀 クイックスタート
このセクションでは、CamemBERTの基本的な使い方を説明します。
✨ 主な機能
CamemBERTは、RoBERTaモデルをベースにした最先端のフランス語言語モデルで、6種類の異なる事前学習モデルが提供されています。
📦 インストール
CamemBERTを使用するには、Hugging Faceのtransformers
ライブラリをインストールする必要があります。以下のコマンドでインストールできます。
pip install transformers
💻 使用例
基本的な使用法
CamemBERTとサブワードトークナイザーの読み込み
from transformers import CamembertModel, CamembertTokenizer
tokenizer = CamembertTokenizer.from_pretrained("camembert/camembert-base-wikipedia-4gb")
camembert = CamembertModel.from_pretrained("camembert/camembert-base-wikipedia-4gb")
camembert.eval()
パイプラインを使用したマスクの埋め込み
from transformers import pipeline
camembert_fill_mask = pipeline("fill-mask", model="camembert/camembert-base-wikipedia-4gb", tokenizer="camembert/camembert-base-wikipedia-4gb")
results = camembert_fill_mask("Le camembert est un fromage de <mask>!")
Camembertの出力から文脈的な埋め込み特徴を抽出する
import torch
tokenized_sentence = tokenizer.tokenize("J'aime le camembert !")
encoded_sentence = tokenizer.encode(tokenized_sentence)
encoded_sentence = torch.tensor(encoded_sentence).unsqueeze(0)
embeddings, _ = camembert(encoded_sentence)
すべてのCamembertレイヤーから文脈的な埋め込み特徴を抽出する
from transformers import CamembertConfig
config = CamembertConfig.from_pretrained("camembert/camembert-base-wikipedia-4gb", output_hidden_states=True)
camembert = CamembertModel.from_pretrained("camembert/camembert-base-wikipedia-4gb", config=config)
embeddings, _, all_layer_embeddings = camembert(encoded_sentence)
all_layer_embeddings[5]
📚 ドキュメント
事前学習モデル
プロパティ |
詳細 |
モデルタイプ |
以下の表に示す6種類のモデルがあります。 |
訓練データ |
各モデルに応じて、OSCAR、CCNet、Wikipediaなどのデータセットを使用しています。 |
モデル |
#パラメータ |
アーキテクチャ |
訓練データ |
camembert-base |
1億1000万 |
ベース |
OSCAR (138 GBのテキスト) |
camembert/camembert-large |
3億3500万 |
ラージ |
CCNet (135 GBのテキスト) |
camembert/camembert-base-ccnet |
1億1000万 |
ベース |
CCNet (135 GBのテキスト) |
camembert/camembert-base-wikipedia-4gb |
1億1000万 |
ベース |
Wikipedia (4 GBのテキスト) |
camembert/camembert-base-oscar-4gb |
1億1000万 |
ベース |
OSCARのサブサンプル (4 GBのテキスト) |
camembert/camembert-base-ccnet-4gb |
1億1000万 |
ベース |
CCNetのサブサンプル (4 GBのテキスト) |
🔧 技術詳細
CamemBERTは、RoBERTaモデルに基づいており、フランス語のテキストデータを使用して事前学習されています。異なるバージョンは、パラメータ数、事前学習データの量、事前学習データのソースドメインが異なります。
📄 ライセンス
このプロジェクトはMITライセンスの下で公開されています。
著者
CamemBERTは、Louis Martin*、Benjamin Muller*、Pedro Javier Ortiz Suárez*、Yoann Dupont、Laurent Romary、Éric Villemonte de la Clergerie、Djamé Seddah、Benoît Sagotによってトレーニングおよび評価されました。
引用
このモデルを使用する場合は、以下のように引用してください。
@inproceedings{martin2020camembert,
title={CamemBERT: a Tasty French Language Model},
author={Martin, Louis and Muller, Benjamin and Su{\'a}rez, Pedro Javier Ortiz and Dupont, Yoann and Romary, Laurent and de la Clergerie, {\'E}ric Villemonte and Seddah, Djam{\'e} and Sagot, Beno{\^\i}t},
booktitle={Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics},
year={2020}
}