🚀 GPT-fr
GPT-fr は、Quantmetry と Laboratoire de Linguistique Formelle (LLF) によって開発されたフランス語用のGPTモデルです。非常に大規模で多様なフランス語コーパスを使用して訓練されています。以下の設定で重みを公開しています。
✨ 主な機能
このモデルは、言語生成タスクに利用できます。また、多くのタスクを自然言語で直接出力するように設定することができ、自動要約や質問応答などのタスクに使用できます。学術および産業用途の両方に役立つことを期待しています。
📦 インストール
このモデルは、Transformers
ライブラリを通じて使用できます。以下のコードでインストールできます。
pip install transformers
💻 使用例
基本的な使用法
from transformers import GPT2Tokenizer, GPT2LMHeadModel
model = GPT2LMHeadModel.from_pretrained("asi/gpt-fr-cased-small")
tokenizer = GPT2Tokenizer.from_pretrained("asi/gpt-fr-cased-small")
model.eval()
input_sentence = "Longtemps je me suis couché de bonne heure."
input_ids = tokenizer.encode(input_sentence, return_tensors='pt')
beam_outputs = model.generate(
input_ids,
max_length=100,
do_sample=True,
top_k=50,
top_p=0.95,
num_return_sequences=1
)
print("Output:\n" + 100 * '-')
print(tokenizer.decode(beam_outputs[0], skip_special_tokens=True))
📚 ドキュメント
モデルの詳細
プロパティ |
詳細 |
モデル名 |
gpt-fr-cased-small , gpt-fr-cased-base |
レイヤー数 |
gpt-fr-cased-small : 12, gpt-fr-cased-base : 24 |
アテンションヘッド数 |
gpt-fr-cased-small : 12, gpt-fr-cased-base : 14 |
埋め込み次元数 |
gpt-fr-cased-small : 768, gpt-fr-cased-base : 1,792 |
総パラメータ数 |
gpt-fr-cased-small : 124 M, gpt-fr-cased-base : 1,017 B |
想定される用途と制限
このモデルは言語生成タスクに利用できます。ただし、大規模言語モデルは事前学習データセットに含まれるバイアス(性別差別や攻撃的な内容の生成など)を再現する傾向があります。これらの問題を最小限に抑えるため、事前にデータソースを慎重に選択しています。
評価結果
このモデルは、専用の言語モデル評価ベンチマークで評価されています。フランス語版Wikipediaの検証済みの記事から7000万以上のトークンを収集し、テストセットでのゼロショットパープレキシティは 109.2 です。
BibTeXエントリと引用情報
もしあなたが科学出版物や産業用途で GPT-fr を使用する場合は、以下の論文を引用してください。
@inproceedings{simoulin:hal-03265900,
TITLE = {{Un mod{\`e}le Transformer G{\'e}n{\'e}ratif Pr{\'e}-entrain{\'e} pour le \_\_\_\_\_\_ fran{\c c}ais}},
AUTHOR = {Simoulin, Antoine and Crabb{\'e}, Benoit},
URL = {https://hal.archives-ouvertes.fr/hal-03265900},
BOOKTITLE = {{Traitement Automatique des Langues Naturelles}},
ADDRESS = {Lille, France},
EDITOR = {Denis, Pascal and Grabar, Natalia and Fraisse, Amel and Cardon, R{\'e}mi and Jacquemin, Bernard and Kergosien, Eric and Balvet, Antonio},
PUBLISHER = {{ATALA}},
PAGES = {246-255},
YEAR = {2021},
KEYWORDS = {fran{\c c}ais. ; GPT ; G{\'e}n{\'e}ratif ; Transformer ; Pr{\'e}-entra{\^i}n{\'e}},
PDF = {https://hal.archives-ouvertes.fr/hal-03265900/file/7.pdf},
HAL_ID = {hal-03265900},
HAL_VERSION = {v1},
}
参考文献
Jörg Tiedemann: Parallel Data, Tools and Interfaces in OPUS. LREC 2012: 2214-2218
🔧 技術詳細
このモデルは、TPU v2-8を使用して Google Colab で事前学習されています。訓練データは、Wikipedia、OpenSubtitle、Gutenberg などの既存のコーパスを集約し、フィルタリングして作成されています。
📄 ライセンス
このモデルは apache-2.0
ライセンスの下で公開されています。