Gerpt2-largeオープンソースのドイツ語テキスト生成モデル - 無料でドイツ語テキストの高品質生成をサポート

ホーム

Gerpt2 Large

benjaminによって開発

GerPT2はドイツ語版GPT2の大規模バージョンで、CC - 100コーパスとドイツ語ウィキペディアを基に訓練され、ドイツ語テキスト生成タスクで優れた性能を発揮します。

大規模言語モデルドイツ語オープンソースライセンス:MIT #ドイツ語テキスト生成 #低困惑度モデル #GPT2アーキテクチャ最適化

ダウンロード数 75

リリース時間 : 3/2/2022

モデル概要

GerPT2はGPT2アーキテクチャに基づくドイツ語言語モデルで、大規模と小規模の2つのバージョンを提供し、ドイツ語テキスト生成タスクに特化しています。

モデル特徴

優れたドイツ語テキスト生成能力

CC - 100とドイツ語ウィキペディアのデータセットでの困惑度は、同類のドイツ語GPT2モデルよりも著しく優れています。

大規模ドイツ語コーパスに基づく訓練

CC - 100コーパスのすべてのドイツ語データとドイツ語ウィキペディアを使用して訓練されます。

最適化された訓練戦略

OneCycle学習率スケジューリングと重み減衰を用いたAdamWオプティマイザを採用し、2サイクル訓練します。

モデル能力

ドイツ語テキスト生成

ドイツ語テキスト続き生成

ドイツ語言語理解

使用事例

コンテンツ作成

ドイツ語記事生成

プロンプトに基づいて首尾一貫したドイツ語記事を生成します。

生成されたテキストの品質が高く、困惑度が低いです。

ドイツ語対話システム

ドイツ語チャットボットの構築に使用します。

教育

ドイツ語学習支援

ドイツ語学習教材と練習問題を生成します。

🚀 GerPT2

GerPT2は、GPT2のドイツ語版の大規模および小規模バージョンです。このモデルは、ドイツ語の自然言語処理タスクに役立ちます。

🚀 クイックスタート

German large and small versions of GPT2:

https://huggingface.co/benjamin/gerpt2
https://huggingface.co/benjamin/gerpt2-large

制限事項やバイアスに関する考慮事項については、GPT2 model cardを参照してください。GPT2の詳細については、GPT2 documentationを参照してください。

✨ 主な機能

他のモデルとの比較

dbmdz/german-gpt2との比較をCC-100データセットとドイツ語のWikipediaで行いました。

	CC-100 (PPL)	Wikipedia (PPL)
dbmdz/german-gpt2	49.47	62.92
GerPT2	24.78	35.33
GerPT2-large	16.08	23.26

コードについては、GerPT2 Github repositoryのevaluate.pyスクリプトを参照してください。

💻 使用例

基本的な使用法

from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline

tokenizer = AutoTokenizer.from_pretrained("benjamin/gerpt2-large")
model = AutoModelForCausalLM.from_pretrained("benjamin/gerpt2-large")

prompt = "<your prompt>"

pipe = pipeline("text-generation", model=model, tokenizer=tokenizer)
print(pipe(prompt)[0]["generated_text"])

高度な使用法

import torch

output = model.generate(
    # during training an EOS token was used to mark the beginning of each text
    # so it can help to insert it at the start
    torch.tensor(
        [tokenizer.eos_token_id] + tokenizer.encode(prompt)
    ).unsqueeze(0),
    do_sample=True,
    # try setting bad_words_ids=[[0]] to disallow generating an EOS token, without this the model is
    # prone to ending generation early because a significant number of texts from the training corpus
    # is quite short
    bad_words_ids=[[0]],
    max_length=max_length,
)[0]
print(tokenizer.decode(output))

🔧 技術詳細

GerPT2-largeは、CC-100 Corpusの全ドイツ語データで学習され、重みはEnglish GPT2 modelから初期化されました。

学習条件は以下の通りです。

バッチサイズ: 256
学習率: OneCycle学習率、最大5e-3
オプティマイザ: AdamW、重み減衰0.01
エポック数: 2

学習には、8つのTPUv3コアで約12日かかりました。

GerPT2-largeを学習するには、以下の手順に従ってください。スクリプトはGithub repositoryにあります。

http://data.statmt.org/cc-100/ から学習データをダウンロードして解凍します。
prepare/train_tokenizer.pyを使用してトークナイザーを学習します。トークナイザーの学習データとして、CC-100データのランダムな5%のサブセットを使用しました。
（オプション）prepare/generate_aligned_wte.pyでドイツ語の入力埋め込み行列を生成します。これは、整列された単語埋め込みを使用して、英語のトークナイザーのトークンをドイツ語のトークナイザーのトークンに意味的にマッピングする巧妙なトリックを使用します。例:

ĠMinde -> Ġleast
Ġjed -> Ġwhatsoever
flughafen -> Air
vermittlung -> employment
teilung -> ignment
ĠInterpretation -> Ġinterpretation
Ġimport -> Ġimported
hansa -> irl
genehmigungen -> exempt
ĠAuflist -> Ġlists
Ġverschwunden -> Ġdisappeared
ĠFlyers -> ĠFlyers
Kanal -> Channel
Ġlehr -> Ġteachers
Ġnahelie -> Ġconvenient
gener -> Generally
mitarbeiter -> staff

これは、試行実験で大きな助けになりましたが、予算と時間の制約で完全な比較はできませんでした。このWTE行列を使用するには、学習スクリプトにwte_pathを渡すことができます。英語の重みからGPT2を初期化するアイデアは、このブログ記事に感謝します。 4. prepare/tokenize_text.pyを使用してコーパスをトークン化します。これにより、JSON Lines形式のトレーニングと検証用のトークンファイルが生成されます。 5. 学習スクリプトtrain.pyを実行します！run.shには、設定configs/tpu_large.jsonでの完全な実行方法が示されています。

📄 ライセンス

GerPT2はMITライセンスの下で提供されています。

引用

GerPT2を引用する場合は、以下のようにしてください。

@misc{Minixhofer_GerPT2_German_large_2020,
author = {Minixhofer, Benjamin},
doi = {10.5281/zenodo.5509984},
month = {12},
title = {{GerPT2: German large and small versions of GPT2}},
url = {https://github.com/bminixhofer/gerpt2},
year = {2020}
}