🚀 🇹🇷 トルコ語GPT - 2モデル
このリポジトリでは、トルコ語の様々なテキストで学習させたGPT - 2モデルを公開しています。
このモデルは、他のテキストでのファインチューニングの入り口となることを目的としています。
📚 学習コーパス
私はoscar - corpusから取得したトルコ語のコーパスを使用しました。
HuggingfaceのTokenizersライブラリを使って、バイトレベルのBPEを作成することができました。
Tokenizersライブラリを用いて、学習コーパスに基づいて52KのバイトレベルBPEボキャブラリを作成しました。
ボキャブラリを作成した後、完全な学習コーパスに対して、2つの2080TIでトルコ語用のGPT - 2を学習させました(5エポック)。
学習中のログ:
https://tensorboard.dev/experiment/3AWKv8bBTaqcqZP5frtGkw/#scalars
💾 モデルの重み
PyTorchとTensorflowの両方に互換性のある重みが利用可能です。
プロパティ |
詳細 |
モデルタイプ |
redrussianarmy/gpt2 - turkish - cased |
学習データ |
oscar - corpusから取得したトルコ語のコーパス |
モデル |
ダウンロード |
redrussianarmy/gpt2 - turkish - cased |
[config.json ](https://huggingface.co/redrussianarmy/gpt2 - turkish - cased/resolve/main/config.json) • [merges.txt ](https://huggingface.co/redrussianarmy/gpt2 - turkish - cased/resolve/main/merges.txt) • [pytorch_model.bin ](https://huggingface.co/redrussianarmy/gpt2 - turkish - cased/resolve/main/pytorch_model.bin) • [special_tokens_map.json ](https://huggingface.co/redrussianarmy/gpt2 - turkish - cased/resolve/main/special_tokens_map.json) • [tf_model.h5 ](https://huggingface.co/redrussianarmy/gpt2 - turkish - cased/resolve/main/tf_model.h5) • [tokenizer_config.json ](https://huggingface.co/redrussianarmy/gpt2 - turkish - cased/resolve/main/tokenizer_config.json) • [traning_args.bin ](https://huggingface.co/redrussianarmy/gpt2 - turkish - cased/resolve/main/training_args.bin) • [vocab.json ](https://huggingface.co/redrussianarmy/gpt2 - turkish - cased/resolve/main/vocab.json) |
💻 使用例
基本的な使用法
from transformers import AutoTokenizer, AutoModelWithLMHead
tokenizer = AutoTokenizer.from_pretrained("redrussianarmy/gpt2-turkish-cased")
model = AutoModelWithLMHead.from_pretrained("redrussianarmy/gpt2-turkish-cased")
高度な使用法
from transformers import pipeline
pipe = pipeline('text-generation', model="redrussianarmy/gpt2-turkish-cased",
tokenizer="redrussianarmy/gpt2-turkish-cased", config={'max_length':800})
text = pipe("Akşamüstü yolda ilerlerken, ")[0]["generated_text"]
print(text)
モデルリポジトリをクローンする方法
git lfs install
git clone https://huggingface.co/redrussianarmy/gpt2-turkish-cased
🤝 問い合わせ(バグ、フィードバック、貢献など)
GPT2 - トルコ語モデルに関する質問は、[こちら](https://github.com/redrussianarmy/gpt2 - turkish/issues)でissueを作成してください 🤗