🚀 インドネシア語GPT2スモールモデル
このモデルは、インドネシア語のWikipediaデータを用いて、因果言語モデリング(CLM)の目的で事前学習されたGPT2-smallモデルです。このモデルは大文字と小文字を区別せず、「indonesia」と「Indonesia」を同じとみなします。
🚀 クイックスタート
このモデルは、インドネシア語のデータセットを用いて事前学習された言語モデルの一つです。下流タスク(テキスト分類、テキスト生成など)での使用方法の詳細は、Transformer based Indonesian Language Modelsを参照してください。
✨ 主な機能
このモデルは、因果言語モデリング(CLM)の目的で事前学習されており、テキスト生成や下流タスクでの使用に適しています。
📦 インストール
このモデルは、transformers
ライブラリを使用して直接利用できます。以下のコードを参考にしてください。
💻 使用例
基本的な使用法
>>> from transformers import pipeline, set_seed
>>> generator = pipeline('text-generation', model='cahya/gpt2-small-indonesian-522M')
>>> set_seed(42)
>>> generator("Kerajaan Majapahit adalah", max_length=30, num_return_sequences=5, num_beams=10)
[{'generated_text': 'Kerajaan Majapahit adalah sebuah kerajaan yang pernah berdiri di Jawa Timur pada abad ke-14 hingga abad ke-15. Kerajaan ini berdiri pada abad ke-14'},
{'generated_text': 'Kerajaan Majapahit adalah sebuah kerajaan yang pernah berdiri di Jawa Timur pada abad ke-14 hingga abad ke-16. Kerajaan ini berdiri pada abad ke-14'},
{'generated_text': 'Kerajaan Majapahit adalah sebuah kerajaan yang pernah berdiri di Jawa Timur pada abad ke-14 hingga abad ke-15. Kerajaan ini berdiri pada abad ke-15'},
{'generated_text': 'Kerajaan Majapahit adalah sebuah kerajaan yang pernah berdiri di Jawa Timur pada abad ke-14 hingga abad ke-16. Kerajaan ini berdiri pada abad ke-15'},
{'generated_text': 'Kerajaan Majapahit adalah sebuah kerajaan yang pernah berdiri di Jawa Timur pada abad ke-14 hingga abad ke-15. Kerajaan ini merupakan kelanjutan dari Kerajaan Majapahit yang'}]
高度な使用法
PyTorchでの特徴抽出
from transformers import GPT2Tokenizer, GPT2Model
model_name='cahya/gpt2-small-indonesian-522M'
tokenizer = GPT2Tokenizer.from_pretrained(model_name)
model = GPT2Model.from_pretrained(model_name)
text = "Silakan diganti dengan text apa saja."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)
TensorFlowでの特徴抽出
from transformers import GPT2Tokenizer, TFGPT2Model
model_name='cahya/gpt2-small-indonesian-522M'
tokenizer = GPT2Tokenizer.from_pretrained(model_name)
model = TFGPT2Model.from_pretrained(model_name)
text = "Silakan diganti dengan text apa saja."
encoded_input = tokenizer(text, return_tensors='tf')
output = model(encoded_input)
🔧 技術詳細
このモデルは、522MBのインドネシア語のWikipediaデータを用いて事前学習されています。テキストは、バイトレベルのByte Pair Encoding(BPE)を使用してトークナイズされ、語彙サイズは52,000です。入力は、128の連続したトークンのシーケンスです。
📄 ライセンス
このモデルは、MITライセンスの下で公開されています。
属性 |
详情 |
モデルタイプ |
GPT2-smallモデル |
学習データ |
インドネシア語のWikipediaデータ(522MB) |