🚀 gpt2-large-japanese
このリポジトリは、大規模な日本語GPT - 2モデルを提供します。このモデルはABEJA, Incによって学習されました。
🚀 クイックスタート
このモデルを使用するための基本的な手順を説明します。
✨ 主な機能
- 大規模な日本語GPT - 2モデルを提供します。
- 文章生成に使用できます。
📦 インストール
まず、sentencepieceをインストールします。2022年8月の最新バージョンでの動作を確認しています。(必要なければスキップしてください。)
pip install sentencepiece
💻 使用例
基本的な使用法
テキスト生成のパイプラインを使用する場合:
from transformers import pipeline
generator = pipeline("text-generation", model="abeja/gpt2-large-japanese")
generated = generator(
"人とAIが協調するためには、",
max_length=30,
do_sample=True,
num_return_sequences=3,
top_p=0.95,
top_k=50,
pad_token_id=3
)
print(*generated, sep="\n")
"""
[out]
{'generated_text': '人とAIが協調するためには、社会的なルールをきちんと理解して、人と共存し、協働して生きていくのが重要だという。'}
{'generated_text': '人とAIが協調するためには、それぞれが人間性を持ち、またその人間性から生まれるインタラクションを調整しなければならないことはいうまで'}
{'generated_text': '人とAIが協調するためには、AIが判断すべきことを人間が決める必要がある。人工知能の目的は、人間の知性、記憶、理解、'}
"""
高度な使用法
PyTorchを使用する場合:
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("abeja/gpt2-large-japanese")
model = AutoModelForCausalLM.from_pretrained("abeja/gpt2-large-japanese")
input_text = "人とAIが協調するためには、"
input_ids = tokenizer.encode(input_text, return_tensors="pt")
gen_tokens = model.generate(
input_ids,
max_length=100,
do_sample=True,
num_return_sequences=3,
top_p=0.95,
top_k=50,
pad_token_id=tokenizer.pad_token_id
)
for gen_text in tokenizer.batch_decode(gen_tokens, skip_special_tokens=True):
print(gen_text)
TensorFlowを使用する場合:
from transformers import AutoTokenizer, TFAutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("abeja/gpt2-large-japanese")
model = TFAutoModelForCausalLM.from_pretrained("abeja/gpt2-large-japanese", from_pt=True)
input_text = "人とAIが協調するためには、"
input_ids = tokenizer.encode(input_text, return_tensors="tf")
gen_tokens = model.generate(
input_ids,
max_length=100,
do_sample=True,
num_return_sequences=3,
top_p=0.95,
top_k=50,
pad_token_id=tokenizer.pad_token_id
)
for gen_text in tokenizer.batch_decode(gen_tokens, skip_special_tokens=True):
print(gen_text)
📚 ドキュメント
データセット
このモデルはJapanese CC - 100、Japanese Wikipedia、およびJapanese OSCARで学習されました。
トークン化
このモデルはsentencepieceベースのトークナイザーを使用しており、語彙は日本語のWikipediaで学習されました。
📄 ライセンス
The MIT license