🚀 japanese-gpt-1b
このリポジトリは、13億パラメータの日本語GPTモデルを提供します。このモデルは株式会社リンナによって学習されました。
🚀 クイックスタート
モデルの使用方法
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("rinna/japanese-gpt-1b", use_fast=False)
model = AutoModelForCausalLM.from_pretrained("rinna/japanese-gpt-1b")
if torch.cuda.is_available():
model = model.to("cuda")
text = "西田幾多郎は、"
token_ids = tokenizer.encode(text, add_special_tokens=False, return_tensors="pt")
with torch.no_grad():
output_ids = model.generate(
token_ids.to(model.device),
max_length=100,
min_length=100,
do_sample=True,
top_k=500,
top_p=0.95,
pad_token_id=tokenizer.pad_token_id,
bos_token_id=tokenizer.bos_token_id,
eos_token_id=tokenizer.eos_token_id,
bad_words_ids=[[tokenizer.unk_token_id]]
)
output = tokenizer.decode(output_ids.tolist()[0])
print(output)
📚 詳細ドキュメント
モデルアーキテクチャ
24層、隠れ層のサイズが2048のトランスフォーマーベースの言語モデルです。
学習
このモデルは、Japanese C4、Japanese CC - 100、Japanese Wikipediaを使用して、従来の言語モデリングの目的関数を最適化するように学習されました。同じデータから選択された検証セットでは、パープレキシティが約14に達します。
トークン化
このモデルはsentencepieceベースのトークナイザーを使用しています。語彙は、公式のsentencepiece学習スクリプトを使用して学習データから選択されたサブセットで最初に学習され、その後絵文字や記号が追加されました。
リリース日
2022年1月26日
引用方法
@misc{rinna-japanese-gpt-1b,
title = {rinna/japanese-gpt-1b},
author = {Zhao, Tianyu and Sawada, Kei},
url = {https://huggingface.co/rinna/japanese-gpt-1b}
}
@inproceedings{sawada2024release,
title = {Release of Pre-Trained Models for the {J}apanese Language},
author = {Sawada, Kei and Zhao, Tianyu and Shing, Makoto and Mitsui, Kentaro and Kaga, Akio and Hono, Yukiya and Wakatsuki, Toshiaki and Mitsuda, Koh},
booktitle = {Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)},
month = {5},
year = {2024},
pages = {13898--13905},
url = {https://aclanthology.org/2024.lrec-main.1213},
note = {\url{https://arxiv.org/abs/2404.01657}}
}
📄 ライセンス
The MIT license
情報一覧
属性 |
详情 |
モデルタイプ |
日本語GPTモデル |
学習データ |
CC100、Wikipedia、C4 |
ライセンス |
MIT |