🚀 日语GPT-1B模型
本项目提供了一个参数规模达13亿的日语GPT模型。该模型由rinna株式会社训练。
🚀 快速开始
模型使用方法
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("rinna/japanese-gpt-1b", use_fast=False)
model = AutoModelForCausalLM.from_pretrained("rinna/japanese-gpt-1b")
if torch.cuda.is_available():
model = model.to("cuda")
text = "西田幾多郎は、"
token_ids = tokenizer.encode(text, add_special_tokens=False, return_tensors="pt")
with torch.no_grad():
output_ids = model.generate(
token_ids.to(model.device),
max_length=100,
min_length=100,
do_sample=True,
top_k=500,
top_p=0.95,
pad_token_id=tokenizer.pad_token_id,
bos_token_id=tokenizer.bos_token_id,
eos_token_id=tokenizer.eos_token_id,
bad_words_ids=[[tokenizer.unk_token_id]]
)
output = tokenizer.decode(output_ids.tolist()[0])
print(output)
✨ 主要特性
- 模型架构:这是一个基于Transformer的语言模型,具有24层,隐藏层大小为2048。
- 训练数据:该模型在日语C4、日语CC - 100和日语维基百科上进行训练,以优化传统的语言建模目标。在从相同数据中选取的验证集上,其困惑度约为14。
- 分词方式:模型使用基于SentencePiece的分词器。词汇表首先使用官方SentencePiece训练脚本在训练数据的选定子集上进行训练,然后用表情符号和符号进行扩充。
📚 详细文档
发布日期
2022年1月26日
引用方式
@misc{rinna-japanese-gpt-1b,
title = {rinna/japanese-gpt-1b},
author = {Zhao, Tianyu and Sawada, Kei},
url = {https://huggingface.co/rinna/japanese-gpt-1b}
}
@inproceedings{sawada2024release,
title = {Release of Pre-Trained Models for the {J}apanese Language},
author = {Sawada, Kei and Zhao, Tianyu and Shing, Makoto and Mitsui, Kentaro and Kaga, Akio and Hono, Yukiya and Wakatsuki, Toshiaki and Mitsuda, Koh},
booktitle = {Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)},
month = {5},
year = {2024},
pages = {13898--13905},
url = {https://aclanthology.org/2024.lrec-main.1213},
note = {\url{https://arxiv.org/abs/2404.01657}}
}
📄 许可证
本项目采用MIT许可证。