🚀 Genji - JP 6B
Genji - JP 6B 是基于 EleutherAI 的 GPT - J 6B 模型,在日语故事数据集上微调得到的模型,可用于日语相关的文本生成任务。
🚀 快速开始
更多详情、示例、评估等内容,请查看我们的博客文章:博客文章
✨ 主要特性
Genji - JP 6B 是基于 EleutherAI 的 GPT - J 6B 模型,在我们的日语故事数据集上进行微调的模型。该模型是在日语网络小说上进行训练的。
属性 |
详情 |
模型类型 |
基于 GPT - J 6B 微调的日语故事生成模型 |
训练数据 |
日语网络小说 |
模型超参数
超参数 |
值 |
n_parameters(参数数量) |
6,053,381,344 |
n_layers(层数) |
28* |
d_model(模型维度) |
4,096 |
d_ff(前馈维度) |
16,384 |
n_heads(头数) |
16 |
d_head(头维度) |
256 |
n_ctx(上下文长度) |
2,048 |
n_vocab(词汇表大小) |
50,400(与 GPT - 2/3 使用相同的分词器) |
位置编码 |
旋转位置编码 (RoPE) |
RoPE 维度 |
64 |
*
每层由一个前馈块和一个自注意力块组成。
该模型由 28 层组成,模型维度为 4096,前馈维度为 16384。模型维度被分为 16 个头,每个头的维度为 256。旋转位置编码 (RoPE) 应用于每个头的 64 个维度。模型使用 50257 的分词词汇表进行训练,使用与 GPT - 2/GPT - 3 相同的 BPE 集合。
📦 安装指南
文档未提及安装步骤,此处跳过。
💻 使用示例
基础用法
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
tokenizer = AutoTokenizer.from_pretrained("EleutherAI/gpt-j-6B")
model = AutoModelForCausalLM.from_pretrained("NovelAI/genji-jp", torch_dtype=torch.float16, low_cpu_mem_usage=True).eval().cuda()
text = '''あらすじ:あなたは異世界に転生してしまいました。勇者となって、仲間を作り、異世界を冒険しよう!
***
転生すると、ある能力を手に入れていた。それは、'''
tokens = tokenizer(text, return_tensors="pt").input_ids
generated_tokens = model.generate(tokens.long().cuda(), use_cache=True, do_sample=True, temperature=1, top_p=0.9, repetition_penalty=1.125, min_length=1, max_length=len(tokens[0]) + 400, pad_token_id=tokenizer.eos_token_id)
last_tokens = generated_tokens[0]
generated_text = tokenizer.decode(last_tokens).replace("�", "")
print("Generation:\n" + generated_text)
运行上述代码时,会产生如下输出:
Generation:
あらすじ:あなたは異世界に転生してしまいました。勇者となって、仲間を作り、異世界を冒険しよう!
***
転生すると、ある能力を手に入れていた。それは、『予知』だ。過去から未来のことを、誰も知らない出来事も含めて見通すことが出来る。
悪魔の欠片と呼ばれる小さな結晶を取り込んで、使役することが出来る。人を惹きつけ、堕落させる。何より、俺は男なんて居なかったし、女に興味もない。……そんなクズの片棒を担ぎ上げる奴が多くなると思うと、ちょっと苦しい。
だが、一部の人間には協力者を得ることが出来る。目立たない街にある寺の中で、常に家に引きこもっている老人。そんなヤツの魂をコントロールすることが出来るのだ。便利な能力だ。しかし、裏切り者は大勢いる。気を抜けば、狂う。だから注意が必要だ。
――「やってやるよ」
アーロンは不敵に笑った。この
📚 详细文档
文档未提及详细说明内容,此处跳过。
🔧 技术细节
文档未提供具体的技术实现细节,此处跳过。
📄 许可证
本项目采用 Apache - 2.0 许可证。
🙏 致谢
本项目得益于 TPU 研究云 提供的计算资源才得以实现。
感谢 EleutherAI 对 GPT - J 6B 模型进行预训练。
感谢所有为该项目做出贡献的人!