🚀 GPT2 124M乌克兰小说训练模型
本模型基于GPT2 124M在乌克兰小说数据集上进行训练,可用于文本生成任务,为乌克兰语相关的文本创作提供支持。
🚀 快速开始
由于我们使用 AlbertTokenizer
和 GPT2LMHeadModel
,上述默认代码片段将无法正常工作,请参考 问题。
✨ 主要特性
- 文本生成:能够根据给定的输入文本生成相关的乌克兰语文本。
📦 安装指南
文档未提供具体安装步骤,故跳过该章节。
💻 使用示例
基础用法
from transformers import AlbertTokenizer, GPT2LMHeadModel
tokenizer = AlbertTokenizer.from_pretrained("Tereveni-AI/gpt2-124M-uk-fiction")
model = GPT2LMHeadModel.from_pretrained("Tereveni-AI/gpt2-124M-uk-fiction")
input_ids = tokenizer.encode("Но зла Юнона, суча дочка,", add_special_tokens=False, return_tensors='pt')
outputs = model.generate(
input_ids,
do_sample=True,
num_return_sequences=3,
max_length=50
)
for i, out in enumerate(outputs):
print("{}: {}".format(i, tokenizer.decode(out)))
运行上述代码可能会输出如下内容:
0: Но зла Юнона, суча дочка, яка затьмарила всі її таємниці: І хто з'їсть її душу, той помре». І, не дочекавшись гніву богів, посунула в пітьму, щоб не бачити перед собою. Але, за
1: Но зла Юнона, суча дочка, і довела мене до божевілля. Але він не знав нічого. Після того як я його побачив, мені стало зле. Я втратив рівновагу. Але в мене не було часу на роздуми. Я вже втратив надію
2: Но зла Юнона, суча дочка, не нарікала нам! — раптом вигукнула Юнона. — Це ти, старий йолопе! — мовила вона, не перестаючи сміятись. — Хіба ти не знаєш, що мені подобається ходити з тобою?
📚 详细文档
训练详情
- 训练数据:模型在包含4040本小说的语料库上进行训练,语料库总大小为2.77 GiB。
- 评估指标:在 brown-uk 数据集上进行评估,困惑度为50.16。
属性 |
详情 |
模型类型 |
GPT2 124M乌克兰小说训练模型 |
训练数据 |
4040本小说语料库,总大小2.77 GiB |
评估数据集 |
brown-uk |
困惑度 |
50.16 |
⚠️ 重要提示
由于我们使用 AlbertTokenizer
和 GPT2LMHeadModel
,上述默认代码片段将无法正常工作,请参考 问题。