gpt2-turkish-writer开源文本生成模型 - 助力土耳其语文学创作

首页

Gpt2 Turkish Writer

由 gorkemgoknar 开发

这是一个基于GPT2-Small架构微调的土耳其语文本生成模型，专门针对土耳其语文学创作进行了优化训练。

大型语言模型其他开源协议:Apache-2.0 #土耳其语生成 #文学创作增强 #多层级微调

下载量 75

发布时间 : 3/2/2022

模型简介

该模型是在GPT2-small基础上针对土耳其语进行微调的文本生成模型，训练数据包括土耳其语维基百科和400多部土耳其语经典文学作品，专注于土耳其语文学创作和文本生成任务。

模型特点

土耳其文学优化

专门针对土耳其文学特点进行训练，包含400多部经典文学作品的训练数据

多层微调

针对土耳其语与英语差异较大的特点，训练了最后3层而非标准的最后2层

高质量训练数据

使用土耳其语维基百科和经典文学作品作为训练数据，提高生成质量

模型能力

土耳其语文本生成

文学创作

故事续写

上下文感知写作

使用案例

文学创作

故事生成

根据给定的开头生成完整的土耳其语故事

可生成符合文学风格的连贯文本

文本续写

根据用户提供的文本片段进行合理续写

保持上下文一致性的流畅续写

教育应用

土耳其语学习

生成土耳其语学习材料和示例文本

提供地道的土耳其语表达

🚀 基于GPT2-Small的土耳其语AI写作器

本项目是一个基于GPT2-Small的土耳其语AI写作器，通过对模型进行微调，使其能够生成高质量的土耳其语文本。它在维基百科土耳其语文章和大量经典小说、戏剧语料上进行训练，具有一定的文本生成能力。

✨ 主要特性

基于GPT2-Small模型进行微调，增强了土耳其语的文本生成能力。
使用了超过400本土耳其语经典小说和戏剧进行训练，包括陀思妥耶夫斯基、莎士比亚、大仲马等作家的作品。
训练代码适配Fastai 2.X，并在Google Colab上进行训练。
提供了模型的使用示例，包括安装、单字生成和完整序列生成。

📦 安装指南

from transformers import AutoTokenizer, AutoModelWithLMHead
import torch

tokenizer = AutoTokenizer.from_pretrained("gorkemgoknar/gpt2-turkish-writer")
model = AutoModelWithLMHead.from_pretrained("gorkemgoknar/gpt2-turkish-writer")

# Get sequence length max of 1024
tokenizer.model_max_length=1024 

model.eval()  # disable dropout (or leave in train mode to finetune)

💻 使用示例

基础用法

生成1个单词

# input sequence
text = "Bu yazıyı bilgisayar yazdı."
inputs = tokenizer(text, return_tensors="pt") 

# model output
outputs = model(**inputs, labels=inputs["input_ids"])
loss, logits = outputs[:2]
predicted_index = torch.argmax(logits[0, -1, :]).item()
predicted_text = tokenizer.decode([predicted_index])

# results
print('input text:', text)
print('predicted text:', predicted_text)

# input text: 
# predicted text:

高级用法

生成完整序列

# input sequence
text = "Bu yazıyı bilgisayar yazdı."
inputs = tokenizer(text, return_tensors="pt")

# model output using Top-k sampling text generation method
sample_outputs = model.generate(inputs.input_ids,
                                pad_token_id=50256,
                                do_sample=True, 
                                max_length=50, # put the token number you want
                                top_k=40,
                                num_return_sequences=1)

# generated sequence
for i, sample_output in enumerate(sample_outputs):
    print(">> Generated text {}\n\n{}".format(i+1, tokenizer.decode(sample_output.tolist())))

# >> Generated text
#

📚 详细文档

模型描述

此模型是gpt2-small-turkish微调版本的增强版。除了2020年10月28日的维基百科土耳其语文章转储外，该模型还使用了400多本土耳其语经典小说和戏剧进行训练（包括陀思妥耶夫斯基、莎士比亚、大仲马的作品）。

基础工作基于Pierre Guillou的教程完成，详情见此页面：(https://github.com/piegu/fastai-projects/blob/master/finetuning-English-GPT2-any-language-Portuguese-HuggingFace-fastaiv2.ipynb)

需要注意的是，由于土耳其语与英语的差异不像葡萄牙语与英语那样接近，因此该模型训练了最后3层，而不是最后2层。

代码已转换为适用于Fastai 2.X的版本，并使用Google Colab进行训练。

当前准确率为36.3%，困惑度为44.75。

演示（使用CPU推理）可在以下网址查看：http://www.metayazar.com

模型可在以下链接获取：

预期用途和局限性

局限性和偏差

该模型使用的训练数据来自土耳其维基百科和书籍。我们知道这些数据包含了大量来自互联网的未经过滤的内容，远非中立。此外，由于对书籍的预处理工作不多，在某些情况下可能会看到章节名称和页码。这是一个正在进行的工作。

训练数据

2020年10月28日的维基百科土耳其语文章转储。
超过400本土耳其语经典小说的数据集。

评估结果

轮次	训练损失	验证损失	准确率	困惑度	时间
0	4.497828	4.549605	0.277328	94.595070	2:09:58
1	4.503929	4.519456	0.275071	91.785645	2:04:30
2	3.612716	3.921146	0.344802	50.458256	2:03:22
3	3.777645	4.072006	0.326130	58.674530	1:56:14
4	2.934462	3.801303	0.363719	44.759476	1:58:55