gpt2-small-turkish开源模型 - 免费部署助力土耳其语文本生成

首页

Gpt2 Small Turkish

由 gorkemgoknar 开发

这是一个基于GPT2-Small英语模型的微调版本，使用土耳其语维基百科文章进行训练，适用于土耳其语文本生成任务。

大型语言模型其他开源协议:Apache-2.0 #土耳其语生成 #维基百科微调 #文本续写

下载量 545

发布时间 : 3/2/2022

模型简介

该模型是基于GPT2架构的土耳其语文本生成模型，主要用于土耳其语的文本自动补全和生成任务。

模型特点

土耳其语优化

专门针对土耳其语进行了微调，提高了土耳其语文本生成的质量。

基于维基百科训练

使用土耳其语维基百科文章进行训练，具有丰富的语言知识。

多长度支持

支持最大1024的序列长度，适合生成较长的文本内容。

模型能力

土耳其语文本生成

文本自动补全

语言模型预测

使用案例

内容创作

自动文章写作

根据给定的开头自动生成完整的土耳其语文章

文本补全

根据部分输入自动补全完整的句子或段落

教育

语言学习辅助

帮助土耳其语学习者生成示例句子和文本

🚀 土耳其语微调GPT2模型

本项目基于GPT2-Small英文模型，使用2020年10月28日的土耳其语维基百科文章进行微调与额外训练。该模型可用于自然语言处理任务，为土耳其语相关的文本生成等应用提供支持。

🚀 快速开始

安装

from transformers import AutoTokenizer, AutoModelWithLMHead
import torch

tokenizer = AutoTokenizer.from_pretrained("gorkemgoknar/gpt2-small-turkish")
model = AutoModelWithLMHead.from_pretrained("gorkemgoknar/gpt2-small-turkish")

# Get sequence length max of 1024
tokenizer.model_max_length=1024 

model.eval()  # disable dropout (or leave in train mode to finetune)

生成一个单词

# input sequence
text = "Bu yazıyı bilgisayar yazdı."
inputs = tokenizer(text, return_tensors="pt")

# model output
outputs = model(**inputs, labels=inputs["input_ids"])
loss, logits = outputs[:2]
predicted_index = torch.argmax(logits[0, -1, :]).item()
predicted_text = tokenizer.decode([predicted_index])

# results
print('input text:', text)
print('predicted text:', predicted_text)

# input text: 
# predicted text:

生成完整序列

# input sequence
text = "Bu yazıyı bilgisayar yazdı."
inputs = tokenizer(text, return_tensors="pt")

# model output using Top-k sampling text generation method
sample_outputs = model.generate(inputs.input_ids,
                                pad_token_id=50256,
                                do_sample=True, 
                                max_length=50, # put the token number you want
                                top_k=40,
                                num_return_sequences=1)

# generated sequence
for i, sample_output in enumerate(sample_outputs):
    print(">> Generated text {}\\\\
\\\\
{}".format(i+1, tokenizer.decode(sample_output.tolist())))

# >> Generated text
#

✨ 主要特性

微调模型：基于GPT2-Small英文模型，使用土耳其语维基百科文章进行微调，更适配土耳其语相关任务。
多用途：可用于文本生成、单词预测等自然语言处理任务。
实时演示：提供基于该模型的实时演示，可在 https://www.metayazar.com/ 查看。
微调写作器：有基于此模型的微调写作器，地址为 https://huggingface.co/gorkemgoknar/gpt2-turkish-writer。

📦 安装指南

使用以下代码安装所需的库和加载模型：

from transformers import AutoTokenizer, AutoModelWithLMHead
import torch

tokenizer = AutoTokenizer.from_pretrained("gorkemgoknar/gpt2-small-turkish")
model = AutoModelWithLMHead.from_pretrained("gorkemgoknar/gpt2-small-turkish")

# Get sequence length max of 1024
tokenizer.model_max_length=1024 

model.eval()  # disable dropout (or leave in train mode to finetune)

💻 使用示例

基础用法

# input sequence
text = "Bu yazıyı bilgisayar yazdı."
inputs = tokenizer(text, return_tensors="pt")

# model output
outputs = model(**inputs, labels=inputs["input_ids"])
loss, logits = outputs[:2]
predicted_index = torch.argmax(logits[0, -1, :]).item()
predicted_text = tokenizer.decode([predicted_index])

# results
print('input text:', text)
print('predicted text:', predicted_text)

# input text: 
# predicted text:

高级用法

# input sequence
text = "Bu yazıyı bilgisayar yazdı."
inputs = tokenizer(text, return_tensors="pt")

# model output using Top-k sampling text generation method
sample_outputs = model.generate(inputs.input_ids,
                                pad_token_id=50256,
                                do_sample=True, 
                                max_length=50, # put the token number you want
                                top_k=40,
                                num_return_sequences=1)

# generated sequence
for i, sample_output in enumerate(sample_outputs):
    print(">> Generated text {}\\\\
\\\\
{}".format(i+1, tokenizer.decode(sample_output.tolist())))

# >> Generated text
#

📚 详细文档

模型描述

这是一个基于GPT2-Small英文的模型，截至2020年10月28日，使用土耳其语维基百科文章进行了微调与额外训练。

实时演示：https://www.metayazar.com/
微调写作器：https://huggingface.co/gorkemgoknar/gpt2-turkish-writer
参考教程：https://github.com/piegu/fastai-projects/blob/master/finetuning-English-GPT2-any-language-Portuguese-HuggingFace-fastaiv2.ipynb
代码适配：代码已转换为适用于Fastai 2.X。
训练环境：使用Google Colab进行训练。
后续教程和源码：后续将在 https://github.com/gorkemgoknar 提供。

预期用途与限制

预期用途

该模型可用于土耳其语的文本生成、单词预测等自然语言处理任务。

限制和偏差

该模型的训练数据来自土耳其语维基百科，其中包含大量未经过滤的互联网内容，远非中立。

训练数据

使用2020年10月28日的土耳其语维基百科文章转储作为训练数据。

评估结果

轮次	训练损失	验证损失	准确率	困惑度	时间
0	4.777015	4.621834	0.292547	101.680367	2:42:05
1	4.509412	4.403999	0.305574	81.777267	1:09:38
2	4.169529	4.120755	0.324908	61.605747	1:07:45
3	4.293973	4.177899	0.317211	65.228653	1:07:02
4	4.049848	3.949103	0.338347	51.888783	1:05:53