gpt2-turkish-900m开源大语言模型 - 免费部署助力土耳其语文本生成

首页

Gpt2 Turkish 900m

由 cenkersisman 开发

基于GPT-2架构的土耳其语大语言模型，专为土耳其语文本生成任务设计

大型语言模型

Transformers

其他#土耳其语文本生成 #小写敏感输入 #有限长度生成

下载量 246

发布时间 : 8/15/2023

模型简介

该模型是基于GPT-2架构构建的土耳其语大语言模型，采用专门设计的土耳其语分词器，能够根据给定起始文本生成类人文本。

模型特点

土耳其语优化

采用符合土耳其语拼写规则的分词器，专门针对土耳其语文本进行优化

有限长度生成

句子最大长度限制为128个词元，适合生成较短文本

本地化训练

在包含9亿字符的土耳其语维基百科数据集上进行训练

模型能力

土耳其语文本生成

上下文续写

问答生成

使用案例

教育

语言学习辅助

为土耳其语学习者提供示例句子和练习材料

内容创作

创意写作

帮助作家生成土耳其语创意文本片段

🚀 GPT - 2土耳其语模型

GPT - 2土耳其语模型是专门针对土耳其语定制的大型数据模型，属于大语言模型（LLM）类别。它基于GPT - 2架构构建，拥有专门定制的分词器结构，代表了一个土耳其语语言模型。该模型能够利用给定的起始文本生成类似人类的文本，并且在大量的土耳其语文本数据集上进行了训练。

🚀 快速开始

模型使用说明

重要提示：由于模型对大小写敏感，因此提示词必须全部使用小写字母。

# 用模型进行推理的示例代码
from transformers import GPT2Tokenizer, GPT2LMHeadModel

model_name = "cenkersisman/gpt2-turkish-128-token"
tokenizer = GPT2Tokenizer.from_pretrained(model_name)
model = GPT2LMHeadModel.from_pretrained(model_name)

prompt = "okyanusun derinliklerinde bulunan"
input_ids = tokenizer.encode(prompt, return_tensors="pt")
output = model.generate(input_ids, max_length=100, pad_token_id=tokenizer.eos_token_id)
generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
print(generated_text)

✨ 主要特性

GPT - 2土耳其语模型具有以下特性：

基于GPT - 2架构，专为土耳其语定制。
拥有特殊的分词器结构，符合土耳其语的词法特点。
能够根据起始文本生成自然流畅的文本。
在大规模土耳其语文本数据集上进行训练，具有广泛的语言理解能力。

📦 安装指南

文档未提及安装相关内容，若有安装需求，可参考transformers库的安装方式来安装所需依赖。

💻 使用示例

基础用法

# 用模型进行推理的示例代码
from transformers import GPT2Tokenizer, GPT2LMHeadModel

model_name = "cenkersisman/gpt2-turkish-128-token"
tokenizer = GPT2Tokenizer.from_pretrained(model_name)
model = GPT2LMHeadModel.from_pretrained(model_name)

prompt = "okyanusun derinliklerinde bulunan"
input_ids = tokenizer.encode(prompt, return_tensors="pt")
output = model.generate(input_ids, max_length=100, pad_token_id=tokenizer.eos_token_id)
generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
print(generated_text)

📚 详细文档

模型描述

GPT - 2土耳其语模型是一个专门为土耳其语定制的大型语言模型。它基于GPT - 2架构，分词器结构是专门为土耳其语设计的。该模型能够使用给定的起始文本生成类似人类的文本，并且在一个包含9亿字符的维基百科数据集上进行了训练。

训练集中的句子最多由128个词元（词元 = 词根和词缀）组成，因此生成的句子长度是有限的。模型使用了符合土耳其语词法结构的分词器，并在大约154个周期内进行了750万步的训练。训练使用了具有4GB内存的Nvidia Geforce RTX 3050 GPU，还利用了16GB共享GPU，训练过程中总共使用了20GB内存。

训练过程曲线

image/png

🔧 技术细节

训练数据：使用了9亿字符的维基百科数据集进行训练。
分词器：采用了符合土耳其语词法结构的分词器。
训练步数和周期：模型在大约154个周期内进行了750万步的训练。
硬件资源：训练使用了具有4GB内存的Nvidia Geforce RTX 3050 GPU，还利用了16GB共享GPU，训练过程中总共使用了20GB内存。