GPTuz开源乌兹别克语语言模型 - 支持多样化文本处理与交流应用

首页

Gptuz

由 rifkat 开发

GPTuz是基于GPT-2小型模型的乌兹别克语先进语言模型，通过迁移学习和微调技术训练而成。

大型语言模型

Transformers

其他开源协议:Apache-2.0 #乌兹别克语生成 #GPT-2微调 #新闻文本生成

下载量 42

发布时间 : 6/9/2022

模型简介

该模型是针对乌兹别克语优化的文本生成模型，基于GPT-2架构，适用于乌兹别克语的文本生成任务。

模型特点

乌兹别克语优化

专门针对乌兹别克语进行微调，优化了乌兹别克语的文本生成能力。

基于GPT-2架构

采用成熟的GPT-2小型模型架构，具有可靠的文本生成性能。

迁移学习技术

使用迁移学习技术，在有限的数据集上实现了良好的性能。

模型能力

乌兹别克语文本生成

文本自动补全

语言模型推理

使用案例

新闻生成

新闻开头生成

根据提供的开头生成完整的新闻内容

内容创作

文本自动补全

根据用户输入的起始文本自动生成后续内容

🚀 GPTuzmodel

GPTuz是基于GPT - 2小型模型的乌兹别克语先进语言模型。该模型在NVIDIA V100 32GB的GPU上，使用从kun.uz获取的0.53GB数据，基于迁移学习和微调技术训练了超过1天。

🚀 快速开始

模型加载

from transformers import AutoTokenizer, AutoModelWithLMHead
import torch

tokenizer = AutoTokenizer.from_pretrained("rifkat/GPTuz")
model = AutoModelWithLMHead.from_pretrained("rifkat/GPTuz")

tokenizer.model_max_length=1024

生成单个单词

text = "Covid-19 га қарши эмлаш бошланди,"
inputs = tokenizer(text, return_tensors="pt")

outputs = model(**inputs, labels=inputs["input_ids"])
loss, logits = outputs[:2]
predicted_index = torch.argmax(logits[0, -1, :]).item()
predicted_text = tokenizer.decode([predicted_index])

print('input text:', text)
print('predicted text:', predicted_text)

生成完整序列

text = "Covid-19 га қарши эмлаш бошланди, "
inputs = tokenizer(text, return_tensors="pt")

sample_outputs = model.generate(inputs.input_ids,
                                pad_token_id=50256,
                                do_sample=True, 
                                max_length=50, # 输入所需的token数量
                                top_k=40,
                                num_return_sequences=1)

for i, sample_output in enumerate(sample_outputs):
    print(">> Generated text {}\n\n{}".format(i+1, tokenizer.decode(sample_output.tolist())))

📚 详细文档

模型信息

属性	详情
模型类型	基于GPT - 2小型模型的乌兹别克语语言模型
训练数据	从kun.uz获取的0.53GB数据
训练硬件	NVIDIA V100 32GB GPU
训练技术	迁移学习和微调

引用信息

@misc {rifkat_davronov_2022,
    authors       = { {Adilova Fatima,Rifkat Davronov, Samariddin Kushmuratov, Ruzmat Safarov} },
    title        = { GPTuz (Revision 2a7e6c0) },
    year         = 2022,
    url          = { https://huggingface.co/rifkat/GPTuz },
    doi          = { 10.57967/hf/0143 },
    publisher    = { Hugging Face }
}