gpt2-persian开源波斯语语言模型 - 免费实现波斯语文本与诗歌生成

首页

Gpt2 Persian

由 bolbolzaban 开发

基于GPT2架构的波斯语语言模型，专为波斯语文本生成设计，特别优化了波斯诗歌处理能力。

大型语言模型其他开源协议:Apache-2.0 #波斯语文本生成 #古典诗歌处理 #SentencePiece分词

下载量 691

发布时间 : 3/2/2022

模型简介

这是一个针对波斯语优化的GPT2模型，采用SentencePiece分词器，专为波斯语文本生成和诗歌研究设计。

模型特点

波斯语优化

专门针对波斯语训练，所有非波斯文字符均被替换为特殊标记

诗歌处理增强

支持古典波斯诗歌的特殊标记格式，如[BOM]和[EOS]

高效分词

使用Google SentencePiece分词器替代标准BPE分词器

计算优化

上下文长度从1024缩减至256以降低训练成本

模型能力

波斯语文本生成

古典诗歌续写

波斯语语言理解

使用案例

文学创作

波斯诗歌生成

根据输入的波斯诗句续写完整的诗歌

可生成符合古典波斯诗歌格律的文本

语言研究

波斯语模型研究

用于研究波斯语的语言模型特性

🚀 GPT2 - 波斯语模型

GPT2 - 波斯语模型（bolbolzaban/gpt2 - persian）是一个基于GPT2架构的语言模型。它在训练时采用了与标准GPT2 - medium相近的超参数，不过存在以下差异：

为降低训练成本，上下文大小从1024个子词缩减至256个子词。
分词时使用Google的SentencePiece分词器，而非BPE。
训练数据集仅包含波斯语文本，所有非波斯语字符都被替换为特殊标记（如[LAT]、[URL]、[NUM]）。

若需了解更多详情，请参考此博客文章。你也可以在此处或Bolbolzaban.com上试用该模型。

🚀 快速开始

你可以直接使用文本生成管道来使用此模型：

from transformers import pipeline, AutoTokenizer, GPT2LMHeadModel
tokenizer = AutoTokenizer.from_pretrained('bolbolzaban/gpt2-persian')
model = GPT2LMHeadModel.from_pretrained('bolbolzaban/gpt2-persian')
generator = pipeline('text-generation', model, tokenizer=tokenizer, config={'max_length':256})
sample = generator('در یک اتفاق شگفت انگیز، پژوهشگران')

如果你使用的是TensorFlow，请将GPT2LMHeadModel替换为TFGPT2LMHeadModel。