gpt2-medium-persian开源波斯语文本生成模型 - 免费部署助力多样文本创作

首页

Gpt2 Medium Persian

由 flax-community 开发

这是一个基于GPT2架构的中型波斯语文本生成模型，由HuggingFace社区成员使用Flax/Jax框架训练。

大型语言模型其他#波斯语文本生成 #多语言支持 #基于Flax/Jax

下载量 5,388

发布时间 : 3/2/2022

模型简介

该模型专门用于波斯语文本生成任务，基于GPT2架构开发，适用于多种文本生成场景。

模型特点

波斯语优化

专门针对波斯语文本生成任务进行训练和优化

基于GPT2架构

采用成熟的GPT2架构，具有良好的文本生成能力

社区驱动开发

由HuggingFace社区成员合作开发，TPU资源由谷歌赞助

模型能力

波斯语文本生成

文本自动补全

上下文相关文本创作

使用案例

内容创作

新闻写作辅助

根据开头提示生成完整的新闻内容

节日祝福生成

生成诺鲁孜节等波斯传统节日的祝福语

教育研究

学术写作辅助

帮助研究人员生成论文或报告的部分内容

🚀 GPT2 Medium 4 Persian

本项目是由 HuggingFace 组织的 Flax/Jax 社区周的一部分，TPU 使用由 Google 赞助。该项目旨在为波斯语提供一个强大的文本生成模型。

🚀 快速开始

你可以直接使用这个模型通过文本生成管道进行操作。以下是使用 Python 代码的示例：

from transformers import pipeline, AutoTokenizer, GPT2LMHeadModel
tokenizer = AutoTokenizer.from_pretrained('flax-community/gpt2-medium-persian')
model = GPT2LMHeadModel.from_pretrained('flax-community/gpt2-medium-persian')
generator = pipeline('text-generation', model, tokenizer=tokenizer, config={'max_length':100})
generated_text = generator('در یک اتفاق شگفت انگیز، پژوهشگران')

若使用 Tensorflow，需导入 TFGPT2LMHeadModel 而非 GPT2LMHeadModel。

✨ 主要特性

支持波斯语文本生成，为波斯语相关的自然语言处理任务提供了有力支持。
基于 Oscar 数据集进行训练，该数据集是一个通过对 Common Crawl 语料库进行语言分类和过滤得到的大型多语言语料库，保证了模型的训练数据质量。

💻 使用示例

基础用法

from transformers import pipeline, AutoTokenizer, GPT2LMHeadModel
tokenizer = AutoTokenizer.from_pretrained('flax-community/gpt2-medium-persian')
model = GPT2LMHeadModel.from_pretrained('flax-community/gpt2-medium-persian')
generator = pipeline('text-generation', model, tokenizer=tokenizer, config={'max_length':100})
generated_text = generator('در یک اتفاق شگفت انگیز، پژوهشگران')

高级用法

若使用 Tensorflow，可按以下代码操作：

from transformers import pipeline, AutoTokenizer, TFGPT2LMHeadModel
tokenizer = AutoTokenizer.from_pretrained('flax-community/gpt2-medium-persian')
model = TFGPT2LMHeadModel.from_pretrained('flax-community/gpt2-medium-persian')
generator = pipeline('text-generation', model, tokenizer=tokenizer, config={'max_length':100})
generated_text = generator('در یک اتفاق شگفت انگیز، پژوهشگران')

📚 详细文档

团队成员

数据集

我们使用了 Oscar 数据集，它是一个通过对 Common Crawl 语料库进行语言分类和过滤得到的大型多语言语料库。

演示

演示即将推出。

评估

评估结果即将公布。

📄 信息表格

属性	详情
模型类型	GPT2 Medium 4 Persian
训练数据	Oscar 数据集，一个通过对 Common Crawl 语料库进行语言分类和过滤得到的大型多语言语料库