gpt2-persian開源波斯語語言模型 - 免費實現波斯語文本與詩歌生成

首頁

Gpt2 Persian

由bolbolzaban開發

基於GPT2架構的波斯語語言模型，專為波斯語文本生成設計，特別優化了波斯詩歌處理能力。

大型語言模型其他開源協議:Apache-2.0 #波斯語文本生成 #古典詩歌處理 #SentencePiece分詞

下載量 691

發布時間 : 3/2/2022

模型概述

這是一個針對波斯語優化的GPT2模型，採用SentencePiece分詞器，專為波斯語文本生成和詩歌研究設計。

模型特點

波斯語優化

專門針對波斯語訓練，所有非波斯文字符均被替換為特殊標記

詩歌處理增強

支持古典波斯詩歌的特殊標記格式，如[BOM]和[EOS]

高效分詞

使用Google SentencePiece分詞器替代標準BPE分詞器

計算優化

上下文長度從1024縮減至256以降低訓練成本

模型能力

波斯語文本生成

古典詩歌續寫

波斯語語言理解

使用案例

文學創作

波斯詩歌生成

根據輸入的波斯詩句續寫完整的詩歌

可生成符合古典波斯詩歌格律的文本

語言研究

波斯語模型研究

用於研究波斯語的語言模型特性

🚀 GPT2 - 波斯語模型

GPT2 - 波斯語模型（bolbolzaban/gpt2 - persian）是一個基於GPT2架構的語言模型。它在訓練時採用了與標準GPT2 - medium相近的超參數，不過存在以下差異：

為降低訓練成本，上下文大小從1024個子詞縮減至256個子詞。
分詞時使用Google的SentencePiece分詞器，而非BPE。
訓練數據集僅包含波斯語文本，所有非波斯語字符都被替換為特殊標記（如[LAT]、[URL]、[NUM]）。

若需瞭解更多詳情，請參考此博客文章。你也可以在此處或Bolbolzaban.com上試用該模型。

🚀 快速開始

你可以直接使用文本生成管道來使用此模型：

from transformers import pipeline, AutoTokenizer, GPT2LMHeadModel
tokenizer = AutoTokenizer.from_pretrained('bolbolzaban/gpt2-persian')
model = GPT2LMHeadModel.from_pretrained('bolbolzaban/gpt2-persian')
generator = pipeline('text-generation', model, tokenizer=tokenizer, config={'max_length':256})
sample = generator('در یک اتفاق شگفت انگیز، پژوهشگران')

如果你使用的是TensorFlow，請將GPT2LMHeadModel替換為TFGPT2LMHeadModel。