🚀 GPT2 - 波斯語模型
GPT2 - 波斯語模型(bolbolzaban/gpt2 - persian)是一個基於GPT2架構的語言模型。它在訓練時採用了與標準GPT2 - medium相近的超參數,不過存在以下差異:
- 為降低訓練成本,上下文大小從1024個子詞縮減至256個子詞。
- 分詞時使用Google的SentencePiece分詞器,而非BPE。
- 訓練數據集僅包含波斯語文本,所有非波斯語字符都被替換為特殊標記(如[LAT]、[URL]、[NUM])。
若需瞭解更多詳情,請參考此博客文章。你也可以在此處或Bolbolzaban.com上試用該模型。
🚀 快速開始
你可以直接使用文本生成管道來使用此模型:
from transformers import pipeline, AutoTokenizer, GPT2LMHeadModel
tokenizer = AutoTokenizer.from_pretrained('bolbolzaban/gpt2-persian')
model = GPT2LMHeadModel.from_pretrained('bolbolzaban/gpt2-persian')
generator = pipeline('text-generation', model, tokenizer=tokenizer, config={'max_length':256})
sample = generator('در یک اتفاق شگفت انگیز، پژوهشگران')
如果你使用的是TensorFlow,請將GPT2LMHeadModel
替換為TFGPT2LMHeadModel
。
📚 詳細文檔
微調
你可以在這個GitHub倉庫中找到基本的微調示例。
特殊標記
該模型是為波斯詩歌研究而訓練的。因此,所有英語單詞和數字都被替換為特殊標記,並且僅使用標準波斯字母作為輸入文本的一部分。以下是一個示例:
原始文本:اگر آیفون یا آیپد شما دارای سیستم عامل iOS 14.3 یا iPadOS 14.3 یا نسخههای جدیدتر باشد
訓練中使用的文本:اگر آیفون یا آیپد شما دارای سیستم عامل [LAT] [NUM] یا [LAT] [NUM] یا نسخههای جدیدتر باشد
請考慮使用Hazm或類似庫對輸入文本進行規範化處理,並確保輸入僅包含波斯字符。
如果你想使用古典波斯詩歌作為輸入,請在每句詩(مصرع)的開頭使用[BOM](詩句開頭標記),並在每對句(بیت)的結尾使用[EOS](語句結束標記)。
示例鏈接如下:
[BOM] توانا بود
[BOM] توانا بود هر که دانا بود [BOM]
[BOM] توانا بود هر که دانا بود [BOM] ز دانش دل پیر
[BOM] توانا بود هر که دانا بود [BOM] ز دانش دل پیربرنا بود [EOS]
若想了解古典波斯詩歌的結構,請參考這些博客文章。
📄 許可證
本項目採用Apache - 2.0許可證。
🙏 致謝
本項目得到了Google的TensorFlow研究雲(TFRC)的Cloud TPU支持。
📖 引用與參考
如果你在研究或商業應用中使用了GPT2 - 波斯語模型,請引用“bolbolzaban.com”網站。
📞 聯繫我們
如果你有任何問題或需要使用該模型的幫助,請通過領英或Telegram聯繫我們。
你還可以在Twitter、Telegram或Instagram上關注Bolbolzaban。