🚀 GPT2 - 波斯语模型
GPT2 - 波斯语模型(bolbolzaban/gpt2 - persian)是一个基于GPT2架构的语言模型。它在训练时采用了与标准GPT2 - medium相近的超参数,不过存在以下差异:
- 为降低训练成本,上下文大小从1024个子词缩减至256个子词。
- 分词时使用Google的SentencePiece分词器,而非BPE。
- 训练数据集仅包含波斯语文本,所有非波斯语字符都被替换为特殊标记(如[LAT]、[URL]、[NUM])。
若需了解更多详情,请参考此博客文章。你也可以在此处或Bolbolzaban.com上试用该模型。
🚀 快速开始
你可以直接使用文本生成管道来使用此模型:
from transformers import pipeline, AutoTokenizer, GPT2LMHeadModel
tokenizer = AutoTokenizer.from_pretrained('bolbolzaban/gpt2-persian')
model = GPT2LMHeadModel.from_pretrained('bolbolzaban/gpt2-persian')
generator = pipeline('text-generation', model, tokenizer=tokenizer, config={'max_length':256})
sample = generator('در یک اتفاق شگفت انگیز، پژوهشگران')
如果你使用的是TensorFlow,请将GPT2LMHeadModel
替换为TFGPT2LMHeadModel
。
📚 详细文档
微调
你可以在这个GitHub仓库中找到基本的微调示例。
特殊标记
该模型是为波斯诗歌研究而训练的。因此,所有英语单词和数字都被替换为特殊标记,并且仅使用标准波斯字母作为输入文本的一部分。以下是一个示例:
原始文本:اگر آیفون یا آیپد شما دارای سیستم عامل iOS 14.3 یا iPadOS 14.3 یا نسخههای جدیدتر باشد
训练中使用的文本:اگر آیفون یا آیپد شما دارای سیستم عامل [LAT] [NUM] یا [LAT] [NUM] یا نسخههای جدیدتر باشد
请考虑使用Hazm或类似库对输入文本进行规范化处理,并确保输入仅包含波斯字符。
如果你想使用古典波斯诗歌作为输入,请在每句诗(مصرع)的开头使用[BOM](诗句开头标记),并在每对句(بیت)的结尾使用[EOS](语句结束标记)。
示例链接如下:
[BOM] توانا بود
[BOM] توانا بود هر که دانا بود [BOM]
[BOM] توانا بود هر که دانا بود [BOM] ز دانش دل پیر
[BOM] توانا بود هر که دانا بود [BOM] ز دانش دل پیربرنا بود [EOS]
若想了解古典波斯诗歌的结构,请参考这些博客文章。
📄 许可证
本项目采用Apache - 2.0许可证。
🙏 致谢
本项目得到了Google的TensorFlow研究云(TFRC)的Cloud TPU支持。
📖 引用与参考
如果你在研究或商业应用中使用了GPT2 - 波斯语模型,请引用“bolbolzaban.com”网站。
📞 联系我们
如果你有任何问题或需要使用该模型的帮助,请通过领英或Telegram联系我们。
你还可以在Twitter、Telegram或Instagram上关注Bolbolzaban。