🚀 印度尼西亚GPT2小模型
本模型是基于因果语言建模(CLM)目标,使用印度尼西亚维基百科数据预训练的GPT2小模型。它不区分大小写,例如“indonesia”和“Indonesia”会被视为相同。该模型可用于文本分类、文本生成等下游任务。
🚀 快速开始
如何使用
你可以直接使用此模型通过管道进行文本生成。由于生成过程具有一定随机性,为保证结果可复现,我们设置了随机种子:
>>> from transformers import pipeline, set_seed
>>> generator = pipeline('text-generation', model='cahya/gpt2-small-indonesian-522M')
>>> set_seed(42)
>>> generator("Kerajaan Majapahit adalah", max_length=30, num_return_sequences=5, num_beams=10)
[{'generated_text': 'Kerajaan Majapahit adalah sebuah kerajaan yang pernah berdiri di Jawa Timur pada abad ke-14 hingga abad ke-15. Kerajaan ini berdiri pada abad ke-14'},
{'generated_text': 'Kerajaan Majapahit adalah sebuah kerajaan yang pernah berdiri di Jawa Timur pada abad ke-14 hingga abad ke-16. Kerajaan ini berdiri pada abad ke-14'},
{'generated_text': 'Kerajaan Majapahit adalah sebuah kerajaan yang pernah berdiri di Jawa Timur pada abad ke-14 hingga abad ke-15. Kerajaan ini berdiri pada abad ke-15'},
{'generated_text': 'Kerajaan Majapahit adalah sebuah kerajaan yang pernah berdiri di Jawa Timur pada abad ke-14 hingga abad ke-16. Kerajaan ini berdiri pada abad ke-15'},
{'generated_text': 'Kerajaan Majapahit adalah sebuah kerajaan yang pernah berdiri di Jawa Timur pada abad ke-14 hingga abad ke-15. Kerajaan ini merupakan kelanjutan dari Kerajaan Majapahit yang'}]
以下是在PyTorch中使用该模型获取给定文本特征的方法:
from transformers import GPT2Tokenizer, GPT2Model
model_name='cahya/gpt2-small-indonesian-522M'
tokenizer = GPT2Tokenizer.from_pretrained(model_name)
model = GPT2Model.from_pretrained(model_name)
text = "Silakan diganti dengan text apa saja."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)
在TensorFlow中的使用方法如下:
from transformers import GPT2Tokenizer, TFGPT2Model
model_name='cahya/gpt2-small-indonesian-522M'
tokenizer = GPT2Tokenizer.from_pretrained(model_name)
model = TFGPT2Model.from_pretrained(model_name)
text = "Silakan diganti dengan text apa saja."
encoded_input = tokenizer(text, return_tensors='tf')
output = model(encoded_input)
✨ 主要特性
这是使用印度尼西亚数据集预训练的多个语言模型之一。关于其在下游任务(如文本分类、文本生成等)中的更多使用细节,请参考基于Transformer的印度尼西亚语言模型。
🔧 技术细节
训练数据
该模型使用522MB的印度尼西亚维基百科数据进行预训练。文本使用字节级的字节对编码(BPE)(针对Unicode字符)进行分词,词汇量大小为52,000。输入为128个连续标记的序列。
📄 许可证
本模型采用MIT许可证。
属性 |
详情 |
模型类型 |
印度尼西亚GPT2小模型 |
训练数据 |
522MB的印度尼西亚维基百科数据 |
评估指标 |
困惑度 |
数据集 |
indonesian-nlp/wikipedia-id |
语言 |
印度尼西亚语 |