🚀 爪哇语小型BERT模型
爪哇语小型BERT模型是一个基于掩码的语言模型,它利用BERT架构,在最新(2020年12月下旬)的爪哇语维基百科文章上进行训练,为爪哇语的自然语言处理任务提供了有力支持。
🚀 快速开始
爪哇语小型BERT模型是基于 BERT模型 的掩码语言模型。它在最新(2020年12月下旬)的爪哇语维基百科文章上进行训练。
该模型最初是HuggingFace预训练的 英文BERT模型,随后在爪哇语数据集上进行微调。在验证数据集(文章的20%)上,该模型的困惑度达到了22.00。所使用的许多技术基于 Sylvain Gugger 编写的Hugging Face教程 笔记本,以及 Pierre Guillou 编写的 微调教程笔记本。
训练该模型使用了Hugging Face的 Transformers 库,利用了基础BERT模型及其 Trainer
类。训练期间使用PyTorch作为后端框架,但该模型仍然与TensorFlow兼容。
✨ 主要特性
模型信息
属性 |
详情 |
模型类型 |
javanese-bert-small |
参数量 |
1.1亿 |
架构 |
BERT Small |
训练数据 |
爪哇语维基百科(319MB文本) |
评估结果
该模型训练了5个轮次,训练结束后的最终结果如下:
训练损失 |
验证损失 |
困惑度 |
总时间 |
3.116 |
3.091 |
22.00 |
2:7:42 |
💻 使用示例
基础用法
作为掩码语言模型使用:
from transformers import pipeline
pretrained_name = "w11wo/javanese-bert-small"
fill_mask = pipeline(
"fill-mask",
model=pretrained_name,
tokenizer=pretrained_name
)
fill_mask("Aku mangan sate ing [MASK] bareng konco-konco")
高级用法
在PyTorch中进行特征提取:
from transformers import BertModel, BertTokenizerFast
pretrained_name = "w11wo/javanese-bert-small"
model = BertModel.from_pretrained(pretrained_name)
tokenizer = BertTokenizerFast.from_pretrained(pretrained_name)
prompt = "Indonesia minangka negara gedhe."
encoded_input = tokenizer(prompt, return_tensors='pt')
output = model(**encoded_input)
📚 详细文档
免责声明
请记住,尽管数据集源自维基百科,但该模型并不总是能生成事实性文本。此外,维基百科文章中的偏差可能会延续到该模型的结果中。
作者信息
爪哇语小型BERT模型由 Wilson Wongso 训练和评估。所有计算和开发工作均在Google Colaboratory上使用其免费GPU完成。
引用信息
如果您在研究中使用了我们的任何模型,请引用:
@inproceedings{wongso2021causal,
title={Causal and Masked Language Modeling of Javanese Language using Transformer-based Architectures},
author={Wongso, Wilson and Setiawan, David Samuel and Suhartono, Derwin},
booktitle={2021 International Conference on Advanced Computer Science and Information Systems (ICACSIS)},
pages={1--7},
year={2021},
organization={IEEE}
}
📄 许可证
本项目采用MIT许可证。