🚀 爪哇語小型BERT模型
爪哇語小型BERT模型是一個基於掩碼的語言模型,它利用BERT架構,在最新(2020年12月下旬)的爪哇語維基百科文章上進行訓練,為爪哇語的自然語言處理任務提供了有力支持。
🚀 快速開始
爪哇語小型BERT模型是基於 BERT模型 的掩碼語言模型。它在最新(2020年12月下旬)的爪哇語維基百科文章上進行訓練。
該模型最初是HuggingFace預訓練的 英文BERT模型,隨後在爪哇語數據集上進行微調。在驗證數據集(文章的20%)上,該模型的困惑度達到了22.00。所使用的許多技術基於 Sylvain Gugger 編寫的Hugging Face教程 筆記本,以及 Pierre Guillou 編寫的 微調教程筆記本。
訓練該模型使用了Hugging Face的 Transformers 庫,利用了基礎BERT模型及其 Trainer
類。訓練期間使用PyTorch作為後端框架,但該模型仍然與TensorFlow兼容。
✨ 主要特性
模型信息
屬性 |
詳情 |
模型類型 |
javanese-bert-small |
參數量 |
1.1億 |
架構 |
BERT Small |
訓練數據 |
爪哇語維基百科(319MB文本) |
評估結果
該模型訓練了5個輪次,訓練結束後的最終結果如下:
訓練損失 |
驗證損失 |
困惑度 |
總時間 |
3.116 |
3.091 |
22.00 |
2:7:42 |
💻 使用示例
基礎用法
作為掩碼語言模型使用:
from transformers import pipeline
pretrained_name = "w11wo/javanese-bert-small"
fill_mask = pipeline(
"fill-mask",
model=pretrained_name,
tokenizer=pretrained_name
)
fill_mask("Aku mangan sate ing [MASK] bareng konco-konco")
高級用法
在PyTorch中進行特徵提取:
from transformers import BertModel, BertTokenizerFast
pretrained_name = "w11wo/javanese-bert-small"
model = BertModel.from_pretrained(pretrained_name)
tokenizer = BertTokenizerFast.from_pretrained(pretrained_name)
prompt = "Indonesia minangka negara gedhe."
encoded_input = tokenizer(prompt, return_tensors='pt')
output = model(**encoded_input)
📚 詳細文檔
免責聲明
請記住,儘管數據集源自維基百科,但該模型並不總是能生成事實性文本。此外,維基百科文章中的偏差可能會延續到該模型的結果中。
作者信息
爪哇語小型BERT模型由 Wilson Wongso 訓練和評估。所有計算和開發工作均在Google Colaboratory上使用其免費GPU完成。
引用信息
如果您在研究中使用了我們的任何模型,請引用:
@inproceedings{wongso2021causal,
title={Causal and Masked Language Modeling of Javanese Language using Transformer-based Architectures},
author={Wongso, Wilson and Setiawan, David Samuel and Suhartono, Derwin},
booktitle={2021 International Conference on Advanced Computer Science and Information Systems (ICACSIS)},
pages={1--7},
year={2021},
organization={IEEE}
}
📄 許可證
本項目採用MIT許可證。