🚀 尼泊尔语BERT模型
这是一个用于尼泊尔语的掩码语言模型,基于从不同尼泊尔新闻网站抓取的新闻数据进行训练,数据集包含约1000万条主要与尼泊尔新闻相关的尼泊尔语句子。
🚀 快速开始
from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("Shushant/nepaliBERT")
model = AutoModelForMaskedLM.from_pretrained("Shushant/nepaliBERT")
from transformers import pipeline
fill_mask = pipeline( "fill-mask", model=model, tokenizer=tokenizer, )
from pprint import pprint
pprint(fill_mask(f"तिमीलाई कस्तो {tokenizer.mask_token}."))
✨ 主要特性
- 该模型是 Bert Base Uncased 在由尼泊尔新闻门户抓取的不同新闻组成的数据集上的微调版本,数据集包含4.6GB的文本数据。
- 在评估集上取得了以下结果:
- 此Transformer模型可用于任何与天城文语言相关的NLP任务。在训练时,它是为天城文数据集开发的最先进模型。通过困惑度为8.56的内在评估达到了这一先进水平,而在尼泊尔语推文情感分析上的外在评估也优于其他现有的尼泊尔语数据集掩码语言模型。
📦 安装指南
本项目依赖transformers
库,可使用以下命令进行安装:
pip install transformers
💻 使用示例
基础用法
from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("Shushant/nepaliBERT")
model = AutoModelForMaskedLM.from_pretrained("Shushant/nepaliBERT")
from transformers import pipeline
fill_mask = pipeline( "fill-mask", model=model, tokenizer=tokenizer, )
from pprint import pprint
pprint(fill_mask(f"तिमीलाई कस्तो {tokenizer.mask_token}."))
📚 详细文档
模型描述
在BERT基础架构上进行预训练。
预期用途和限制
此Transformer模型可用于任何与天城文语言相关的NLP任务。在训练时,它是为天城文数据集开发的最先进模型。通过困惑度为8.56的内在评估达到了这一先进水平,而在尼泊尔语推文情感分析上的外在评估也优于其他现有的尼泊尔语数据集掩码语言模型。
训练和评估数据
训练语料库是使用从不同新闻门户抓取的85467条新闻开发的。这是用于实验的初步数据集,语料库大小约为4.3GB的文本数据。同样,评估数据包含约12MB文本数据的少量新闻文章。
训练过程
对于掩码语言模型的预训练,使用了Huggingface的Trainer API。预训练耗时约3天8小时57分钟,在Tesla V100 GPU上进行训练。Tesla V100拥有640个张量核心,是世界上第一个突破深度学习性能100万亿次浮点运算(TFLOPS)障碍的GPU。此GPU由加德满都大学(KU)超级计算机提供,感谢KU的管理团队。
数据描述
该模型基于从各种来源收集的约4.6GB尼泊尔语文本语料库进行训练,这些数据来自尼泊尔新闻网站和OSCAR尼泊尔语语料库。
论文和引用详情
如果您有兴趣阅读此语言模型的实现细节,可以在此处阅读完整论文:
https://www.researchgate.net/publication/375019515_NepaliBERT_Pre-training_of_Masked_Language_Model_in_Nepali_Corpus
纯文本引用
S. Pudasaini, S. Shakya, A. Tamang, S. Adhikari, S. Thapa and S. Lamichhane, "NepaliBERT: Pre-training of Masked Language Model in Nepali Corpus," 2023 7th International Conference on I-SMAC (IoT in Social, Mobile, Analytics and Cloud) (I-SMAC), Kirtipur, Nepal, 2023, pp. 325-330, doi: 10.1109/I-SMAC58438.2023.10290690.
BibTeX引用
@INPROCEEDINGS{10290690,
author={Pudasaini, Shushanta and Shakya, Subarna and Tamang, Aakash and Adhikari, Sajjan and Thapa, Sunil and Lamichhane, Sagar},
booktitle={2023 7th International Conference on I-SMAC (IoT in Social, Mobile, Analytics and Cloud) (I-SMAC)},
title={NepaliBERT: Pre-training of Masked Language Model in Nepali Corpus},
year={2023},
volume={},
number={},
pages={325-330},
doi={10.1109/I-SMAC58438.2023.10290690}
}
📄 许可证
本项目采用MIT许可证。