nepaliBERT开源语言模型 - 基于尼泊尔新闻数据实现文本理解与分析

首页

Nepalibert

由 Shushant 开发

基于尼泊尔语新闻数据的掩码语言模型，训练数据来自多个尼泊尔新闻网站，包含约1000万条尼泊尔语句子，内容主要为新闻。

大型语言模型

Transformers

其他开源协议:MIT #尼泊尔语新闻处理 #梵文语言模型 #低困惑度MLM

下载量 701.51k

发布时间 : 3/2/2022

模型简介

该模型是在BERT基础架构上微调的尼泊尔语掩码语言模型，主要用于尼泊尔语相关的自然语言处理任务。

模型特点

大规模尼泊尔语训练数据

训练数据包含约1000万条尼泊尔语句子，主要来自新闻网站，文本量约4.6GB。

高性能评估结果

在评估集上表现良好，损失值为1.0495，困惑度为8.56。

GPU加速训练

使用Tesla V100 GPU进行训练，耗时约3天8小时57分钟。

模型能力

尼泊尔语文本理解

尼泊尔语文本生成

尼泊尔语情感分析

使用案例

自然语言处理

尼泊尔语情感分析

用于分析尼泊尔推文的情感倾向

表现优于其他现有的尼泊尔语掩码语言模型

尼泊尔语文本补全

填补尼泊尔语句子中的缺失部分

🚀 尼泊尔语BERT模型

这是一个用于尼泊尔语的掩码语言模型，基于从不同尼泊尔新闻网站抓取的新闻数据进行训练，数据集包含约1000万条主要与尼泊尔新闻相关的尼泊尔语句子。

🚀 快速开始

from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("Shushant/nepaliBERT")
model = AutoModelForMaskedLM.from_pretrained("Shushant/nepaliBERT")

from transformers import pipeline

fill_mask = pipeline( "fill-mask", model=model, tokenizer=tokenizer, ) 
from pprint import pprint 
pprint(fill_mask(f"तिमीलाई कस्तो {tokenizer.mask_token}."))

✨ 主要特性

该模型是 Bert Base Uncased 在由尼泊尔新闻门户抓取的不同新闻组成的数据集上的微调版本，数据集包含4.6GB的文本数据。
在评估集上取得了以下结果：
- 损失值：1.0495
此Transformer模型可用于任何与天城文语言相关的NLP任务。在训练时，它是为天城文数据集开发的最先进模型。通过困惑度为8.56的内在评估达到了这一先进水平，而在尼泊尔语推文情感分析上的外在评估也优于其他现有的尼泊尔语数据集掩码语言模型。

📦 安装指南

本项目依赖transformers库，可使用以下命令进行安装：

pip install transformers

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("Shushant/nepaliBERT")
model = AutoModelForMaskedLM.from_pretrained("Shushant/nepaliBERT")

from transformers import pipeline

fill_mask = pipeline( "fill-mask", model=model, tokenizer=tokenizer, ) 
from pprint import pprint 
pprint(fill_mask(f"तिमीलाई कस्तो {tokenizer.mask_token}."))

📚 详细文档

模型描述

在BERT基础架构上进行预训练。

预期用途和限制

此Transformer模型可用于任何与天城文语言相关的NLP任务。在训练时，它是为天城文数据集开发的最先进模型。通过困惑度为8.56的内在评估达到了这一先进水平，而在尼泊尔语推文情感分析上的外在评估也优于其他现有的尼泊尔语数据集掩码语言模型。

训练和评估数据

训练语料库是使用从不同新闻门户抓取的85467条新闻开发的。这是用于实验的初步数据集，语料库大小约为4.3GB的文本数据。同样，评估数据包含约12MB文本数据的少量新闻文章。

训练过程

对于掩码语言模型的预训练，使用了Huggingface的Trainer API。预训练耗时约3天8小时57分钟，在Tesla V100 GPU上进行训练。Tesla V100拥有640个张量核心，是世界上第一个突破深度学习性能100万亿次浮点运算（TFLOPS）障碍的GPU。此GPU由加德满都大学（KU）超级计算机提供，感谢KU的管理团队。

数据描述

该模型基于从各种来源收集的约4.6GB尼泊尔语文本语料库进行训练，这些数据来自尼泊尔新闻网站和OSCAR尼泊尔语语料库。

论文和引用详情

如果您有兴趣阅读此语言模型的实现细节，可以在此处阅读完整论文： https://www.researchgate.net/publication/375019515_NepaliBERT_Pre-training_of_Masked_Language_Model_in_Nepali_Corpus

纯文本引用

S. Pudasaini, S. Shakya, A. Tamang, S. Adhikari, S. Thapa and S. Lamichhane, "NepaliBERT: Pre-training of Masked Language Model in Nepali Corpus," 2023 7th International Conference on I-SMAC (IoT in Social, Mobile, Analytics and Cloud) (I-SMAC), Kirtipur, Nepal, 2023, pp. 325-330, doi: 10.1109/I-SMAC58438.2023.10290690.

BibTeX引用

@INPROCEEDINGS{10290690,
  author={Pudasaini, Shushanta and Shakya, Subarna and Tamang, Aakash and Adhikari, Sajjan and Thapa, Sunil and Lamichhane, Sagar},
  booktitle={2023 7th International Conference on I-SMAC (IoT in Social, Mobile, Analytics and Cloud) (I-SMAC)}, 
  title={NepaliBERT: Pre-training of Masked Language Model in Nepali Corpus}, 
  year={2023},
  volume={},
  number={},
  pages={325-330},
  doi={10.1109/I-SMAC58438.2023.10290690}
}