nepaliBERT開源語言模型 - 基於尼泊爾新聞數據實現文本理解與分析

首頁

Nepalibert

由Shushant開發

基於尼泊爾語新聞數據的掩碼語言模型，訓練數據來自多個尼泊爾新聞網站，包含約1000萬條尼泊爾語句子，內容主要為新聞。

大型語言模型

Transformers

其他開源協議:MIT #尼泊爾語新聞處理 #梵文語言模型 #低困惑度MLM

下載量 701.51k

發布時間 : 3/2/2022

模型概述

該模型是在BERT基礎架構上微調的尼泊爾語掩碼語言模型，主要用於尼泊爾語相關的自然語言處理任務。

模型特點

大規模尼泊爾語訓練數據

訓練數據包含約1000萬條尼泊爾語句子，主要來自新聞網站，文本量約4.6GB。

高性能評估結果

在評估集上表現良好，損失值為1.0495，困惑度為8.56。

GPU加速訓練

使用Tesla V100 GPU進行訓練，耗時約3天8小時57分鐘。

模型能力

尼泊爾語文本理解

尼泊爾語文本生成

尼泊爾語情感分析

使用案例

自然語言處理

尼泊爾語情感分析

用於分析尼泊爾推文的情感傾向

表現優於其他現有的尼泊爾語掩碼語言模型

尼泊爾語文本補全

填補尼泊爾語句子中的缺失部分

🚀 尼泊爾語BERT模型

這是一個用於尼泊爾語的掩碼語言模型，基於從不同尼泊爾新聞網站抓取的新聞數據進行訓練，數據集包含約1000萬條主要與尼泊爾新聞相關的尼泊爾語句子。

🚀 快速開始

from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("Shushant/nepaliBERT")
model = AutoModelForMaskedLM.from_pretrained("Shushant/nepaliBERT")

from transformers import pipeline

fill_mask = pipeline( "fill-mask", model=model, tokenizer=tokenizer, ) 
from pprint import pprint 
pprint(fill_mask(f"तिमीलाई कस्तो {tokenizer.mask_token}."))

✨ 主要特性

該模型是 Bert Base Uncased 在由尼泊爾新聞門戶抓取的不同新聞組成的數據集上的微調版本，數據集包含4.6GB的文本數據。
在評估集上取得了以下結果：
- 損失值：1.0495
此Transformer模型可用於任何與天城文語言相關的NLP任務。在訓練時，它是為天城文數據集開發的最先進模型。通過困惑度為8.56的內在評估達到了這一先進水平，而在尼泊爾語推文情感分析上的外在評估也優於其他現有的尼泊爾語數據集掩碼語言模型。

📦 安裝指南

本項目依賴transformers庫，可使用以下命令進行安裝：

pip install transformers

💻 使用示例

基礎用法

from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("Shushant/nepaliBERT")
model = AutoModelForMaskedLM.from_pretrained("Shushant/nepaliBERT")

from transformers import pipeline

fill_mask = pipeline( "fill-mask", model=model, tokenizer=tokenizer, ) 
from pprint import pprint 
pprint(fill_mask(f"तिमीलाई कस्तो {tokenizer.mask_token}."))

📚 詳細文檔

模型描述

在BERT基礎架構上進行預訓練。

預期用途和限制

此Transformer模型可用於任何與天城文語言相關的NLP任務。在訓練時，它是為天城文數據集開發的最先進模型。通過困惑度為8.56的內在評估達到了這一先進水平，而在尼泊爾語推文情感分析上的外在評估也優於其他現有的尼泊爾語數據集掩碼語言模型。

訓練和評估數據

訓練語料庫是使用從不同新聞門戶抓取的85467條新聞開發的。這是用於實驗的初步數據集，語料庫大小約為4.3GB的文本數據。同樣，評估數據包含約12MB文本數據的少量新聞文章。

訓練過程

對於掩碼語言模型的預訓練，使用了Huggingface的Trainer API。預訓練耗時約3天8小時57分鐘，在Tesla V100 GPU上進行訓練。Tesla V100擁有640個張量核心，是世界上第一個突破深度學習性能100萬億次浮點運算（TFLOPS）障礙的GPU。此GPU由加德滿都大學（KU）超級計算機提供，感謝KU的管理團隊。

數據描述

該模型基於從各種來源收集的約4.6GB尼泊爾語文本語料庫進行訓練，這些數據來自尼泊爾新聞網站和OSCAR尼泊爾語語料庫。

論文和引用詳情

如果您有興趣閱讀此語言模型的實現細節，可以在此處閱讀完整論文： https://www.researchgate.net/publication/375019515_NepaliBERT_Pre-training_of_Masked_Language_Model_in_Nepali_Corpus

純文本引用

S. Pudasaini, S. Shakya, A. Tamang, S. Adhikari, S. Thapa and S. Lamichhane, "NepaliBERT: Pre-training of Masked Language Model in Nepali Corpus," 2023 7th International Conference on I-SMAC (IoT in Social, Mobile, Analytics and Cloud) (I-SMAC), Kirtipur, Nepal, 2023, pp. 325-330, doi: 10.1109/I-SMAC58438.2023.10290690.

BibTeX引用

@INPROCEEDINGS{10290690,
  author={Pudasaini, Shushanta and Shakya, Subarna and Tamang, Aakash and Adhikari, Sajjan and Thapa, Sunil and Lamichhane, Sagar},
  booktitle={2023 7th International Conference on I-SMAC (IoT in Social, Mobile, Analytics and Cloud) (I-SMAC)}, 
  title={NepaliBERT: Pre-training of Masked Language Model in Nepali Corpus}, 
  year={2023},
  volume={},
  number={},
  pages={325-330},
  doi={10.1109/I-SMAC58438.2023.10290690}
}