🚀 尼泊爾語BERT模型
這是一個用於尼泊爾語的掩碼語言模型,基於從不同尼泊爾新聞網站抓取的新聞數據進行訓練,數據集包含約1000萬條主要與尼泊爾新聞相關的尼泊爾語句子。
🚀 快速開始
from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("Shushant/nepaliBERT")
model = AutoModelForMaskedLM.from_pretrained("Shushant/nepaliBERT")
from transformers import pipeline
fill_mask = pipeline( "fill-mask", model=model, tokenizer=tokenizer, )
from pprint import pprint
pprint(fill_mask(f"तिमीलाई कस्तो {tokenizer.mask_token}."))
✨ 主要特性
- 該模型是 Bert Base Uncased 在由尼泊爾新聞門戶抓取的不同新聞組成的數據集上的微調版本,數據集包含4.6GB的文本數據。
- 在評估集上取得了以下結果:
- 此Transformer模型可用於任何與天城文語言相關的NLP任務。在訓練時,它是為天城文數據集開發的最先進模型。通過困惑度為8.56的內在評估達到了這一先進水平,而在尼泊爾語推文情感分析上的外在評估也優於其他現有的尼泊爾語數據集掩碼語言模型。
📦 安裝指南
本項目依賴transformers
庫,可使用以下命令進行安裝:
pip install transformers
💻 使用示例
基礎用法
from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("Shushant/nepaliBERT")
model = AutoModelForMaskedLM.from_pretrained("Shushant/nepaliBERT")
from transformers import pipeline
fill_mask = pipeline( "fill-mask", model=model, tokenizer=tokenizer, )
from pprint import pprint
pprint(fill_mask(f"तिमीलाई कस्तो {tokenizer.mask_token}."))
📚 詳細文檔
模型描述
在BERT基礎架構上進行預訓練。
預期用途和限制
此Transformer模型可用於任何與天城文語言相關的NLP任務。在訓練時,它是為天城文數據集開發的最先進模型。通過困惑度為8.56的內在評估達到了這一先進水平,而在尼泊爾語推文情感分析上的外在評估也優於其他現有的尼泊爾語數據集掩碼語言模型。
訓練和評估數據
訓練語料庫是使用從不同新聞門戶抓取的85467條新聞開發的。這是用於實驗的初步數據集,語料庫大小約為4.3GB的文本數據。同樣,評估數據包含約12MB文本數據的少量新聞文章。
訓練過程
對於掩碼語言模型的預訓練,使用了Huggingface的Trainer API。預訓練耗時約3天8小時57分鐘,在Tesla V100 GPU上進行訓練。Tesla V100擁有640個張量核心,是世界上第一個突破深度學習性能100萬億次浮點運算(TFLOPS)障礙的GPU。此GPU由加德滿都大學(KU)超級計算機提供,感謝KU的管理團隊。
數據描述
該模型基於從各種來源收集的約4.6GB尼泊爾語文本語料庫進行訓練,這些數據來自尼泊爾新聞網站和OSCAR尼泊爾語語料庫。
論文和引用詳情
如果您有興趣閱讀此語言模型的實現細節,可以在此處閱讀完整論文:
https://www.researchgate.net/publication/375019515_NepaliBERT_Pre-training_of_Masked_Language_Model_in_Nepali_Corpus
純文本引用
S. Pudasaini, S. Shakya, A. Tamang, S. Adhikari, S. Thapa and S. Lamichhane, "NepaliBERT: Pre-training of Masked Language Model in Nepali Corpus," 2023 7th International Conference on I-SMAC (IoT in Social, Mobile, Analytics and Cloud) (I-SMAC), Kirtipur, Nepal, 2023, pp. 325-330, doi: 10.1109/I-SMAC58438.2023.10290690.
BibTeX引用
@INPROCEEDINGS{10290690,
author={Pudasaini, Shushanta and Shakya, Subarna and Tamang, Aakash and Adhikari, Sajjan and Thapa, Sunil and Lamichhane, Sagar},
booktitle={2023 7th International Conference on I-SMAC (IoT in Social, Mobile, Analytics and Cloud) (I-SMAC)},
title={NepaliBERT: Pre-training of Masked Language Model in Nepali Corpus},
year={2023},
volume={},
number={},
pages={325-330},
doi={10.1109/I-SMAC58438.2023.10290690}
}
📄 許可證
本項目採用MIT許可證。