🚀 ネパール語BERT
ネパール語のニュースサイトから収集したデータで学習された、ネパール語用のマスク言語モデルです。このモデルは、約1000万文のネパール語の文章を含むデータセットで訓練されています。
🚀 クイックスタート
このモデルは、Bert Base Uncased をベースに、ネパール語のニュースポータルから収集した4.6GBのテキストデータでファインチューニングされたバージョンです。評価セットでは以下の結果を達成しています。
from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("Shushant/nepaliBERT")
model = AutoModelForMaskedLM.from_pretrained("Shushant/nepaliBERT")
from transformers import pipeline
fill_mask = pipeline( "fill-mask", model=model, tokenizer=tokenizer, )
from pprint import pprint
pprint(fill_mask(f"तिमीलाई कस्तो {tokenizer.mask_token}."))
✨ 主な機能
このトランスフォーマーモデルは、デーヴァナーガリー文字を使用する言語に関連するあらゆる自然言語処理タスクに使用できます。学習時点では、これはデーヴァナーガリー語のデータセットに対して開発された最先端のモデルです。パープレキシティが8.56の内部評価でこの最先端の成果を達成し、ネパール語のツイートの感情分析での外部評価では、ネパール語のデータセットに対する他の既存のマスク言語モデルを上回っています。
📦 インストール
このモデルを使用するには、transformers
ライブラリが必要です。以下のコマンドでインストールできます。
pip install transformers
📚 ドキュメント
モデルの説明
BERTの基本アーキテクチャで事前学習が行われています。
学習と評価データ
学習コーパスは、さまざまな求人情報ポータルから収集した85467件のニュース記事を使用して作成されました。これは実験用の予備的なデータセットです。コーパスのサイズは約4.3GBのテキストデータです。同様に、評価データには、約12MBのテキストデータを含むいくつかのニュース記事が含まれています。
学習手順
マスク言語モデルの事前学習には、HuggingfaceのTrainer APIが使用されました。事前学習には約3日8時間57分かかりました。学習はTesla V100 GPUで行われました。640個のTensor Coreを備えたTesla V100は、深層学習性能の100テラFLOPS(TFLOPS)の壁を突破した世界初のGPUです。このGPUはカトマンズ大学(KU)のスーパーコンピュータによって提供されました。KUの管理部門に感謝します。
データの説明
このモデルは、さまざまなソースから収集した約4.6GBのネパール語のテキストコーパスで学習されています。これらのデータは、ネパール語のニュースサイトやOSCARネパール語コーパスから収集されました。
論文と引用情報
この言語モデルの実装詳細に興味がある場合は、以下のリンクから全文を読むことができます。
https://www.researchgate.net/publication/375019515_NepaliBERT_Pre-training_of_Masked_Language_Model_in_Nepali_Corpus
引用のテキスト形式
S. Pudasaini, S. Shakya, A. Tamang, S. Adhikari, S. Thapa and S. Lamichhane, "NepaliBERT: Pre-training of Masked Language Model in Nepali Corpus," 2023 7th International Conference on I-SMAC (IoT in Social, Mobile, Analytics and Cloud) (I-SMAC), Kirtipur, Nepal, 2023, pp. 325-330, doi: 10.1109/I-SMAC58438.2023.10290690.
BibTeX形式の引用
@INPROCEEDINGS{10290690,
author={Pudasaini, Shushanta and Shakya, Subarna and Tamang, Aakash and Adhikari, Sajjan and Thapa, Sunil and Lamichhane, Sagar},
booktitle={2023 7th International Conference on I-SMAC (IoT in Social, Mobile, Analytics and Cloud) (I-SMAC)},
title={NepaliBERT: Pre-training of Masked Language Model in Nepali Corpus},
year={2023},
volume={},
number={},
pages={325-330},
doi={10.1109/I-SMAC58438.2023.10290690}
}
📄 ライセンス
このモデルはMITライセンスの下で公開されています。