🚀 ジャワネーズDistilBERT Small
ジャワネーズDistilBERT Smallは、DistilBERTモデルに基づくマスク言語モデルです。最新(2020年12月下旬)のジャワ語ウィキペディア記事を使用して学習されました。
このモデルは、もともとHuggingFaceの事前学習済みの英語DistilBERTモデルであり、その後ジャワ語データセットでファインチューニングされました。検証データセット(記事の20%)で23.54のパープレキシティを達成しました。使用されている多くの技術は、Sylvain GuggerによるHugging Faceのチュートリアルノートブックと、Pierre Guillouによるファインチューニングチュートリアルノートブックに基づいています。
モデルの学習にはHugging FaceのTransformersライブラリが使用され、DistilBERTベースモデルとTrainer
クラスが利用されました。学習時にはPyTorchがバックエンドフレームワークとして使用されましたが、モデルはTensorFlowとも互換性があります。
🚀 クイックスタート
このセクションでは、ジャワネーズDistilBERT Smallモデルの概要と、その使い方について説明します。
✨ 主な機能
- ジャワ語のマスク言語モデルとして機能します。
- 事前学習済みの英語DistilBERTモデルをジャワ語データセットでファインチューニングしています。
- 学習にはHugging FaceのTransformersライブラリを使用しています。
📦 インストール
このモデルを使用するには、transformers
ライブラリをインストールする必要があります。以下のコマンドでインストールできます。
pip install transformers
💻 使用例
基本的な使用法
マスク言語モデルとしての使用
from transformers import pipeline
pretrained_name = "w11wo/javanese-distilbert-small"
fill_mask = pipeline(
"fill-mask",
model=pretrained_name,
tokenizer=pretrained_name
)
fill_mask("Aku mangan sate ing [MASK] bareng konco-konco")
PyTorchでの特徴抽出
from transformers import DistilBertModel, DistilBertTokenizerFast
pretrained_name = "w11wo/javanese-distilbert-small"
model = DistilBertModel.from_pretrained(pretrained_name)
tokenizer = DistilBertTokenizerFast.from_pretrained(pretrained_name)
prompt = "Indonesia minangka negara gedhe."
encoded_input = tokenizer(prompt, return_tensors='pt')
output = model(**encoded_input)
📚 ドキュメント
モデル
プロパティ |
詳細 |
モデル名 |
javanese-distilbert-small |
パラメータ数 |
66M |
アーキテクチャ |
DistilBERT Small |
学習/検証データ (テキスト) |
ジャワ語ウィキペディア (319 MBのテキスト) |
評価結果
モデルは5エポックで学習され、学習終了時の最終結果は以下の通りです。
学習損失 |
検証損失 |
パープレキシティ |
総時間 |
3.088 |
3.153 |
23.54 |
1:46:37 |
🔧 技術詳細
- モデルの学習にはHugging FaceのTransformersライブラリを使用し、DistilBERTベースモデルと
Trainer
クラスを利用しました。
- 学習時のバックエンドフレームワークにはPyTorchを使用しましたが、モデルはTensorFlowとも互換性があります。
- 多くの技術は、Sylvain GuggerとPierre Guillouによるチュートリアルノートブックに基づいています。
📄 ライセンス
このモデルはMITライセンスの下で提供されています。
免責事項
データセットはウィキペディアに由来していますが、モデルが生成するテキストが常に事実に基づいているとは限らないことに注意してください。また、ウィキペディア記事に含まれるバイアスがモデルの結果に反映される可能性があります。
作成者
ジャワネーズDistilBERT Smallは、Wilson Wongsoによって学習および評価されました。すべての計算と開発は、Google Colaboratoryの無料GPUアクセスを使用して行われました。
引用
あなたの研究でこのモデルを使用する場合は、以下を引用してください。
@inproceedings{wongso2021causal,
title={Causal and Masked Language Modeling of Javanese Language using Transformer-based Architectures},
author={Wongso, Wilson and Setiawan, David Samuel and Suhartono, Derwin},
booktitle={2021 International Conference on Advanced Computer Science and Information Systems (ICACSIS)},
pages={1--7},
year={2021},
organization={IEEE}
}