🚀 キニヤルワンダ語用の事前学習モデル
このモデルは、マスク言語モデリング(MLM)を目的として、キニヤルワンダ語のデータセットで事前学習されたものです。RoBertaモデルは、この論文で初めて紹介されました。このKinyaRoBERTaモデルは、大文字と小文字を区別しないトークンで事前学習されており、例えば「ikinyarwanda」と「Ikinyarwanda」のような違いは考慮されません。
✨ 主な機能
- キニヤルワンダ語のマスク言語モデリングに適用可能です。
- 事前学習済みのモデルを利用して、キニヤルワンダ語の自然言語処理タスクを行えます。
📦 インストール
このモデルを使用するには、transformers
ライブラリが必要です。以下のコマンドでインストールできます。
pip install transformers
💻 使用例
基本的な使用法
モデルは、マスク言語モデリングのパイプラインで直接使用できます。
from transformers import pipeline
the_mask_pipe = pipeline(
"fill-mask",
model='jean-paul/kinyaRoberta-small',
tokenizer='jean-paul/kinyaRoberta-small',
)
the_mask_pipe("Ejo ndikwiga nagize <mask> baje kunsura.")
[{'sequence': 'Ejo ndikwiga nagize amahirwe baje kunsura.', 'score': 0.3530674874782562, 'token': 1711, 'token_str': ' amahirwe'},
{'sequence': 'Ejo ndikwiga nagize ubwoba baje kunsura.', 'score': 0.2858319878578186, 'token': 2594, 'token_str': ' ubwoba'},
{'sequence': 'Ejo ndikwiga nagize ngo baje kunsura.', 'score': 0.032475441694259644, 'token': 396, 'token_str': ' ngo'},
{'sequence': 'Ejo ndikwiga nagize abana baje kunsura.', 'score': 0.029481062665581703, 'token': 739, 'token_str': ' abana'},
{'sequence': 'Ejo ndikwiga nagize abantu baje kunsura.', 'score': 0.016263306140899658, 'token': 500, 'token_str': ' abantu'}]
高度な使用法
transformers
ライブラリから直接AutoModel
を使用して特徴量を取得することもできます。
from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("jean-paul/kinyaRoberta-small")
model = AutoModelForMaskedLM.from_pretrained("jean-paul/kinyaRoberta-small")
input_text = "Ejo ndikwiga nagize abashyitsi baje kunsura."
encoded_input = tokenizer(input_text, return_tensors='pt')
output = model(**encoded_input)
📚 ドキュメント
学習パラメータ
データセット
使用されたデータセットは、異なるニュースウェブページから抽出されたルワンダの新しい記事、ダンプされたウィキペディアファイル、およびキニヤルワンダ語の本の両方のソースを持っています。データのソースのサイズは、72,000の新しい記事、3,000のダンプされたウィキペディア記事、および1,000ページ以上の6冊の本です。
ハイパーパラメータ
このモデルは、HuggingfaceのRoBertaとTrainerのデフォルト設定で学習されました。ただし、一部のリソース計算上の問題のため、トランスフォーマーレイヤーの数を6に維持しました。
🔧 技術詳細
- このモデルは、RoBertaアーキテクチャをベースにしています。
- マスク言語モデリング(MLM)を目的として事前学習されています。
- 大文字と小文字を区別しないトークンで事前学習されています。
📄 ライセンス
注意: このモデルの事前学習には、HuggingfaceのRoBertaの実装とそれに必要なクラスを使用しています。具体的なライセンスについては、Huggingfaceの公式ドキュメントを参照してください。