kinyaRoberta-smallオープンソース言語モデル - キニャルワンダ語データセットに基づく実用的な言語処理

ホーム

Kinyaroberta Small

jean-paulによって開発

これはキニャルワンダ語のデータセットに基づき、マスク言語モデリング（MLM）の目標で事前学習されたRoBERTaモデルで、大文字小文字の区別のないトークンを使用して事前学習されています。

大規模言語モデル

Transformers

#キニャルワンダ語MLM #小規模事前学習 #ニュース・ウィキブックスコーパス

ダウンロード数 38

リリース時間 : 3/2/2022

モデル概要

このモデルはキニャルワンダ語に特化して最適化されており、テキスト埋め込みと言語理解タスクに適しています。

モデル特徴

キニャルワンダ語専用

キニャルワンダ語に特化して学習されており、この言語のテキストをより良く理解し生成することができます。

大文字小文字の区別なし

モデルは事前学習時に大文字小文字を区別せず、テキストの変形の処理能力を向上させています。

軽量アーキテクチャ

6層のTransformer構造を採用しており、計算リソースが限られた環境に適しています。

モデル能力

テキスト埋め込み

言語理解

キニャルワンダ語テキスト処理

使用事例

テキスト補完

文章の自動補完

文章の欠落部分を自動的に埋めます

例では、モデルが欠落した単語を合理的に予測できることが示されています

言語学習

キニャルワンダ語学習支援

学習者がキニャルワンダ語を理解し使用するのを支援します

🚀 キニヤルワンダ語用の事前学習モデル

このモデルは、マスク言語モデリング（MLM）を目的として、キニヤルワンダ語のデータセットで事前学習されたものです。RoBertaモデルは、この論文で初めて紹介されました。このKinyaRoBERTaモデルは、大文字と小文字を区別しないトークンで事前学習されており、例えば「ikinyarwanda」と「Ikinyarwanda」のような違いは考慮されません。

✨ 主な機能

キニヤルワンダ語のマスク言語モデリングに適用可能です。
事前学習済みのモデルを利用して、キニヤルワンダ語の自然言語処理タスクを行えます。

📦 インストール

このモデルを使用するには、transformersライブラリが必要です。以下のコマンドでインストールできます。

pip install transformers

💻 使用例

基本的な使用法

モデルは、マスク言語モデリングのパイプラインで直接使用できます。

from transformers import pipeline
the_mask_pipe = pipeline(
    "fill-mask",
    model='jean-paul/kinyaRoberta-small',
    tokenizer='jean-paul/kinyaRoberta-small',
)

the_mask_pipe("Ejo ndikwiga nagize <mask> baje kunsura.")

[{'sequence': 'Ejo ndikwiga nagize amahirwe baje kunsura.', 'score': 0.3530674874782562, 'token': 1711, 'token_str': ' amahirwe'}, 
{'sequence': 'Ejo ndikwiga nagize ubwoba baje kunsura.', 'score': 0.2858319878578186, 'token': 2594, 'token_str': ' ubwoba'}, 
{'sequence': 'Ejo ndikwiga nagize ngo baje kunsura.', 'score': 0.032475441694259644, 'token': 396, 'token_str': ' ngo'}, 
{'sequence': 'Ejo ndikwiga nagize abana baje kunsura.', 'score': 0.029481062665581703, 'token': 739, 'token_str': ' abana'}, 
{'sequence': 'Ejo ndikwiga nagize abantu baje kunsura.', 'score': 0.016263306140899658, 'token': 500, 'token_str': ' abantu'}]

高度な使用法

transformersライブラリから直接AutoModelを使用して特徴量を取得することもできます。

from transformers import AutoTokenizer, AutoModelForMaskedLM
  
tokenizer = AutoTokenizer.from_pretrained("jean-paul/kinyaRoberta-small")

model = AutoModelForMaskedLM.from_pretrained("jean-paul/kinyaRoberta-small")

input_text = "Ejo ndikwiga nagize abashyitsi baje kunsura."
encoded_input = tokenizer(input_text, return_tensors='pt')
output = model(**encoded_input)

📚 ドキュメント

学習パラメータ

データセット

使用されたデータセットは、異なるニュースウェブページから抽出されたルワンダの新しい記事、ダンプされたウィキペディアファイル、およびキニヤルワンダ語の本の両方のソースを持っています。データのソースのサイズは、72,000の新しい記事、3,000のダンプされたウィキペディア記事、および1,000ページ以上の6冊の本です。