🚀 インドネシア語RoBERTaベースモデル (大文字小文字区別なし)
このモデルは、マスク言語モデリング(MLM)の目的でインドネシア語版ウィキペディアを使用して事前学習されたRoBERTaベースモデルです。このモデルは大文字小文字を区別しません。
これは、インドネシア語のデータセットで事前学習されたいくつかの言語モデルの1つです。下流タスク(テキスト分類、テキスト生成など)での使用方法の詳細は、Transformer based Indonesian Language Modelsで確認できます。
🚀 クイックスタート
想定される用途と制限
使い方
このモデルは、マスク言語モデリングのパイプラインで直接使用できます。
>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='cahya/roberta-base-indonesian-522M')
>>> unmasker("Ibu ku sedang bekerja <mask> supermarket")
以下は、このモデルを使用して、与えられたテキストの特徴量をPyTorchで取得する方法です。
from transformers import RobertaTokenizer, RobertaModel
model_name='cahya/roberta-base-indonesian-522M'
tokenizer = RobertaTokenizer.from_pretrained(model_name)
model = RobertaModel.from_pretrained(model_name)
text = "Silakan diganti dengan text apa saja."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)
Tensorflowでの使用方法は以下の通りです。
from transformers import RobertaTokenizer, TFRobertaModel
model_name='cahya/roberta-base-indonesian-522M'
tokenizer = RobertaTokenizer.from_pretrained(model_name)
model = TFRobertaModel.from_pretrained(model_name)
text = "Silakan diganti dengan text apa saja."
encoded_input = tokenizer(text, return_tensors='tf')
output = model(encoded_input)
✨ 主な機能
このモデルは、インドネシア語版ウィキペディアを使用して事前学習されたRoBERTaベースモデルで、大文字小文字を区別せず、下流タスクでの使用が可能です。
📦 インストール
原READMEにインストール手順は記載されていないため、このセクションは省略されます。
💻 使用例
基本的な使用法
>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='cahya/roberta-base-indonesian-522M')
>>> unmasker("Ibu ku sedang bekerja <mask> supermarket")
高度な使用法
PyTorchでの使用
from transformers import RobertaTokenizer, RobertaModel
model_name='cahya/roberta-base-indonesian-522M'
tokenizer = RobertaTokenizer.from_pretrained(model_name)
model = RobertaModel.from_pretrained(model_name)
text = "Silakan diganti dengan text apa saja."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)
Tensorflowでの使用
from transformers import RobertaTokenizer, TFRobertaModel
model_name='cahya/roberta-base-indonesian-522M'
tokenizer = RobertaTokenizer.from_pretrained(model_name)
model = TFRobertaModel.from_pretrained(model_name)
text = "Silakan diganti dengan text apa saja."
encoded_input = tokenizer(text, return_tensors='tf')
output = model(encoded_input)
📚 ドキュメント
下流タスク(テキスト分類、テキスト生成など)での使用方法の詳細は、Transformer based Indonesian Language Modelsで確認できます。
🔧 技術詳細
原READMEに技術詳細は記載されていないため、このセクションは省略されます。
📄 ライセンス
このモデルはMITライセンスの下で提供されています。
属性 |
详情 |
モデルタイプ |
RoBERTaベースモデル(大文字小文字区別なし) |
学習データ |
522MBのインドネシア語版ウィキペディア |