🚀 インドネシア語BERTベースモデル (uncased)
このモデルは、マスク言語モデリング(MLM)の目的でインドネシア語のウィキペディアとインドネシア語の新聞記事を使って事前学習されたBERTベースモデルです。このモデルは大文字小文字を区別しません。
これは、インドネシア語のデータセットで事前学習されたいくつかの言語モデルの1つです。下流タスク(テキスト分類、テキスト生成など)での使用方法の詳細は、Transformer based Indonesian Language Modelsで確認できます。
🚀 クイックスタート
想定される用途と制限
使い方
このモデルは、マスク言語モデリングのパイプラインで直接使用できます。
>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='cahya/bert-base-indonesian-1.5G')
>>> unmasker("Ibu ku sedang bekerja [MASK] supermarket")
[{'sequence': '[CLS] ibu ku sedang bekerja di supermarket [SEP]',
'score': 0.7983310222625732,
'token': 1495},
{'sequence': '[CLS] ibu ku sedang bekerja. supermarket [SEP]',
'score': 0.090003103017807,
'token': 17},
{'sequence': '[CLS] ibu ku sedang bekerja sebagai supermarket [SEP]',
'score': 0.025469014421105385,
'token': 1600},
{'sequence': '[CLS] ibu ku sedang bekerja dengan supermarket [SEP]',
'score': 0.017966199666261673,
'token': 1555},
{'sequence': '[CLS] ibu ku sedang bekerja untuk supermarket [SEP]',
'score': 0.016971781849861145,
'token': 1572}]
以下は、このモデルを使ってPyTorchで与えられたテキストの特徴量を取得する方法です。
from transformers import BertTokenizer, BertModel
model_name='cahya/bert-base-indonesian-1.5G'
tokenizer = BertTokenizer.from_pretrained(model_name)
model = BertModel.from_pretrained(model_name)
text = "Silakan diganti dengan text apa saja."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)
Tensorflowでの使用方法は以下の通りです。
from transformers import BertTokenizer, TFBertModel
model_name='cahya/bert-base-indonesian-1.5G'
tokenizer = BertTokenizer.from_pretrained(model_name)
model = TFBertModel.from_pretrained(model_name)
text = "Silakan diganti dengan text apa saja."
encoded_input = tokenizer(text, return_tensors='tf')
output = model(encoded_input)
📦 インストール
このセクションではインストール手順に関する具体的な内容がありませんので、スキップします。
💻 使用例
基本的な使用法
>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='cahya/bert-base-indonesian-1.5G')
>>> unmasker("Ibu ku sedang bekerja [MASK] supermarket")
[{'sequence': '[CLS] ibu ku sedang bekerja di supermarket [SEP]',
'score': 0.7983310222625732,
'token': 1495},
{'sequence': '[CLS] ibu ku sedang bekerja. supermarket [SEP]',
'score': 0.090003103017807,
'token': 17},
{'sequence': '[CLS] ibu ku sedang bekerja sebagai supermarket [SEP]',
'score': 0.025469014421105385,
'token': 1600},
{'sequence': '[CLS] ibu ku sedang bekerja dengan supermarket [SEP]',
'score': 0.017966199666261673,
'token': 1555},
{'sequence': '[CLS] ibu ku sedang bekerja untuk supermarket [SEP]',
'score': 0.016971781849861145,
'token': 1572}]
高度な使用法
from transformers import BertTokenizer, BertModel
model_name='cahya/bert-base-indonesian-1.5G'
tokenizer = BertTokenizer.from_pretrained(model_name)
model = BertModel.from_pretrained(model_name)
text = "Silakan diganti dengan text apa saja."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)
from transformers import BertTokenizer, TFBertModel
model_name='cahya/bert-base-indonesian-1.5G'
tokenizer = BertTokenizer.from_pretrained(model_name)
model = TFBertModel.from_pretrained(model_name)
text = "Silakan diganti dengan text apa saja."
encoded_input = tokenizer(text, return_tensors='tf')
output = model(encoded_input)
🔧 技術詳細
このセクションでは技術的な詳細に関する具体的な内容がありませんので、スキップします。
📄 ライセンス
このモデルはMITライセンスの下で提供されています。
📚 ドキュメント
学習データ
このモデルは、522MBのインドネシア語ウィキペディアと1GBのインドネシア語新聞を使って事前学習されています。テキストは小文字に変換され、WordPieceを使ってトークン化され、語彙サイズは32,000です。モデルの入力は次の形式になります。
[CLS] Sentence A [SEP] Sentence B [SEP]
属性 |
详情 |
モデルタイプ |
BERTベースモデル(大文字小文字を区別しない) |
学習データ |
インドネシア語のウィキペディアとインドネシア語の新聞記事 |