bert-base-indonesian-1.5Gオープンソースインドネシア語モデル

ホーム

Bert Base Indonesian 1.5G

cahyaによって開発

これはBERTに基づくインドネシア語の事前学習モデルで、ウィキペディアと新聞データを使って学習され、様々な自然言語処理タスクに適しています。

大規模言語モデルその他オープンソースライセンス:MIT #インドネシア語の事前学習 #大文字小文字の区別なし #マスク言語モデリング

ダウンロード数 40.08k

リリース時間 : 3/2/2022

モデル概要

このモデルはBERTアーキテクチャに基づくインドネシア語の事前学習モデルで、マスク言語モデリングの目標を通じて学習され、インドネシア語のテキスト処理タスクをサポートします。

モデル特徴

大文字小文字の区別なし

モデルは大文字小文字を区別せず、異なる大文字小文字形式のインドネシア語テキストの処理に適しています。

大規模な事前学習データ

522MBのインドネシア語ウィキペディアと2018年の1GBのインドネシア新聞データを使って事前学習されます。

WordPieceトークナイゼーション

32,000語彙のWordPieceトークナイザーを使ってテキストを処理します。

モデル能力

テキスト特徴抽出

マスク言語モデリング

インドネシア語のテキスト処理

使用事例

自然言語処理

テキスト埋め込み

マスク言語モデリングを使って文の中の欠落した単語を予測します。

例では、モデルが「ibu ku sedang bekerja di supermarket」の中の「di」を正確に予測できることが示されています。

テキスト特徴抽出

インドネシア語テキストのベクトル表現を取得し、下流タスクに使用します。

🚀 インドネシア語BERTベースモデル (uncased)

このモデルは、マスク言語モデリング（MLM）の目的でインドネシア語のウィキペディアとインドネシア語の新聞記事を使って事前学習されたBERTベースモデルです。このモデルは大文字小文字を区別しません。

これは、インドネシア語のデータセットで事前学習されたいくつかの言語モデルの1つです。下流タスク（テキスト分類、テキスト生成など）での使用方法の詳細は、Transformer based Indonesian Language Modelsで確認できます。

🚀 クイックスタート

想定される用途と制限

使い方

このモデルは、マスク言語モデリングのパイプラインで直接使用できます。

>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='cahya/bert-base-indonesian-1.5G')
>>> unmasker("Ibu ku sedang bekerja [MASK] supermarket")

[{'sequence': '[CLS] ibu ku sedang bekerja di supermarket [SEP]',
  'score': 0.7983310222625732,
  'token': 1495},
 {'sequence': '[CLS] ibu ku sedang bekerja. supermarket [SEP]',
  'score': 0.090003103017807,
  'token': 17},
 {'sequence': '[CLS] ibu ku sedang bekerja sebagai supermarket [SEP]',
  'score': 0.025469014421105385,
  'token': 1600},
 {'sequence': '[CLS] ibu ku sedang bekerja dengan supermarket [SEP]',
  'score': 0.017966199666261673,
  'token': 1555},
 {'sequence': '[CLS] ibu ku sedang bekerja untuk supermarket [SEP]',
  'score': 0.016971781849861145,
  'token': 1572}]

以下は、このモデルを使ってPyTorchで与えられたテキストの特徴量を取得する方法です。

from transformers import BertTokenizer, BertModel

model_name='cahya/bert-base-indonesian-1.5G'
tokenizer = BertTokenizer.from_pretrained(model_name)
model = BertModel.from_pretrained(model_name)
text = "Silakan diganti dengan text apa saja."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)

Tensorflowでの使用方法は以下の通りです。

from transformers import BertTokenizer, TFBertModel

model_name='cahya/bert-base-indonesian-1.5G'
tokenizer = BertTokenizer.from_pretrained(model_name)
model = TFBertModel.from_pretrained(model_name)
text = "Silakan diganti dengan text apa saja."
encoded_input = tokenizer(text, return_tensors='tf')
output = model(encoded_input)

📦 インストール

このセクションではインストール手順に関する具体的な内容がありませんので、スキップします。

💻 使用例

基本的な使用法

>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='cahya/bert-base-indonesian-1.5G')
>>> unmasker("Ibu ku sedang bekerja [MASK] supermarket")

[{'sequence': '[CLS] ibu ku sedang bekerja di supermarket [SEP]',
  'score': 0.7983310222625732,
  'token': 1495},
 {'sequence': '[CLS] ibu ku sedang bekerja. supermarket [SEP]',
  'score': 0.090003103017807,
  'token': 17},
 {'sequence': '[CLS] ibu ku sedang bekerja sebagai supermarket [SEP]',
  'score': 0.025469014421105385,
  'token': 1600},
 {'sequence': '[CLS] ibu ku sedang bekerja dengan supermarket [SEP]',
  'score': 0.017966199666261673,
  'token': 1555},
 {'sequence': '[CLS] ibu ku sedang bekerja untuk supermarket [SEP]',
  'score': 0.016971781849861145,
  'token': 1572}]

高度な使用法

from transformers import BertTokenizer, BertModel

model_name='cahya/bert-base-indonesian-1.5G'
tokenizer = BertTokenizer.from_pretrained(model_name)
model = BertModel.from_pretrained(model_name)
text = "Silakan diganti dengan text apa saja."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)

from transformers import BertTokenizer, TFBertModel

model_name='cahya/bert-base-indonesian-1.5G'
tokenizer = BertTokenizer.from_pretrained(model_name)
model = TFBertModel.from_pretrained(model_name)
text = "Silakan diganti dengan text apa saja."
encoded_input = tokenizer(text, return_tensors='tf')
output = model(encoded_input)

🔧 技術詳細

このセクションでは技術的な詳細に関する具体的な内容がありませんので、スキップします。

📄 ライセンス

このモデルはMITライセンスの下で提供されています。

📚 ドキュメント

学習データ

このモデルは、522MBのインドネシア語ウィキペディアと1GBのインドネシア語新聞を使って事前学習されています。テキストは小文字に変換され、WordPieceを使ってトークン化され、語彙サイズは32,000です。モデルの入力は次の形式になります。

[CLS] Sentence A [SEP] Sentence B [SEP]

属性	详情
モデルタイプ	BERTベースモデル（大文字小文字を区別しない）
学習データ	インドネシア語のウィキペディアとインドネシア語の新聞記事