indobert-base-p2オープンソースインドネシア語言モデル - インドネシア語関連の情報処理とアプリケーションを支援

ホーム

Indobert Base P2

indobenchmarkによって開発

IndoBERTはBERTモデルに基づくインドネシア語の最先端言語モデルで、マスク言語モデリングと次文予測目標を用いて訓練されています。

大規模言語モデルその他オープンソースライセンス:MIT #インドネシア語事前学習 #大文字小文字を区別しない #大規模コーパス

ダウンロード数 25.89k

リリース時間 : 3/2/2022

モデル概要

IndoBERTはインドネシア語に最適化された事前学習言語モデルで、様々な自然言語理解タスクに適しています。

モデル特徴

インドネシア語最適化

インドネシア語専用に事前学習と最適化が行われています

大規模訓練データ

23.43GBのインドネシア語テキスト(Indo4B)を使用して訓練

大文字小文字を区別しない

第2段階モデルは大文字小文字を区別せず、テキスト処理の柔軟性を向上

モデル能力

テキスト表現学習

文脈理解

言語モデリング

文関係予測

使用事例

自然言語処理

テキスト分類

インドネシア語テキスト分類タスクに使用可能

固有表現認識

インドネシア語テキスト中の固有表現を識別

🚀 IndoBERT Base Model (phase2 - uncased)

IndoBERT は、BERTモデルに基づく、インドネシア語向けの最先端の言語モデルです。事前学習モデルは、マスク言語モデリング（MLM）の目的と次文予測（NSP）の目的を使用して学習されています。

🚀 クイックスタート

このセクションでは、IndoBERT Base Modelの概要と使い方を紹介します。

✨ 主な機能

IndoBERTは、インドネシア語向けの最先端の言語モデルです。
事前学習モデルは、マスク言語モデリング（MLM）の目的と次文予測（NSP）の目的を使用して学習されています。

📦 インストール

このドキュメントには具体的なインストール手順が記載されていないため、このセクションをスキップします。

💻 使用例

基本的な使用法

モデルとトークナイザーの読み込み

from transformers import BertTokenizer, AutoModel
tokenizer = BertTokenizer.from_pretrained("indobenchmark/indobert-base-p2")
model = AutoModel.from_pretrained("indobenchmark/indobert-base-p2")

文脈表現の抽出

x = torch.LongTensor(tokenizer.encode('aku adalah anak [MASK]')).view(1,-1)
print(x, model(x)[0].sum())

📚 ドキュメント

すべての事前学習モデル

プロパティ	詳細
モデルタイプ	`indobenchmark/indobert-base-p1`、`indobenchmark/indobert-base-p2`、`indobenchmark/indobert-large-p1`、`indobenchmark/indobert-large-p2`、`indobenchmark/indobert-lite-base-p1`、`indobenchmark/indobert-lite-base-p2`、`indobenchmark/indobert-lite-large-p1`、`indobenchmark/indobert-lite-large-p2`
パラメータ数	それぞれ124.5M、124.5M、335.2M、335.2M、11.7M、11.7M、17.7M、17.7M
アーキテクチャ	Base、Base、Large、Large、Base、Base、Large、Large
学習データ	Indo4B (23.43 GBのテキスト)

🔧 技術詳細

このドキュメントには具体的な技術詳細が記載されていないため、このセクションをスキップします。

📄 ライセンス

このプロジェクトはMITライセンスの下で公開されています。

👥 作成者

IndoBERT は、Bryan Wilie*、Karissa Vincentio*、Genta Indra Winata*、Samuel Cahyawijaya*、Xiaohong Li、Zhi Yuan Lim、Sidik Soleman、Rahmad Mahendra、Pascale Fung、Syafri Bahar、Ayu Purwariantiによって学習および評価されました。

📖 引用

もしこの研究を利用する場合は、以下のように引用してください。

@inproceedings{wilie2020indonlu,
  title={IndoNLU: Benchmark and Resources for Evaluating Indonesian Natural Language Understanding},
  author={Bryan Wilie and Karissa Vincentio and Genta Indra Winata and Samuel Cahyawijaya and X. Li and Zhi Yuan Lim and S. Soleman and R. Mahendra and Pascale Fung and Syafri Bahar and A. Purwarianti},
  booktitle={Proceedings of the 1st Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics and the 10th International Joint Conference on Natural Language Processing},
  year={2020}
}