indobert-base-p1オープンソースインドネシア語言モデル - テキスト理解と予測タスクをサポート

ホーム

Indobert Base P1

indobenchmarkによって開発

IndoBERTはBERTモデルに基づくインドネシア語の先進的な言語モデルで、マスク言語モデリング（MLM）と次文予測（NSP）の目標で訓練されています。

大規模言語モデルその他オープンソースライセンス:MIT #インドネシア語事前学習 #多段階学習 #マスク言語モデリング

ダウンロード数 261.95k

リリース時間 : 3/2/2022

モデル概要

IndoBERTはインドネシア語に最適化された事前学習言語モデルで、BERTアーキテクチャに基づいており、さまざまな自然言語処理タスクに適しています。

モデル特徴

インドネシア語最適化

インドネシア語に特化して訓練および最適化されており、インドネシア語の自然言語処理タスクに適しています。

BERTアーキテクチャベース

BERTモデルアーキテクチャを採用しており、強力な言語理解と生成能力を備えています。

大規模訓練データ

Indo4Bデータセット（23.43 GBテキスト）を使用して訓練されており、広範なインドネシア語コンテンツをカバーしています。

モデル能力

テキスト理解

テキスト生成

言語モデル事前学習

文関係予測

使用事例

自然言語処理

テキスト分類

インドネシア語テキストの分類タスク

質問応答システム

インドネシア語の質問応答システムを構築

テキスト生成

インドネシア語テキストコンテンツを生成

🚀 IndoBERTベースモデル (フェーズ1 - 大文字小文字区別なし)

IndoBERTは、BERTモデルに基づく、インドネシア語向けの最先端の言語モデルです。事前学習モデルは、マスク言語モデリング（MLM）目的と次文予測（NSP）目的を使用して学習されています。

✨ 主な機能

IndoBERTは、インドネシア語の自然言語理解タスクにおいて高い性能を発揮します。様々なサイズのモデルが用意されており、異なる計算資源やタスクの要件に対応できます。

📦 インストール

このモデルを使用するには、transformersライブラリが必要です。以下のコマンドでインストールできます。

pip install transformers

💻 使用例

基本的な使用法

モデルとトークナイザーの読み込み

from transformers import BertTokenizer, AutoModel
tokenizer = BertTokenizer.from_pretrained("indobenchmark/indobert-base-p1")
model = AutoModel.from_pretrained("indobenchmark/indobert-base-p1")

文脈表現の抽出

import torch
x = torch.LongTensor(tokenizer.encode('aku adalah anak [MASK]')).view(1,-1)
print(x, model(x)[0].sum())

📚 ドキュメント

すべての事前学習モデル

プロパティ	詳細
モデルタイプ	`indobenchmark/indobert-base-p1`, `indobenchmark/indobert-base-p2`, `indobenchmark/indobert-large-p1`, `indobenchmark/indobert-large-p2`, `indobenchmark/indobert-lite-base-p1`, `indobenchmark/indobert-lite-base-p2`, `indobenchmark/indobert-lite-large-p1`, `indobenchmark/indobert-lite-large-p2`
パラメータ数	それぞれ124.5M, 124.5M, 335.2M, 335.2M, 11.7M, 11.7M, 17.7M, 17.7M
アーキテクチャ	Base, Base, Large, Large, Base, Base, Large, Large
学習データ	Indo4B (23.43 GBのテキスト)

📄 ライセンス

このプロジェクトはMITライセンスの下で公開されています。

👥 作成者

IndoBERTは、Bryan Wilie*, Karissa Vincentio*, Genta Indra Winata*, Samuel Cahyawijaya*, Xiaohong Li, Zhi Yuan Lim, Sidik Soleman, Rahmad Mahendra, Pascale Fung, Syafri Bahar, Ayu Purwariantiによって学習および評価されました。

📖 引用

このモデルを使用する場合は、以下の文献を引用してください。

@inproceedings{wilie2020indonlu,
  title={IndoNLU: Benchmark and Resources for Evaluating Indonesian Natural Language Understanding},
  author={Bryan Wilie and Karissa Vincentio and Genta Indra Winata and Samuel Cahyawijaya and X. Li and Zhi Yuan Lim and S. Soleman and R. Mahendra and Pascale Fung and Syafri Bahar and A. Purwarianti},
  booktitle={Proceedings of the 1st Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics and the 10th International Joint Conference on Natural Language Processing},
  year={2020}
}