🚀 IndoBERT Base Model (phase2 - uncased)
IndoBERT は、BERTモデルに基づく、インドネシア語向けの最先端の言語モデルです。事前学習モデルは、マスク言語モデリング(MLM)の目的と次文予測(NSP)の目的を使用して学習されています。
🚀 クイックスタート
このセクションでは、IndoBERT Base Modelの概要と使い方を紹介します。
✨ 主な機能
- IndoBERTは、インドネシア語向けの最先端の言語モデルです。
- 事前学習モデルは、マスク言語モデリング(MLM)の目的と次文予測(NSP)の目的を使用して学習されています。
📦 インストール
このドキュメントには具体的なインストール手順が記載されていないため、このセクションをスキップします。
💻 使用例
基本的な使用法
モデルとトークナイザーの読み込み
from transformers import BertTokenizer, AutoModel
tokenizer = BertTokenizer.from_pretrained("indobenchmark/indobert-base-p2")
model = AutoModel.from_pretrained("indobenchmark/indobert-base-p2")
文脈表現の抽出
x = torch.LongTensor(tokenizer.encode('aku adalah anak [MASK]')).view(1,-1)
print(x, model(x)[0].sum())
📚 ドキュメント
すべての事前学習モデル
プロパティ |
詳細 |
モデルタイプ |
indobenchmark/indobert-base-p1 、indobenchmark/indobert-base-p2 、indobenchmark/indobert-large-p1 、indobenchmark/indobert-large-p2 、indobenchmark/indobert-lite-base-p1 、indobenchmark/indobert-lite-base-p2 、indobenchmark/indobert-lite-large-p1 、indobenchmark/indobert-lite-large-p2 |
パラメータ数 |
それぞれ124.5M、124.5M、335.2M、335.2M、11.7M、11.7M、17.7M、17.7M |
アーキテクチャ |
Base、Base、Large、Large、Base、Base、Large、Large |
学習データ |
Indo4B (23.43 GBのテキスト) |
🔧 技術詳細
このドキュメントには具体的な技術詳細が記載されていないため、このセクションをスキップします。
📄 ライセンス
このプロジェクトはMITライセンスの下で公開されています。
👥 作成者
IndoBERT は、Bryan Wilie*、Karissa Vincentio*、Genta Indra Winata*、Samuel Cahyawijaya*、Xiaohong Li、Zhi Yuan Lim、Sidik Soleman、Rahmad Mahendra、Pascale Fung、Syafri Bahar、Ayu Purwariantiによって学習および評価されました。
📖 引用
もしこの研究を利用する場合は、以下のように引用してください。
@inproceedings{wilie2020indonlu,
title={IndoNLU: Benchmark and Resources for Evaluating Indonesian Natural Language Understanding},
author={Bryan Wilie and Karissa Vincentio and Genta Indra Winata and Samuel Cahyawijaya and X. Li and Zhi Yuan Lim and S. Soleman and R. Mahendra and Pascale Fung and Syafri Bahar and A. Purwarianti},
booktitle={Proceedings of the 1st Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics and the 10th International Joint Conference on Natural Language Processing},
year={2020}
}