🚀 IndoBERT-Lite Large Model (phase2 - uncased)
IndoBERT は、BERTモデルに基づくインドネシア語向けの最先端の言語モデルです。事前学習モデルは、マスク言語モデリング(MLM)目的と次文予測(NSP)目的を使用して学習されています。
✨ 主な機能
IndoBERTは、インドネシア語の自然言語処理タスクにおいて高い性能を発揮する言語モデルです。事前学習モデルは、大規模なインドネシア語コーパスで学習されており、様々なタスクに適用可能です。
📦 インストール
このセクションでは、IndoBERT-Lite Large Modelを使用するためのインストール手順について説明しません。必要なライブラリは、コード例に記載されている通りにインストールしてください。
💻 使用例
基本的な使用法
モデルとトークナイザーをロードする方法は以下の通りです。
from transformers import BertTokenizer, AutoModel
tokenizer = BertTokenizer.from_pretrained("indobenchmark/indobert-lite-large-p2")
model = AutoModel.from_pretrained("indobenchmark/indobert-lite-large-p2")
高度な使用法
文脈表現を抽出する方法は以下の通りです。
import torch
x = torch.LongTensor(tokenizer.encode('aku adalah anak [MASK]')).view(1,-1)
print(x, model(x)[0].sum())
📚 ドキュメント
すべての事前学習モデル
以下は、すべての事前学習モデルの一覧です。
モデル |
パラメータ数 |
アーキテクチャ |
学習データ |
indobenchmark/indobert-base-p1 |
124.5M |
Base |
Indo4B (23.43 GBのテキスト) |
indobenchmark/indobert-base-p2 |
124.5M |
Base |
Indo4B (23.43 GBのテキスト) |
indobenchmark/indobert-large-p1 |
335.2M |
Large |
Indo4B (23.43 GBのテキスト) |
indobenchmark/indobert-large-p2 |
335.2M |
Large |
Indo4B (23.43 GBのテキスト) |
indobenchmark/indobert-lite-base-p1 |
11.7M |
Base |
Indo4B (23.43 GBのテキスト) |
indobenchmark/indobert-lite-base-p2 |
11.7M |
Base |
Indo4B (23.43 GBのテキスト) |
indobenchmark/indobert-lite-large-p1 |
17.7M |
Large |
Indo4B (23.43 GBのテキスト) |
indobenchmark/indobert-lite-large-p2 |
17.7M |
Large |
Indo4B (23.43 GBのテキスト) |
🔧 技術詳細
IndoBERTは、BERTモデルに基づいて構築されています。事前学習モデルは、マスク言語モデリング(MLM)目的と次文予測(NSP)目的を使用して学習されています。
📄 ライセンス
このプロジェクトは、MITライセンスの下で公開されています。
📖 著者
IndoBERT は、Bryan Wilie*, Karissa Vincentio*, Genta Indra Winata*, Samuel Cahyawijaya*, Xiaohong Li, Zhi Yuan Lim, Sidik Soleman, Rahmad Mahendra, Pascale Fung, Syafri Bahar, Ayu Purwariantiによって学習および評価されました。
📚 引用
もしあなたがこの研究を使用する場合は、以下の文献を引用してください。
@inproceedings{wilie2020indonlu,
title={IndoNLU: Benchmark and Resources for Evaluating Indonesian Natural Language Understanding},
author={Bryan Wilie and Karissa Vincentio and Genta Indra Winata and Samuel Cahyawijaya and X. Li and Zhi Yuan Lim and S. Soleman and R. Mahendra and Pascale Fung and Syafri Bahar and A. Purwarianti},
booktitle={Proceedings of the 1st Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics and the 10th International Joint Conference on Natural Language Processing},
year={2020}
}