NusaBERT-baseオープンソース多言語エンコーダ - 13種類のインドネシア語の処理をサポート

ホーム

Nusabert Base

LazarusNLPによって開発

NusaBERT基本版はBERTアーキテクチャに基づく多言語エンコーダー言語モデルで、13種類のインドネシア地域言語をサポートし、複数のオープンソースコーパスで事前学習されています。

大規模言語モデル

Transformers

その他オープンソースライセンス:Apache-2.0 #インドネシア諸島の多言語対応 #文化的に敏感なBERT #低リソース言語最適化

ダウンロード数 68

リリース時間 : 2/21/2024

モデル概要

NusaBERTはBERTアーキテクチャに基づく多言語エンコーダー言語モデルで、特にインドネシア及び周辺地域の13言語に最適化されており、様々な自然言語処理タスクに適しています。

モデル特徴

多言語サポート

インドネシア及び周辺地域の13言語をサポート、主流言語と方言を含む

大規模事前学習

約160億トークンの多様なコーパスで事前学習

最適化された性能

保持テストセットで0.6866の精度と4.4266のパープレキシティを達成

モデル能力

テキスト理解

言語モデリング

多言語処理

使用事例

自然言語処理

テキスト分類

インドネシア地域の多言語テキストを分類

固有表現認識

インドネシア地域のテキストからエンティティを識別

🚀 NusaBERT Base

NusaBERT Baseは、BERTアーキテクチャに基づくマルチリンガルなエンコーダーベースの言語モデルです。sabilmakbar/indo_wiki、acul3/KoPI-NLLB、uonlp/CulturaXのオープンソースコーパスで継続的な事前学習を行いました。コーパスのホールドアウトサブセットで、このモデルは以下の結果を達成しました。

eval_accuracy: 0.6866
eval_loss: 1.4876
perplexity: 4.4266

このモデルは、🤗TransformersのPyTorchフレームワークを使用してトレーニングされました。すべてのトレーニングはNVIDIA H100 GPUで行われました。LazarusNLP/NusaBERT-baseはApache 2.0ライセンスの下で公開されています。

🚀 クイックスタート

NusaBERT Baseを使い始めるには、以下のコードを参考にしてください。

from transformers import AutoTokenizer, AutoModelForMaskedLM

model_checkpoint = "LazarusNLP/NusaBERT-base"

tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)
model = AutoModelForMaskedLM.from_pretrained(model_checkpoint)

✨ 主な機能

このモデルは、多言語のエンコーダーベースの言語モデルで、以下の言語に対応しています。

インドネシア語、アチ語、バリ語、バンジャル語、ブギス語、ゴロンタロ語、ジャワ語、バニュマサ語、ミナンカバウ語、マレー語、ニアス語、スンダ語、テトゥム語

📦 インストール

このモデルを使用するには、🤗Transformersライブラリが必要です。以下のコマンドでインストールできます。

pip install transformers

📚 ドキュメント

モデル詳細

属性	详情
開発者	LazarusNLP
ファインチューニング元	IndoBERT base p1
モデルタイプ	エンコーダーベースのBERT言語モデル
言語	インドネシア語、アチ語、バリ語、バンジャル語、ブギス語、ゴロンタロ語、ジャワ語、バニュマサ語、ミナンカバウ語、マレー語、ニアス語、スンダ語、テトゥム語
ライセンス	Apache 2.0
連絡先	LazarusNLP

トレーニングデータセット

事前学習中には、以下のコーパスから約160億トークンが使用されました。

トレーニングハイパーパラメータ

トレーニング中に使用されたハイパーパラメータは以下の通りです。

learning_rate: 0.0003
train_batch_size: 256
eval_batch_size: 256
seed: 42
optimizer: Adam (betas=(0.9,0.999)、epsilon=1e-08)
lr_scheduler_type: linear
lr_scheduler_warmup_steps: 24000
training_steps: 500000

フレームワークバージョン

Transformers 4.37.2
Pytorch 2.2.0+cu118
Datasets 2.17.1
Tokenizers 0.15.1

🔧 技術詳細

このモデルは、🤗TransformersのPyTorchフレームワークを使用してトレーニングされました。すべてのトレーニングはNVIDIA H100 GPUで行われました。

📄 ライセンス

このモデルは、Apache 2.0ライセンスの下で公開されています。

謝辞

NusaBERT Baseは、以下の開発者によって愛情を込めて開発されました。

引用

@misc{wongso2024nusabert,
  title={NusaBERT: Teaching IndoBERT to be Multilingual and Multicultural}, 
  author={Wilson Wongso and David Samuel Setiawan and Steven Limcorn and Ananto Joyoadikusumo},
  year={2024},
  eprint={2403.01817},
  archivePrefix={arXiv},
  primaryClass={cs.CL}
}