NusaBERT-base開源多語言編碼器 - 支持13種印尼語言處理

首頁

Nusabert Base

由LazarusNLP開發

NusaBERT基礎版是基於BERT架構的多語言編碼器語言模型，支持13種印度尼西亞地區語言，在多個開源語料庫上進行了預訓練。

大型語言模型

Transformers

其他開源協議:Apache-2.0 #印尼群島多語言 #文化敏感BERT #低資源語言優化

下載量 68

發布時間 : 2/21/2024

模型概述

NusaBERT是基於BERT架構的多語言編碼器語言模型，專門針對印度尼西亞及周邊地區的13種語言進行了優化，適用於各種自然語言處理任務。

模型特點

多語言支持

支持13種印度尼西亞及周邊地區的語言，包括主流語言和方言

大規模預訓練

在約160億詞元的多樣化語料庫上進行預訓練

優化性能

在保留測試集上取得0.6866的準確率和4.4266的困惑度

模型能力

文本理解

語言建模

多語言處理

使用案例

自然語言處理

文本分類

對印度尼西亞地區多種語言的文本進行分類

命名實體識別

識別印度尼西亞地區文本中的實體

🚀 NusaBERT Base

NusaBERT Base是一個基於BERT架構的多語言編碼器語言模型。它在開源語料庫上進行了持續預訓練，解決了多語言處理的難題，為印尼語及相關語言的自然語言處理任務提供了強大的支持。

🚀 快速開始

在🤗Transformers中使用

from transformers import AutoTokenizer, AutoModelForMaskedLM

model_checkpoint = "LazarusNLP/NusaBERT-base"

tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)
model = AutoModelForMaskedLM.from_pretrained(model_checkpoint)

✨ 主要特性

基於BERT架構的多語言編碼器語言模型，支持印尼語、亞齊語、巴釐語等多種語言。
在多個開源語料庫上進行持續預訓練，在驗證集上取得了較好的評估指標，如eval_accuracy達到0.6866。

📦 安裝指南

文檔未提及安裝步驟，如需使用，可參考🤗Transformers庫的安裝方法。

📚 詳細文檔

模型詳情

屬性	詳情
開發者	LazarusNLP
微調基礎模型	IndoBERT base p1
模型類型	基於編碼器的BERT語言模型
支持語言	印尼語、亞齊語、巴釐語、班賈爾語、布吉斯語、戈龍塔洛語、爪哇語、萬隆語、米南加保語、馬來語、尼亞斯語、巽他語、德頓語
許可證	Apache 2.0
聯繫方式	LazarusNLP

訓練數據集

預訓練過程中使用了來自以下語料庫的約160億個標記：

訓練超參數

訓練過程中使用了以下超參數：

learning_rate：0.0003
train_batch_size：256
eval_batch_size：256
seed：42
optimizer：Adam，betas=(0.9, 0.999)，epsilon=1e - 08
lr_scheduler_type：線性
lr_scheduler_warmup_steps：24000
training_steps：500000

框架版本

Transformers 4.37.2
Pytorch 2.2.0+cu118
Datasets 2.17.1
Tokenizers 0.15.1

🔧 技術細節

該模型基於🤗Transformers PyTorch框架進行訓練，所有訓練均在NVIDIA H100 GPU上完成。通過在多個開源語料庫上進行持續預訓練，不斷調整超參數，以提高模型在多語言任務上的性能。

📄 許可證

本模型以Apache 2.0許可證發佈。

致謝

NusaBERT Base由以下人員用心開發：

引用

@misc{wongso2024nusabert,
  title={NusaBERT: Teaching IndoBERT to be Multilingual and Multicultural}, 
  author={Wilson Wongso and David Samuel Setiawan and Steven Limcorn and Ananto Joyoadikusumo},
  year={2024},
  eprint={2403.01817},
  archivePrefix={arXiv},
  primaryClass={cs.CL}
}