MelayuBERT開源馬來語語言模型 - 免費使用支持多框架處理文本

首頁

Melayubert

由StevenLimcorn開發

基於BERT架構的馬來語掩碼語言模型，使用OSCAR數據集的馬來語子集訓練，支持PyTorch和TensorFlow框架。

大型語言模型

Transformers

其他開源協議:MIT #馬來語掩碼預測 #多框架支持 #低困惑度

下載量 15

發布時間 : 3/2/2022

模型概述

該模型是一個專門針對馬來語的掩碼語言模型，基於BERT架構開發，主要用於處理馬來語文本的掩碼預測任務。

模型特點

基於BERT架構

採用經典的BERT架構，確保模型在處理馬來語文本時具有強大的性能。

使用OSCAR數據集訓練

模型使用OSCAR數據集的馬來語子集進行訓練，確保了數據的多樣性和廣泛性。

支持PyTorch和TensorFlow

模型兼容兩大主流深度學習框架，方便用戶在不同環境中使用。

模型能力

掩碼語言預測

馬來語文本處理

使用案例

自然語言處理

馬來語文本補全

用於預測和補全馬來語文本中的掩碼部分。

在驗證集上達到9.46的困惑度指標。

🚀 馬來語BERT

馬來語BERT是一個基於BERT的掩碼語言模型。它在OSCAR數據集上進行訓練，具體使用的是unshuffled_original_ms子集。該模型以英文BERT模型為基礎，在馬來西亞語數據集上進行了微調。在20%的驗證數據集上，該模型的困惑度達到了9.46。許多使用的技術基於由Sylvain Gugger編寫的Hugging Face教程筆記本，以及由Pierre Guillou編寫的微調教程筆記本。該模型同時支持PyTorch和TensorFlow使用。

✨ 主要特性

基於BERT架構，適用於馬來語的掩碼語言模型。
在OSCAR數據集的特定子集上訓練，針對馬來西亞語進行微調。
支持PyTorch和TensorFlow兩種深度學習框架。

📦 安裝指南

文檔未提及安裝步驟，此部分跳過。

💻 使用示例

基礎用法

作為掩碼語言模型使用：

from transformers import pipeline
pretrained_name = "StevenLimcorn/MelayuBERT"
fill_mask = pipeline(
    "fill-mask",
    model=pretrained_name,
    tokenizer=pretrained_name
)
fill_mask("Saya [MASK] makan nasi hari ini.")

高級用法

導入分詞器和模型：

from transformers import AutoTokenizer, AutoModelForMaskedLM
  
tokenizer = AutoTokenizer.from_pretrained("StevenLimcorn/MelayuBERT")

model = AutoModelForMaskedLM.from_pretrained("StevenLimcorn/MelayuBERT")