bangla-bert開源孟加拉語語言模型 - 免費支持掩碼語言建模任務

首頁

Bangla Bert

由Kowsher開發

基於BERT架構預訓練的孟加拉語語言模型，支持掩碼語言建模任務

大型語言模型

Transformers

其他#孟加拉語掩碼預測 #低資源語言模型 #文化語境理解

下載量 17

發布時間 : 3/2/2022

模型概述

這是一個專門針對孟加拉語優化的BERT模型，可用於各種自然語言處理任務，如文本分類、命名實體識別和掩碼語言預測。

模型特點

孟加拉語優化

專門針對孟加拉語進行預訓練和優化

掩碼語言預測

支持高質量的掩碼詞語預測任務

大規模語料訓練

使用約40GB的BanglaLM數據集進行訓練

模型能力

文本標記化

掩碼語言預測

文本理解

語言建模

使用案例

自然語言處理

文本補全

預測句子中被掩碼的詞語

示例顯示能準確預測常見短語如'বাংলা আমার অহংকার'(孟加拉是我的驕傲)

重複檢測

識別文本中的重複模式

能準確識別重複詞語如'রাজাকার'(叛徒)

🚀 孟加拉語BERT基礎模型

我們發佈了一個預訓練的孟加拉語BERT語言模型，名為 bangla - bert，該模型現已在Hugging Face模型中心上線。它是基於掩碼語言建模的預訓練孟加拉語模型，為孟加拉語的自然語言處理任務提供了強大支持。

🚀 快速開始

我們在此介紹的 bangla - bert 是一個預訓練的孟加拉語語言模型，它基於 BERT 中描述的掩碼語言建模方法，相關GitHub 倉庫可供參考。

✨ 主要特性

標籤相關：該模型與“Bert base Bangla”“Bengali Bert”“Bengali lm”“Bangla Base Bert”“Bangla Bert language model”“Bangla Bert”等標籤相關，表明其在孟加拉語BERT模型領域的專業性。
數據集支持：使用來自Kaggle的 BanglaLM 數據集進行訓練，該數據集有3個版本，總量約40GB。

📦 安裝指南

文檔未提及具體安裝步驟，暫不提供。

💻 使用示例

基礎用法

bangla - bert分詞器

from transformers import AutoTokenizer, AutoModel
bnbert_tokenizer = AutoTokenizer.from_pretrained("Kowsher/bangla-bert")
text = "খাঁটি সোনার চাইতে খাঁটি আমার দেশের মাটি"
bnbert_tokenizer.tokenize(text)
# output: ['খাটি', 'সে', '##ানার', 'চাইতে', 'খাটি', 'আমার', 'দেশের', 'মাটি']

高級用法

掩碼生成 在這裡，我們可以使用孟加拉語BERT基礎模型進行掩碼語言建模：

from transformers import BertForMaskedLM, BertTokenizer, pipeline
model = BertForMaskedLM.from_pretrained("Kowsher/bangla-bert")
tokenizer = BertTokenizer.from_pretrained("Kowsher/bangla-bert")

nlp = pipeline('fill-mask', model=model, tokenizer=tokenizer)
for pred in nlp(f"আমি বাংলার গান {nlp.tokenizer.mask_token}"):
  print(pred)
# {'sequence': 'আমি বাংলার গান লিখি', 'score': 0.17955434322357178, 'token': 24749, 'token_str': 'লিখি'}


nlp = pipeline('fill-mask', model=model, tokenizer=tokenizer)
for pred in nlp(f"তুই রাজাকার তুই {nlp.tokenizer.mask_token}"):
  print(pred)
# {'sequence': 'তুই রাজাকার তুই রাজাকার', 'score': 0.9975168704986572, 'token': 13401, 'token_str': 'রাজাকার'}


nlp = pipeline('fill-mask', model=model, tokenizer=tokenizer)
for pred in nlp(f"বাংলা আমার {nlp.tokenizer.mask_token}"):
  print(pred)
# {'sequence': 'বাংলা আমার অহংকার', 'score': 0.5679506063461304, 'token': 19009, 'token_str': 'অহংকার'}

📚 詳細文檔

語料庫詳情

我們使用來自Kaggle的 BanglaLM 數據集對孟加拉語BERT語言模型進行訓練。該數據集有3個版本，總量約40GB。下載數據集後，我們開始進行掩碼語言建模的工作。

引用此工作

M. Kowsher, A. A. Sami, N. J. Prottasha, M. S. Arefin, P. K. Dhar and T. Koshiba, "Bangla - BERT: Transformer - based Efficient Model for Transfer Learning and Language Understanding," in IEEE Access, 2022, doi: 10.1109/ACCESS.2022.3197662.