bangla-bert开源孟加拉语语言模型 - 免费支持掩码语言建模任务

首页

Bangla Bert

由 Kowsher 开发

基于BERT架构预训练的孟加拉语语言模型，支持掩码语言建模任务

大型语言模型

Transformers

其他#孟加拉语掩码预测 #低资源语言模型 #文化语境理解

下载量 17

发布时间 : 3/2/2022

模型简介

这是一个专门针对孟加拉语优化的BERT模型，可用于各种自然语言处理任务，如文本分类、命名实体识别和掩码语言预测。

模型特点

孟加拉语优化

专门针对孟加拉语进行预训练和优化

掩码语言预测

支持高质量的掩码词语预测任务

大规模语料训练

使用约40GB的BanglaLM数据集进行训练

模型能力

文本标记化

掩码语言预测

文本理解

语言建模

使用案例

自然语言处理

文本补全

预测句子中被掩码的词语

示例显示能准确预测常见短语如'বাংলা আমার অহংকার'(孟加拉是我的骄傲)

重复检测

识别文本中的重复模式

能准确识别重复词语如'রাজাকার'(叛徒)

🚀 孟加拉语BERT基础模型

我们发布了一个预训练的孟加拉语BERT语言模型，名为 bangla - bert，该模型现已在Hugging Face模型中心上线。它是基于掩码语言建模的预训练孟加拉语模型，为孟加拉语的自然语言处理任务提供了强大支持。

🚀 快速开始

我们在此介绍的 bangla - bert 是一个预训练的孟加拉语语言模型，它基于 BERT 中描述的掩码语言建模方法，相关GitHub 仓库可供参考。

✨ 主要特性

标签相关：该模型与“Bert base Bangla”“Bengali Bert”“Bengali lm”“Bangla Base Bert”“Bangla Bert language model”“Bangla Bert”等标签相关，表明其在孟加拉语BERT模型领域的专业性。
数据集支持：使用来自Kaggle的 BanglaLM 数据集进行训练，该数据集有3个版本，总量约40GB。

📦 安装指南

文档未提及具体安装步骤，暂不提供。

💻 使用示例

基础用法

bangla - bert分词器

from transformers import AutoTokenizer, AutoModel
bnbert_tokenizer = AutoTokenizer.from_pretrained("Kowsher/bangla-bert")
text = "খাঁটি সোনার চাইতে খাঁটি আমার দেশের মাটি"
bnbert_tokenizer.tokenize(text)
# output: ['খাটি', 'সে', '##ানার', 'চাইতে', 'খাটি', 'আমার', 'দেশের', 'মাটি']

高级用法

掩码生成 在这里，我们可以使用孟加拉语BERT基础模型进行掩码语言建模：

from transformers import BertForMaskedLM, BertTokenizer, pipeline
model = BertForMaskedLM.from_pretrained("Kowsher/bangla-bert")
tokenizer = BertTokenizer.from_pretrained("Kowsher/bangla-bert")

nlp = pipeline('fill-mask', model=model, tokenizer=tokenizer)
for pred in nlp(f"আমি বাংলার গান {nlp.tokenizer.mask_token}"):
  print(pred)
# {'sequence': 'আমি বাংলার গান লিখি', 'score': 0.17955434322357178, 'token': 24749, 'token_str': 'লিখি'}


nlp = pipeline('fill-mask', model=model, tokenizer=tokenizer)
for pred in nlp(f"তুই রাজাকার তুই {nlp.tokenizer.mask_token}"):
  print(pred)
# {'sequence': 'তুই রাজাকার তুই রাজাকার', 'score': 0.9975168704986572, 'token': 13401, 'token_str': 'রাজাকার'}


nlp = pipeline('fill-mask', model=model, tokenizer=tokenizer)
for pred in nlp(f"বাংলা আমার {nlp.tokenizer.mask_token}"):
  print(pred)
# {'sequence': 'বাংলা আমার অহংকার', 'score': 0.5679506063461304, 'token': 19009, 'token_str': 'অহংকার'}

📚 详细文档

语料库详情

我们使用来自Kaggle的 BanglaLM 数据集对孟加拉语BERT语言模型进行训练。该数据集有3个版本，总量约40GB。下载数据集后，我们开始进行掩码语言建模的工作。

引用此工作

M. Kowsher, A. A. Sami, N. J. Prottasha, M. S. Arefin, P. K. Dhar and T. Koshiba, "Bangla - BERT: Transformer - based Efficient Model for Transfer Learning and Language Understanding," in IEEE Access, 2022, doi: 10.1109/ACCESS.2022.3197662.