🚀 孟加拉语BERT基础模型
我们发布了一个预训练的孟加拉语BERT语言模型,名为 bangla - bert,该模型现已在Hugging Face模型中心上线。它是基于掩码语言建模的预训练孟加拉语模型,为孟加拉语的自然语言处理任务提供了强大支持。
🚀 快速开始
我们在此介绍的 bangla - bert 是一个预训练的孟加拉语语言模型,它基于 BERT 中描述的掩码语言建模方法,相关GitHub 仓库 可供参考。
✨ 主要特性
- 标签相关:该模型与“Bert base Bangla”“Bengali Bert”“Bengali lm”“Bangla Base Bert”“Bangla Bert language model”“Bangla Bert”等标签相关,表明其在孟加拉语BERT模型领域的专业性。
- 数据集支持:使用来自Kaggle的 BanglaLM 数据集进行训练,该数据集有3个版本,总量约40GB。
📦 安装指南
文档未提及具体安装步骤,暂不提供。
💻 使用示例
基础用法
bangla - bert分词器
from transformers import AutoTokenizer, AutoModel
bnbert_tokenizer = AutoTokenizer.from_pretrained("Kowsher/bangla-bert")
text = "খাঁটি সোনার চাইতে খাঁটি আমার দেশের মাটি"
bnbert_tokenizer.tokenize(text)
高级用法
掩码生成
在这里,我们可以使用孟加拉语BERT基础模型进行掩码语言建模:
from transformers import BertForMaskedLM, BertTokenizer, pipeline
model = BertForMaskedLM.from_pretrained("Kowsher/bangla-bert")
tokenizer = BertTokenizer.from_pretrained("Kowsher/bangla-bert")
nlp = pipeline('fill-mask', model=model, tokenizer=tokenizer)
for pred in nlp(f"আমি বাংলার গান {nlp.tokenizer.mask_token}"):
print(pred)
nlp = pipeline('fill-mask', model=model, tokenizer=tokenizer)
for pred in nlp(f"তুই রাজাকার তুই {nlp.tokenizer.mask_token}"):
print(pred)
nlp = pipeline('fill-mask', model=model, tokenizer=tokenizer)
for pred in nlp(f"বাংলা আমার {nlp.tokenizer.mask_token}"):
print(pred)
📚 详细文档
语料库详情
我们使用来自Kaggle的 BanglaLM 数据集对孟加拉语BERT语言模型进行训练。该数据集有3个版本,总量约40GB。下载数据集后,我们开始进行掩码语言建模的工作。
引用此工作
M. Kowsher, A. A. Sami, N. J. Prottasha, M. S. Arefin, P. K. Dhar and T. Koshiba, "Bangla - BERT: Transformer - based Efficient Model for Transfer Learning and Language Understanding," in IEEE Access, 2022, doi: 10.1109/ACCESS.2022.3197662.
📄 许可证
文档未提及许可证信息,暂不提供。
👨💻 作者
Kowsher