🚀 孟加拉語BERT基礎模型
我們發佈了一個預訓練的孟加拉語BERT語言模型,名為 bangla - bert,該模型現已在Hugging Face模型中心上線。它是基於掩碼語言建模的預訓練孟加拉語模型,為孟加拉語的自然語言處理任務提供了強大支持。
🚀 快速開始
我們在此介紹的 bangla - bert 是一個預訓練的孟加拉語語言模型,它基於 BERT 中描述的掩碼語言建模方法,相關GitHub 倉庫 可供參考。
✨ 主要特性
- 標籤相關:該模型與“Bert base Bangla”“Bengali Bert”“Bengali lm”“Bangla Base Bert”“Bangla Bert language model”“Bangla Bert”等標籤相關,表明其在孟加拉語BERT模型領域的專業性。
- 數據集支持:使用來自Kaggle的 BanglaLM 數據集進行訓練,該數據集有3個版本,總量約40GB。
📦 安裝指南
文檔未提及具體安裝步驟,暫不提供。
💻 使用示例
基礎用法
bangla - bert分詞器
from transformers import AutoTokenizer, AutoModel
bnbert_tokenizer = AutoTokenizer.from_pretrained("Kowsher/bangla-bert")
text = "খাঁটি সোনার চাইতে খাঁটি আমার দেশের মাটি"
bnbert_tokenizer.tokenize(text)
高級用法
掩碼生成
在這裡,我們可以使用孟加拉語BERT基礎模型進行掩碼語言建模:
from transformers import BertForMaskedLM, BertTokenizer, pipeline
model = BertForMaskedLM.from_pretrained("Kowsher/bangla-bert")
tokenizer = BertTokenizer.from_pretrained("Kowsher/bangla-bert")
nlp = pipeline('fill-mask', model=model, tokenizer=tokenizer)
for pred in nlp(f"আমি বাংলার গান {nlp.tokenizer.mask_token}"):
print(pred)
nlp = pipeline('fill-mask', model=model, tokenizer=tokenizer)
for pred in nlp(f"তুই রাজাকার তুই {nlp.tokenizer.mask_token}"):
print(pred)
nlp = pipeline('fill-mask', model=model, tokenizer=tokenizer)
for pred in nlp(f"বাংলা আমার {nlp.tokenizer.mask_token}"):
print(pred)
📚 詳細文檔
語料庫詳情
我們使用來自Kaggle的 BanglaLM 數據集對孟加拉語BERT語言模型進行訓練。該數據集有3個版本,總量約40GB。下載數據集後,我們開始進行掩碼語言建模的工作。
引用此工作
M. Kowsher, A. A. Sami, N. J. Prottasha, M. S. Arefin, P. K. Dhar and T. Koshiba, "Bangla - BERT: Transformer - based Efficient Model for Transfer Learning and Language Understanding," in IEEE Access, 2022, doi: 10.1109/ACCESS.2022.3197662.
📄 許可證
文檔未提及許可證信息,暫不提供。
👨💻 作者
Kowsher