🚀 吉爾吉斯語BERT模型
吉爾吉斯語BERT(KyrgyzBert)是一個基於BERT架構的小規模語言模型,它在大規模吉爾吉斯語文本語料庫上進行了預訓練。該模型可用於掩碼語言建模(MLM)、文本分類以及吉爾吉斯語自然語言處理(NLP)應用,旨在推動吉爾吉斯語NLP研究和實際應用的發展。
🚀 快速開始
你可以使用Hugging Face的transformers
庫加載該模型:
from transformers import BertTokenizerFast, BertForMaskedLM
import torch
model_name = "metinovadilet/KyrgyzBert"
tokenizer = BertTokenizerFast.from_pretrained(model_name)
model = BertForMaskedLM.from_pretrained(model_name)
text = "Бул жерден [MASK] нерселерди таба аласыз."
inputs = tokenizer(text, return_tensors="pt")
with torch.no_grad():
outputs = model(**inputs).logits
masked_index = (inputs.input_ids == tokenizer.mask_token_id).nonzero(as_tuple=True)[1].item()
probs = torch.softmax(outputs[0, masked_index], dim=-1)
top_k = torch.topk(probs, k=5)
predicted_tokens = [tokenizer.decode([token_id]) for token_id in top_k.indices.tolist()]
print(f"Top predictions for [MASK]: {', '.join(predicted_tokens)}")
✨ 主要特性
- 多任務支持:可用於掩碼語言建模、文本分類和其他吉爾吉斯語NLP任務。
- 預訓練優勢:在大規模吉爾吉斯語文本語料庫上預訓練,為下游任務提供良好基礎。
📦 安裝指南
使用Hugging Face的transformers
庫加載模型,確保環境中已安裝該庫:
pip install transformers torch
📚 詳細文檔
模型詳情
屬性 |
詳情 |
模型架構 |
BERT(小規模變體) |
詞彙表大小 |
自定義吉爾吉斯語分詞器 |
隱藏層大小 |
512 |
層數 |
6 |
注意力頭數 |
8 |
中間層大小 |
2048 |
最大序列長度 |
512 |
預訓練任務 |
掩碼語言建模(MLM) |
框架 |
Hugging Face Transformers |
訓練數據
該模型在包含超過150萬個句子的未公開數據集上進行訓練,使用metinovadilet/bert-kyrgyz-tokenizer
進行分詞。
訓練設置
- 硬件:在RTX 3090 GPU上訓練
- 批量大小:16
- 優化器:AdamW
- 學習率:1e - 4
- 權重衰減:0.01
- 訓練輪數:1000
預期用途
- 文本補全與預測:填充吉爾吉斯語文本中的缺失詞。
- 特徵提取:為下游NLP任務提供吉爾吉斯語詞嵌入。
- 微調:可針對吉爾吉斯語情感分析、命名實體識別(NER)、機器翻譯等特定任務進行微調。
🔧 技術細節
該模型基於BERT架構的小規模變體,在大規模吉爾吉斯語文本語料庫上進行掩碼語言建模預訓練。通過自定義吉爾吉斯語分詞器處理輸入文本,使用AdamW優化器進行訓練,以提高模型在吉爾吉斯語NLP任務中的性能。
📄 許可證
該模型遵循Apache 2.0許可證發佈。
🔗 引用
如果在你的研究中使用了該模型,請引用以下內容:
@misc{metinovadilet2025kyrgyzbert,
author = {Metinov Adilet},
title = {KyrgyzBert: A Small BERT Model for the Kyrgyz Language},
year = {2025},
howpublished = {Hugging Face},
url = {https://huggingface.co/metinovadilet/KyrgyzBert}
}
📞 聯繫信息
如有疑問,請通過Hugging Face或電子郵件(metinovadilet@gmail.com)聯繫Metinov Adilet。
⚠️ 重要提示
⚠️ 重要提示
- 該模型在處理低資源方言和代碼切換時可能存在困難。
- 模型性能依賴於訓練數據的質量和多樣性。
- 模型未針對情感分析或命名實體識別等特定任務進行微調。
💡 使用建議
💡 使用建議
在使用模型前,可根據具體任務對模型進行微調,以提高性能。同時,注意訓練數據的質量和多樣性對模型的影響。