🚀 吉尔吉斯语BERT模型
吉尔吉斯语BERT(KyrgyzBert)是一个基于BERT架构的小规模语言模型,它在大规模吉尔吉斯语文本语料库上进行了预训练。该模型可用于掩码语言建模(MLM)、文本分类以及吉尔吉斯语自然语言处理(NLP)应用,旨在推动吉尔吉斯语NLP研究和实际应用的发展。
🚀 快速开始
你可以使用Hugging Face的transformers
库加载该模型:
from transformers import BertTokenizerFast, BertForMaskedLM
import torch
model_name = "metinovadilet/KyrgyzBert"
tokenizer = BertTokenizerFast.from_pretrained(model_name)
model = BertForMaskedLM.from_pretrained(model_name)
text = "Бул жерден [MASK] нерселерди таба аласыз."
inputs = tokenizer(text, return_tensors="pt")
with torch.no_grad():
outputs = model(**inputs).logits
masked_index = (inputs.input_ids == tokenizer.mask_token_id).nonzero(as_tuple=True)[1].item()
probs = torch.softmax(outputs[0, masked_index], dim=-1)
top_k = torch.topk(probs, k=5)
predicted_tokens = [tokenizer.decode([token_id]) for token_id in top_k.indices.tolist()]
print(f"Top predictions for [MASK]: {', '.join(predicted_tokens)}")
✨ 主要特性
- 多任务支持:可用于掩码语言建模、文本分类和其他吉尔吉斯语NLP任务。
- 预训练优势:在大规模吉尔吉斯语文本语料库上预训练,为下游任务提供良好基础。
📦 安装指南
使用Hugging Face的transformers
库加载模型,确保环境中已安装该库:
pip install transformers torch
📚 详细文档
模型详情
属性 |
详情 |
模型架构 |
BERT(小规模变体) |
词汇表大小 |
自定义吉尔吉斯语分词器 |
隐藏层大小 |
512 |
层数 |
6 |
注意力头数 |
8 |
中间层大小 |
2048 |
最大序列长度 |
512 |
预训练任务 |
掩码语言建模(MLM) |
框架 |
Hugging Face Transformers |
训练数据
该模型在包含超过150万个句子的未公开数据集上进行训练,使用metinovadilet/bert-kyrgyz-tokenizer
进行分词。
训练设置
- 硬件:在RTX 3090 GPU上训练
- 批量大小:16
- 优化器:AdamW
- 学习率:1e - 4
- 权重衰减:0.01
- 训练轮数:1000
预期用途
- 文本补全与预测:填充吉尔吉斯语文本中的缺失词。
- 特征提取:为下游NLP任务提供吉尔吉斯语词嵌入。
- 微调:可针对吉尔吉斯语情感分析、命名实体识别(NER)、机器翻译等特定任务进行微调。
🔧 技术细节
该模型基于BERT架构的小规模变体,在大规模吉尔吉斯语文本语料库上进行掩码语言建模预训练。通过自定义吉尔吉斯语分词器处理输入文本,使用AdamW优化器进行训练,以提高模型在吉尔吉斯语NLP任务中的性能。
📄 许可证
该模型遵循Apache 2.0许可证发布。
🔗 引用
如果在你的研究中使用了该模型,请引用以下内容:
@misc{metinovadilet2025kyrgyzbert,
author = {Metinov Adilet},
title = {KyrgyzBert: A Small BERT Model for the Kyrgyz Language},
year = {2025},
howpublished = {Hugging Face},
url = {https://huggingface.co/metinovadilet/KyrgyzBert}
}
📞 联系信息
如有疑问,请通过Hugging Face或电子邮件(metinovadilet@gmail.com)联系Metinov Adilet。
⚠️ 重要提示
⚠️ 重要提示
- 该模型在处理低资源方言和代码切换时可能存在困难。
- 模型性能依赖于训练数据的质量和多样性。
- 模型未针对情感分析或命名实体识别等特定任务进行微调。
💡 使用建议
💡 使用建议
在使用模型前,可根据具体任务对模型进行微调,以提高性能。同时,注意训练数据的质量和多样性对模型的影响。