KyrgyzBert开源语言模型 - 免费部署助力吉尔吉斯语自然语言处理

首页

Kyrgyzbert

由 metinovadilet 开发

基于BERT架构的小规模语言模型，专为吉尔吉斯语自然语言处理应用设计。

大型语言模型

Transformers

其他开源协议:Apache-2.0 #吉尔吉斯语MLM #小规模BERT #文本补全

下载量 79

发布时间 : 2/26/2025

模型简介

吉尔吉斯Bert是一个基于BERT架构的小规模语言模型，在大量吉尔吉斯语文本语料库上进行了预训练，适用于掩码语言建模（MLM）、文本分类及吉尔吉斯语自然语言处理应用。

模型特点

定制吉尔吉斯语分词器

使用专门为吉尔吉斯语定制的分词器，优化了语言处理效果。

小规模BERT架构

采用小规模BERT架构，隐藏层维度512，层数6，注意力头数8，适合资源有限的环境。

高性能预训练

在包含150万句以上的吉尔吉斯语文本语料库上进行预训练，优化了掩码语言建模任务。

模型能力

文本补全与预测

特征提取

情感分析

命名实体识别（NER）

机器翻译

使用案例

文本处理

填充缺失词汇

填充吉尔吉斯文本中的缺失词汇，适用于文本补全与预测任务。

自然语言处理

情感分析

通过微调模型，可用于吉尔吉斯语的情感分析任务。

命名实体识别（NER）

通过微调模型，可用于识别吉尔吉斯语文本中的命名实体。

🚀 吉尔吉斯语BERT模型

吉尔吉斯语BERT（KyrgyzBert）是一个基于BERT架构的小规模语言模型，它在大规模吉尔吉斯语文本语料库上进行了预训练。该模型可用于掩码语言建模（MLM）、文本分类以及吉尔吉斯语自然语言处理（NLP）应用，旨在推动吉尔吉斯语NLP研究和实际应用的发展。

🚀 快速开始

你可以使用Hugging Face的transformers库加载该模型：

from transformers import BertTokenizerFast, BertForMaskedLM
import torch

# Load model and tokenizer
model_name = "metinovadilet/KyrgyzBert"
tokenizer = BertTokenizerFast.from_pretrained(model_name)
model = BertForMaskedLM.from_pretrained(model_name)

# Input text with [MASK] token
text = "Бул жерден [MASK] нерселерди таба аласыз."

# Tokenize input
inputs = tokenizer(text, return_tensors="pt")

# Model prediction
with torch.no_grad():
    outputs = model(**inputs).logits

# Find masked token index
masked_index = (inputs.input_ids == tokenizer.mask_token_id).nonzero(as_tuple=True)[1].item()

# Get top 5 predictions for the masked token
probs = torch.softmax(outputs[0, masked_index], dim=-1)
top_k = torch.topk(probs, k=5)  # Get top 5 predictions

# Decode predicted tokens
predicted_tokens = [tokenizer.decode([token_id]) for token_id in top_k.indices.tolist()]

# Print predictions
print(f"Top predictions for [MASK]: {', '.join(predicted_tokens)}")

✨ 主要特性

多任务支持：可用于掩码语言建模、文本分类和其他吉尔吉斯语NLP任务。
预训练优势：在大规模吉尔吉斯语文本语料库上预训练，为下游任务提供良好基础。

📦 安装指南

使用Hugging Face的transformers库加载模型，确保环境中已安装该库：

pip install transformers torch

📚 详细文档

模型详情

属性	详情
模型架构	BERT（小规模变体）
词汇表大小	自定义吉尔吉斯语分词器
隐藏层大小	512
层数	6
注意力头数	8
中间层大小	2048
最大序列长度	512
预训练任务	掩码语言建模（MLM）
框架	Hugging Face Transformers

训练数据

该模型在包含超过150万个句子的未公开数据集上进行训练，使用metinovadilet/bert-kyrgyz-tokenizer进行分词。

训练设置

硬件：在RTX 3090 GPU上训练
批量大小：16
优化器：AdamW
学习率：1e - 4
权重衰减：0.01
训练轮数：1000

预期用途

文本补全与预测：填充吉尔吉斯语文本中的缺失词。
特征提取：为下游NLP任务提供吉尔吉斯语词嵌入。
微调：可针对吉尔吉斯语情感分析、命名实体识别（NER）、机器翻译等特定任务进行微调。

🔧 技术细节

该模型基于BERT架构的小规模变体，在大规模吉尔吉斯语文本语料库上进行掩码语言建模预训练。通过自定义吉尔吉斯语分词器处理输入文本，使用AdamW优化器进行训练，以提高模型在吉尔吉斯语NLP任务中的性能。

📄 许可证

该模型遵循Apache 2.0许可证发布。

🔗 引用

如果在你的研究中使用了该模型，请引用以下内容：

@misc{metinovadilet2025kyrgyzbert,
  author = {Metinov Adilet},
  title = {KyrgyzBert: A Small BERT Model for the Kyrgyz Language},
  year = {2025},
  howpublished = {Hugging Face},
  url = {https://huggingface.co/metinovadilet/KyrgyzBert}
}