KyrgyzBert開源語言模型 - 免費部署助力吉爾吉斯語自然語言處理

首頁

Kyrgyzbert

由metinovadilet開發

基於BERT架構的小規模語言模型，專為吉爾吉斯語自然語言處理應用設計。

大型語言模型

Transformers

其他開源協議:Apache-2.0 #吉爾吉斯語MLM #小規模BERT #文本補全

下載量 79

發布時間 : 2/26/2025

模型概述

吉爾吉斯Bert是一個基於BERT架構的小規模語言模型，在大量吉爾吉斯語文本語料庫上進行了預訓練，適用於掩碼語言建模（MLM）、文本分類及吉爾吉斯語自然語言處理應用。

模型特點

定製吉爾吉斯語分詞器

使用專門為吉爾吉斯語定製的分詞器，優化了語言處理效果。

小規模BERT架構

採用小規模BERT架構，隱藏層維度512，層數6，注意力頭數8，適合資源有限的環境。

高性能預訓練

在包含150萬句以上的吉爾吉斯語文本語料庫上進行預訓練，優化了掩碼語言建模任務。

模型能力

文本補全與預測

特徵提取

情感分析

命名實體識別（NER）

機器翻譯

使用案例

文本處理

填充缺失詞彙

填充吉爾吉斯文本中的缺失詞彙，適用於文本補全與預測任務。

自然語言處理

情感分析

通過微調模型，可用於吉爾吉斯語的情感分析任務。

命名實體識別（NER）

通過微調模型，可用於識別吉爾吉斯語文本中的命名實體。

🚀 吉爾吉斯語BERT模型

吉爾吉斯語BERT（KyrgyzBert）是一個基於BERT架構的小規模語言模型，它在大規模吉爾吉斯語文本語料庫上進行了預訓練。該模型可用於掩碼語言建模（MLM）、文本分類以及吉爾吉斯語自然語言處理（NLP）應用，旨在推動吉爾吉斯語NLP研究和實際應用的發展。

🚀 快速開始

你可以使用Hugging Face的transformers庫加載該模型：

from transformers import BertTokenizerFast, BertForMaskedLM
import torch

# Load model and tokenizer
model_name = "metinovadilet/KyrgyzBert"
tokenizer = BertTokenizerFast.from_pretrained(model_name)
model = BertForMaskedLM.from_pretrained(model_name)

# Input text with [MASK] token
text = "Бул жерден [MASK] нерселерди таба аласыз."

# Tokenize input
inputs = tokenizer(text, return_tensors="pt")

# Model prediction
with torch.no_grad():
    outputs = model(**inputs).logits

# Find masked token index
masked_index = (inputs.input_ids == tokenizer.mask_token_id).nonzero(as_tuple=True)[1].item()

# Get top 5 predictions for the masked token
probs = torch.softmax(outputs[0, masked_index], dim=-1)
top_k = torch.topk(probs, k=5)  # Get top 5 predictions

# Decode predicted tokens
predicted_tokens = [tokenizer.decode([token_id]) for token_id in top_k.indices.tolist()]

# Print predictions
print(f"Top predictions for [MASK]: {', '.join(predicted_tokens)}")

✨ 主要特性

多任務支持：可用於掩碼語言建模、文本分類和其他吉爾吉斯語NLP任務。
預訓練優勢：在大規模吉爾吉斯語文本語料庫上預訓練，為下游任務提供良好基礎。

📦 安裝指南

使用Hugging Face的transformers庫加載模型，確保環境中已安裝該庫：

pip install transformers torch

📚 詳細文檔

模型詳情

屬性	詳情
模型架構	BERT（小規模變體）
詞彙表大小	自定義吉爾吉斯語分詞器
隱藏層大小	512
層數	6
注意力頭數	8
中間層大小	2048
最大序列長度	512
預訓練任務	掩碼語言建模（MLM）
框架	Hugging Face Transformers

訓練數據

該模型在包含超過150萬個句子的未公開數據集上進行訓練，使用metinovadilet/bert-kyrgyz-tokenizer進行分詞。

訓練設置

硬件：在RTX 3090 GPU上訓練
批量大小：16
優化器：AdamW
學習率：1e - 4
權重衰減：0.01
訓練輪數：1000

預期用途

文本補全與預測：填充吉爾吉斯語文本中的缺失詞。
特徵提取：為下游NLP任務提供吉爾吉斯語詞嵌入。
微調：可針對吉爾吉斯語情感分析、命名實體識別（NER）、機器翻譯等特定任務進行微調。

🔧 技術細節

該模型基於BERT架構的小規模變體，在大規模吉爾吉斯語文本語料庫上進行掩碼語言建模預訓練。通過自定義吉爾吉斯語分詞器處理輸入文本，使用AdamW優化器進行訓練，以提高模型在吉爾吉斯語NLP任務中的性能。

📄 許可證

該模型遵循Apache 2.0許可證發佈。

🔗 引用

如果在你的研究中使用了該模型，請引用以下內容：

@misc{metinovadilet2025kyrgyzbert,
  author = {Metinov Adilet},
  title = {KyrgyzBert: A Small BERT Model for the Kyrgyz Language},
  year = {2025},
  howpublished = {Hugging Face},
  url = {https://huggingface.co/metinovadilet/KyrgyzBert}
}