🚀 キルギスBERT
キルギスBERTは、大規模なキルギス語コーパスで事前学習された小規模のBERTベースの言語モデルです。マスク付き言語モデリング(MLM)、テキスト分類、キルギス語の自然言語処理(NLP)アプリケーション向けに設計されています。このモデルはMetinov Adiletによって開発され、キルギス語のNLP研究と実用アプリケーションの向上を目指しています。
🚀 クイックスタート
キルギスBERTは、キルギス語の自然言語処理タスクを支援するために設計された小規模のBERTベースの言語モデルです。以下のコードを使用して、モデルをロードし、マスクされたトークンの予測を行うことができます。
from transformers import BertTokenizerFast, BertForMaskedLM
import torch
model_name = "metinovadilet/KyrgyzBert"
tokenizer = BertTokenizerFast.from_pretrained(model_name)
model = BertForMaskedLM.from_pretrained(model_name)
text = "Бул жерден [MASK] нерселерди таба аласыз."
inputs = tokenizer(text, return_tensors="pt")
with torch.no_grad():
outputs = model(**inputs).logits
masked_index = (inputs.input_ids == tokenizer.mask_token_id).nonzero(as_tuple=True)[1].item()
probs = torch.softmax(outputs[0, masked_index], dim=-1)
top_k = torch.topk(probs, k=5)
predicted_tokens = [tokenizer.decode([token_id]) for token_id in top_k.indices.tolist()]
print(f"Top predictions for [MASK]: {', '.join(predicted_tokens)}")
✨ 主な機能
- テキスト補完と予測:キルギス語のテキストにおける欠落した単語を埋めることができます。
- 特徴抽出:下流のNLPタスクに使用するためのキルギス語の単語埋め込みを提供します。
- ファインチューニング:キルギス語の感情分析、固有表現認識(NER)、機械翻訳などの特定のタスクに対してファインチューニングすることが可能です。
📦 インストール
このモデルはHugging Faceのtransformers
ライブラリを使用してロードできます。上記の「クイックスタート」セクションのコードを参照してください。
📚 ドキュメント
モデルの詳細
プロパティ |
詳細 |
アーキテクチャ |
BERT(小規模バリアント) |
語彙サイズ |
カスタムキルギス語トークナイザ |
隠れ層のサイズ |
512 |
レイヤー数 |
6 |
アテンションヘッド数 |
8 |
中間層のサイズ |
2048 |
最大シーケンス長 |
512 |
事前学習タスク |
マスク付き言語モデリング(MLM) |
フレームワーク |
Hugging Face Transformers |
学習データ
このモデルは、150万文以上を含む非公開のデータセットで学習されました。データセットはmetinovadilet/bert-kyrgyz-tokenizerを使用してトークン化されました。
学習設定
- ハードウェア:RTX 3090 GPUで学習されました。
- バッチサイズ:16
- オプティマイザ:AdamW
- 学習率:1e-4
- 重み減衰:0.01
- 学習エポック数:1000
🔧 技術詳細
モデルの制限事項
- このモデルは、低リソースの方言やコードスイッチングに対応するのが難しい場合があります。
- 性能は学習データの品質と多様性に依存します。
- 感情分析やNERなどの特定のタスクに対してはファインチューニングされていません。
謝辞
このモデルはMetinov Adiletによって開発されました。このモデルを使用する場合は、引用を検討してください。
ライセンス
このモデルはApache 2.0 Licenseの下で公開されています。
引用
このモデルを研究で使用する場合は、以下のように引用してください。
@misc{metinovadilet2025kyrgyzbert,
author = {Metinov Adilet},
title = {KyrgyzBert: A Small BERT Model for the Kyrgyz Language},
year = {2025},
howpublished = {Hugging Face},
url = {https://huggingface.co/metinovadilet/KyrgyzBert}
}
連絡先
質問がある場合は、Metinov AdiletにHugging Faceまたはメール(metinovadilet@gmail.com)で連絡してください。
Ulutsoftコラボレーション