khmer-xlm-roberta-base-10kオープンソース言語モデル - クメール語と英語のマスク言語モデリングの最適化

Khmer Xlm Roberta Base 10k

metythornによって開発

これはXLM - RoBERTaアーキテクチャに基づいて事前学習されたクメール語と英語の言語モデルで、マスク言語モデリングタスクに最適化されており、クメール語の文脈ではオリジナルのxlm - roberta - baseモデルよりも優れた性能を発揮します。

大規模言語モデル

Transformers

その他オープンソースライセンス:Apache-2.0 #クメール語マスク埋め #多言語事前学習 #低リソース最適化

ダウンロード数 1,095

リリース時間 : 7/3/2025

モデル概要

このモデルは主にクメール語のマスク言語モデリングタスクに使用され、マスクの埋め、特徴抽出、下流タスクの微調整、言語理解研究に利用できます。

モデル特徴

クメール語最適化

クメール語に特化して最適化されており、クメール語のマスク言語モデリングタスクではオリジナルのXLM - RoBERTa - baseモデルよりも優れた性能を発揮します

バイリンガル対応

クメール語と英語の処理を同時にサポートします

大規模学習

約8400万個の例（8.2GB）の高品質なバイリンガルデータセットに基づいて学習されました

モデル能力

マスク埋め予測

テキスト特徴抽出

言語モデル微調整

使用事例

自然言語処理

クメール語テキスト補完

クメール語の文でマスクされた単語を予測する

クメール語の文脈ではオリジナルのXLM - RoBERTaよりも優れた性能を発揮します

言語理解研究

クメール語の言語モデルの研究と分析に使用する

🚀 XLM-RoBERTa Khmer Masked Language Model

このモデルは、クメール語と英語のマスク付き言語モデリングタスクに特化した、XLM - RoBERTaアーキテクチャを用いた事前学習言語モデルです。非公式な評価では、この事前学習モデルは、クメール語の文脈におけるMLMタスクで、元のFacebookAI/xlm - roberta - baseよりも優れた性能を発揮します。

✨ 主な機能

クメール語のマスク付き言語モデリングタスクに特化した事前学習
クメール語の特徴抽出
クメール語の下流NLPタスクへのファインチューニング
クメール語理解の研究

📦 インストール

このセクションではインストール手順に関する具体的なコマンドが提供されていないため、スキップします。

💻 使用例

基本的な使用法

from transformers import pipeline

# Load the model
fill_mask = pipeline("fill-mask", model="metythorn/khmer-xlm-roberta-base")

# Example usage
result = fill_mask("ខ្ញុំចង់<mask>ភាសាខ្មែរ")
print(result)

高度な使用法

from transformers import AutoTokenizer, AutoModelForMaskedLM

# Load model and tokenizer
tokenizer = AutoTokenizer.from_pretrained("metythorn/khmer-xlm-roberta-base")
model = AutoModelForMaskedLM.from_pretrained("metythorn/khmer-xlm-roberta-base")

# Example usage
text = "ខ្ញុំចង់<mask>ភាសាខ្មែរ"
inputs = tokenizer(text, return_tensors="pt")

# Get predictions for masked token
outputs = model(**inputs)
predictions = outputs.logits
print("Model loaded successfully!")

📚 ドキュメント

モデルの詳細

属性	详情
モデルタイプ	XLM - RoBERTa for Masked Language Modeling
言語	クメール語 (km)
ベースモデル	xlm - roberta - base
訓練データ	約8400万件のクメール語と英語のデータセット（約8.2GB）
パラメータ	93,733,648個の学習可能なパラメータ
訓練ステップ	1,122,978
最終チェックポイント	ステップ358500

訓練の詳細

訓練例: 約8400万件の例（約8.2GB）
エポック: 3
バッチサイズ: 8 (DataParallel使用)
勾配累積: 1
総最適化ステップ: 1,122,978
学習率: ~2e - 5 (スケジューラ付き)
ハードウェアと訓練時間: 4GPUで2日間の訓練

訓練指標

最終訓練損失: 1.5163
最終学習率: 6.61e - 06
最終勾配ノルム: 2.9005
訓練エポック: 66.94

評価

from transformers import pipeline
import numpy as np

# Load model
fill_mask = pipeline("fill-mask", model="metythorn/khmer-xlm-roberta-base")

# Test examples
test_sentences = [
    "ប្រទេសកម្ពុជាមាន<mask>ខេត្ត",
    "រាជធានីភ្នំពេញគឺជ<mask>របស់ប្រទេសកម្ពុជា",
    "ខ្ញុំចង់<mask>សៀវភៅ"
]

for sentence in test_sentences:
    result = fill_mask(sentence)
    print(f"Input: {sentence}")
    print(f"Top prediction: {result[0]['token_str']}")
    print("---")

🔧 技術詳細

このセクションでは具体的な技術説明が50文字以上提供されていないため、スキップします。

📄 ライセンス

このモデルはApache 2.0ライセンスの下で提供されています。

引用

もしあなたの研究でこのモデルを使用する場合は、以下を引用してください。

@misc{xlm-roberta-khmer,
  title={XLM-RoBERTa Khmer Masked Language Model},
  author={Your Name},
  year={2025},
  url={https://huggingface.co/metythorn/khmer-xlm-roberta-base}
}