🚀 XLM-RoBERTa高棉語掩碼語言模型
這是一個使用XLM - RoBERTa架構為高棉語和英語構建的預訓練語言模型,專為掩碼語言建模任務而訓練。在掩碼語言建模(MLM)任務中,這個非官方的預訓練模型在高棉語語境下的表現優於原始的FacebookAI/xlm - roberta - base模型。
🚀 快速開始
以下是使用該模型的示例代碼:
填充掩碼管道
from transformers import pipeline
fill_mask = pipeline("fill-mask", model="metythorn/khmer-xlm-roberta-base")
result = fill_mask("ខ្ញុំចង់<mask>ភាសាខ្មែរ")
print(result)
直接使用模型
from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("metythorn/khmer-xlm-roberta-base")
model = AutoModelForMaskedLM.from_pretrained("metythorn/khmer-xlm-roberta-base")
text = "ខ្ញុំចង់<mask>ភាសាខ្មែរ"
inputs = tokenizer(text, return_tensors="pt")
outputs = model(**inputs)
predictions = outputs.logits
print("Model loaded successfully!")
✨ 主要特性
- 專為高棉語和英語的掩碼語言建模任務設計。
- 在高棉語語境的掩碼語言建模任務中表現優於原始的xlm - roberta - base模型。
- 可用於填充掩碼任務、特徵提取、下游高棉語自然語言處理任務的微調以及高棉語理解研究。
📦 安裝指南
文檔未提供安裝步驟,可參考transformers
庫的官方安裝指南進行安裝。
💻 使用示例
基礎用法
from transformers import pipeline
fill_mask = pipeline("fill-mask", model="metythorn/khmer-xlm-roberta-base")
result = fill_mask("ខ្ញុំចង់<mask>ភាសាខ្មែរ")
print(result)
高級用法
from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("metythorn/khmer-xlm-roberta-base")
model = AutoModelForMaskedLM.from_pretrained("metythorn/khmer-xlm-roberta-base")
text = "ខ្ញុំចង់<mask>ភាសាខ្មែរ"
inputs = tokenizer(text, return_tensors="pt")
outputs = model(**inputs)
predictions = outputs.logits
print("Model loaded successfully!")
📚 詳細文檔
模型詳情
屬性 |
詳情 |
模型類型 |
用於掩碼語言建模的XLM - RoBERTa |
語言 |
高棉語(km) |
基礎模型 |
xlm - roberta - base |
訓練數據 |
包含約8400萬個示例的高棉語和英語數據集,約8.2GB |
參數 |
93,733,648個可訓練參數 |
訓練步驟 |
1,122,978 |
最終檢查點 |
第358500步 |
訓練詳情
- 訓練示例:約8400萬個示例,約8.2GB
- 輪數:3
- 批量大小:8(使用DataParallel)
- 梯度累積:1
- 總優化步驟:1,122,978
- 學習率:約2e - 5(使用調度器)
- 硬件和訓練時間:使用4個GPU訓練2天
訓練指標
- 最終訓練損失:1.5163
- 最終學習率:6.61e - 06
- 最終梯度範數:2.9005
- 訓練輪數:66.94
預期用途
- 填充掩碼任務:用於高棉語的填充掩碼任務。
- 特徵提取:提取高棉語文本的特徵。
- 微調:在下游高棉語自然語言處理任務上進行微調。
- 研究:用於高棉語理解的研究。
侷限性
- 主要基於高棉語文本模式進行訓練。
- 可能無法有效處理代碼切換(code - switching)情況。
- 在正式和非正式高棉語中的表現可能有所不同。
- 對技術或特定領域詞彙的接觸有限。
訓練數據
該模型在一個自定義的高棉語數據集上進行訓練,該數據集包含各種文本來源,以確保廣泛的語言覆蓋。
評估
使用以下代碼對該模型進行掩碼語言建模評估:
from transformers import pipeline
import numpy as np
fill_mask = pipeline("fill-mask", model="metythorn/khmer-xlm-roberta-base")
test_sentences = [
"ប្រទេសកម្ពុជាមាន<mask>ខេត្ត",
"រាជធានីភ្នំពេញគឺជ<mask>របស់ប្រទេសកម្ពុជា",
"ខ្ញុំចង់<mask>សៀវភៅ"
]
for sentence in test_sentences:
result = fill_mask(sentence)
print(f"Input: {sentence}")
print(f"Top prediction: {result[0]['token_str']}")
print("---")
📄 許可證
本模型採用Apache - 2.0許可證。
🔗 引用
如果您在研究中使用了該模型,請引用:
@misc{xlm-roberta-khmer,
title={XLM-RoBERTa Khmer Masked Language Model},
author={Your Name},
year={2025},
url={https://huggingface.co/metythorn/khmer-xlm-roberta-base}
}