🚀 XLM-RoBERTa高棉语掩码语言模型
这是一个使用XLM - RoBERTa架构为高棉语和英语构建的预训练语言模型,专为掩码语言建模任务而训练。在掩码语言建模(MLM)任务中,这个非官方的预训练模型在高棉语语境下的表现优于原始的FacebookAI/xlm - roberta - base模型。
🚀 快速开始
以下是使用该模型的示例代码:
填充掩码管道
from transformers import pipeline
fill_mask = pipeline("fill-mask", model="metythorn/khmer-xlm-roberta-base")
result = fill_mask("ខ្ញុំចង់<mask>ភាសាខ្មែរ")
print(result)
直接使用模型
from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("metythorn/khmer-xlm-roberta-base")
model = AutoModelForMaskedLM.from_pretrained("metythorn/khmer-xlm-roberta-base")
text = "ខ្ញុំចង់<mask>ភាសាខ្មែរ"
inputs = tokenizer(text, return_tensors="pt")
outputs = model(**inputs)
predictions = outputs.logits
print("Model loaded successfully!")
✨ 主要特性
- 专为高棉语和英语的掩码语言建模任务设计。
- 在高棉语语境的掩码语言建模任务中表现优于原始的xlm - roberta - base模型。
- 可用于填充掩码任务、特征提取、下游高棉语自然语言处理任务的微调以及高棉语理解研究。
📦 安装指南
文档未提供安装步骤,可参考transformers
库的官方安装指南进行安装。
💻 使用示例
基础用法
from transformers import pipeline
fill_mask = pipeline("fill-mask", model="metythorn/khmer-xlm-roberta-base")
result = fill_mask("ខ្ញុំចង់<mask>ភាសាខ្មែរ")
print(result)
高级用法
from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("metythorn/khmer-xlm-roberta-base")
model = AutoModelForMaskedLM.from_pretrained("metythorn/khmer-xlm-roberta-base")
text = "ខ្ញុំចង់<mask>ភាសាខ្មែរ"
inputs = tokenizer(text, return_tensors="pt")
outputs = model(**inputs)
predictions = outputs.logits
print("Model loaded successfully!")
📚 详细文档
模型详情
属性 |
详情 |
模型类型 |
用于掩码语言建模的XLM - RoBERTa |
语言 |
高棉语(km) |
基础模型 |
xlm - roberta - base |
训练数据 |
包含约8400万个示例的高棉语和英语数据集,约8.2GB |
参数 |
93,733,648个可训练参数 |
训练步骤 |
1,122,978 |
最终检查点 |
第358500步 |
训练详情
- 训练示例:约8400万个示例,约8.2GB
- 轮数:3
- 批量大小:8(使用DataParallel)
- 梯度累积:1
- 总优化步骤:1,122,978
- 学习率:约2e - 5(使用调度器)
- 硬件和训练时间:使用4个GPU训练2天
训练指标
- 最终训练损失:1.5163
- 最终学习率:6.61e - 06
- 最终梯度范数:2.9005
- 训练轮数:66.94
预期用途
- 填充掩码任务:用于高棉语的填充掩码任务。
- 特征提取:提取高棉语文本的特征。
- 微调:在下游高棉语自然语言处理任务上进行微调。
- 研究:用于高棉语理解的研究。
局限性
- 主要基于高棉语文本模式进行训练。
- 可能无法有效处理代码切换(code - switching)情况。
- 在正式和非正式高棉语中的表现可能有所不同。
- 对技术或特定领域词汇的接触有限。
训练数据
该模型在一个自定义的高棉语数据集上进行训练,该数据集包含各种文本来源,以确保广泛的语言覆盖。
评估
使用以下代码对该模型进行掩码语言建模评估:
from transformers import pipeline
import numpy as np
fill_mask = pipeline("fill-mask", model="metythorn/khmer-xlm-roberta-base")
test_sentences = [
"ប្រទេសកម្ពុជាមាន<mask>ខេត្ត",
"រាជធានីភ្នំពេញគឺជ<mask>របស់ប្រទេសកម្ពុជា",
"ខ្ញុំចង់<mask>សៀវភៅ"
]
for sentence in test_sentences:
result = fill_mask(sentence)
print(f"Input: {sentence}")
print(f"Top prediction: {result[0]['token_str']}")
print("---")
📄 许可证
本模型采用Apache - 2.0许可证。
🔗 引用
如果您在研究中使用了该模型,请引用:
@misc{xlm-roberta-khmer,
title={XLM-RoBERTa Khmer Masked Language Model},
author={Your Name},
year={2025},
url={https://huggingface.co/metythorn/khmer-xlm-roberta-base}
}